CAPTAIN-WHU

Содержание

Introduction
2 Introduction to Data Set
Annotation of DOTA
Properties of DOTA
Evaluations
Intelligent Recommendation
Overview
Dataset info
Software implementation
Getting the code
Examples
Winning rate calculation
Mode Name Prediction (XGBoost Model)
Feature importance
Authors
A Large-scale Dataset for Object DeTection in Aerial Images — Dataset
Image Source and Usage License
Object Category
Annotation format
Development kit
Data Download
1 Introduction
2 Motivations
3 Annotation of DOTA
3 Annotation method
4 Dataset splits
4 Properties of DOTA
2 Various orientations of instances
3 Spatial resolution information
4 Various pixel size of categories
5 Various aspect ratio of instances
6 Various instance density of images
5 Evaluations
2 Baselines with horizontal bounding boxes
3 Baselines with oriented bounding boxes
4 Experimental analysis
6 Cross-dataset validations
7 Conclusion
8 Acknowledgement
Рабочая среда
Тренировочные этапы
Экспериментальный выход (следующее размещено какая-то карта)
Abstract

Introduction

The aviation image distinguishes on traditional data sets, with its own characteristics, facing a large data set deviation problem, for example, causes the generalization of the data set:The scale varies more (very well understood, such as vehicles and airports; and very likely a big picture is a goal, a small area has a lot of intensive targets) Densistened small object detection (such as harbor, parking lot) * Detecting the uncertainty of the target: the randomness and scale randomness of the direction (such as extreme aspect ratio of the bridge, will make the ANCHOR priori detection effect discount)

2 Introduction to Data Set

The DOTA data set contains 2806 aerial images with a size of approximately 4kx4k, including 15 categories of total 188,282 instances. Its labeling mode is four-point sized four-dimensional quadrangular four-dimensional (differently parallel BBOX)

Annotation of DOTA

Properties of DOTA

Image size From 800×800 to 4000×4000, it is not equal to the original map, and is not cropped.
Different categories of size

Новости: Сборка для pugna и Mad (рабочая! сборка

It can be seen from the table or have a large scale variability. * Changes in aspect ratio

Ar is Aspect Ratio, the first two represent the horizontal bbox and the direction of the Ar ratio, which can see that the growth ratio of its growth is also very large. * Target density The third image of the above figure reflects the extent of the image contains the number of objects, which reflects the goal of having a considerable number of pictures. Even thousands, this seems that the model used for COCO detection is far available in NMS only 100 upper limit to reduce the amount of calculation.

Evaluations

Comparison of test results under pop framework From some basic detection network test benchmarks, it is still two-stage effects, and the single stage is generally universal. After all, the two stages can default to the unbalance of the category, translation and other problems, and the feature extraction is better, and there is a possibility that the one’s single-stage detector is not used by the FPN structure, so the small goal is not Small objectives account for a large part, so the difference is also true. The best effect is Fr-O, which is to rotate BBOX’s FASTER-RCNN detector. On the one hand, the FASTER RCNN itself is good, on the other hand, it also reflects better GT to assist in learning better characteristics (though The context is useful, but the obvious ship vehicle has brought too much Overap, even the box to the next car, becoming ‘Hard GT’, inevitable deterioration performance)
Data set cut There is also a problem, that is, the DOTA dataset is too large, and the normal testing network input will calculate too slow, and the actual test will cut the picture, resulting in the PATCH of 1024 * 1024, Stride = 512. This process may split some complete targets, and then calculate IOU for the partitioned part, and then re-splicing back.
Deficiency of detector

Новости: СНОУБОЛЛ ДОТА 2

The problem reflected above: AB contrast is not ok, OBB is better than HBB; CD compares OBB can’t be found, because the OBB method is closer to true long width ratio, which is easy to return to return (speculation) It is the priority deviation of Anchor); the return of EF is not very good, the detection of intensive samples is defective

Undertake Matlab, Python and C ++ programming, machine learning, computer vision theory and counseling, undergraduate and master’s people, salted fish trading, professional answer Please refer to the QQ number 757160542, if you are the one.

Intelligent Recommendation

Exploratory and Predictive analysis of the dataset

Defined heroes with highest pick and wining rates
Identified some heroes combinations with the highest winning probability
Built ML models for predicting a winning team and game mode

Overview

Dota 2 is a popular computer game with two teams of 5 players. At the start of the game each player chooses a unique hero with different strengths and weaknesses. The dataset is reasonably sparse as only 10 of 113 possible heroes are chosen in a given game. All games were played in a space of 2 hours on the 13th of August, 2016

Dataset info

Team won the game (1 or -1)
Cluster ID (related to location)
Game mode (eg All Pick)
Game type (eg. Ranked)
till end: Each element is an indicator for a hero.
Value of 1 indicates that a player from team ‘1’ played as that hero and ‘-1’ for the other team.
Hero can be selected by only one player each game. This means that each row has five ‘1’ and five ‘-1’ values.

Software implementation

All source code used to generate the results and figures in the paper are in the dota2.ipynb.
The calculations and figure generation are all run inside
Jupyter notebooks.
The data used in this study is provided in dataset folder
and was taken from here.

Getting the code

You can download a copy of all the files in this repository by cloning the git repository:

git clone https://github.com/DthRazak/Dota2Project.git

or download a zip archive.

Examples

Winning rate calculation

Mode Name Prediction (XGBoost Model)

Feature importance

Authors

This project is licensed with the MIT License.

A Large-scale Dataset for Object DeTection in Aerial Images — Dataset

DOTA: A Large-scale Dataset for Object DeTection in Aerial Images https://captain-whu.github.io/DOTA/index.html

Image Source and Usage License

The images of in DOTA-v1.0 dataset are manily collected from the Google Earth, some are taken by satellite JL-1, the others are taken by satellite GF-2 of the China Centre for Resources Satellite Data and Application. Изображения из набора данных DOTA-v1.0 получены из Google Earth, некоторые из них были получены спутником JL-1, а другие являются спутниками China Resources. Снято GF-2.

Use of the images from Google Earth must respect the corresponding terms of use: “Google Earth” terms of use. Использование изображений из Google Планета Земля должно соответствовать соответствующим условиям использования: Условия использования Google Планета Земля.

All images and their associated annotations in DOTA can be used for academic purposes only, but any commercial use is prohibited. Все изображения и связанные аннотации в DOTA могут использоваться только в научных целях, но любое коммерческое использование запрещено.

Object Category

The object categories in DOTA-v1.0 include: plane, ship, storage tank, baseball diamond, tennis court, basketball court, ground track field, harbor, bridge, large vehicle, small vehicle, helicopter, roundabout, soccer ball field and swimming pool.

Annotation format

Except the annotation of location, category label is assigned for each instance, which comes from one of the above 15 selected categories, and meanwhile a difficult label is provided which indicates whether the instance is difficult to be detected (1 for difficult, 0 for not difficult). Annotations for an image are saved in a text file with the same file name. At the first line, ‘imagesource’ (from GoogleEarth, GF-2 or JL-1) is given. At the second line, ’gsd’(ground sample distance, the physical size of one image pixel, in meters) is given. Note if the ‘gsd’ is missing, it is annotated to be ‘null’. From third line to last line in annotation text file, annotation for each instance is given. The annotation format is: В дополнение к метке местоположения каждому экземпляру присваивается метка категории, которая относится к одной из 15 выбранных выше категорий и предоставляет неузнаваемую метку, указывающую, сложно ли создавать экземпляр Обнаружение (1 означает сложный, 0 означает не сложный). Аннотация изображения сохраняется в текстовом файле с тем же именем файла. В первой строке указан «источник изображений» (из GoogleEarth, GF-2 или JL-1). Во второй строке укажите gsd (расстояние выборки на земле, физический размер пикселя изображения в метрах). Обратите внимание, что если gsd отсутствует, он помечается как нулевой. От третьей строки до последней строки текстового файла аннотации даны аннотации для каждого экземпляра. Формат маркировки:

Development kit

Load and visulize the data.
Evaluate the result.
Split and merge the data.

Data Download

You can download DOTA-v1.0 from either Baidu Drive or Google Drive, according to your network connections.

DOTA-v1.0 on Baidu Drive: Training set, Validation set, Testing images
DOTA-v1.0 on Google Drive: Training set, Validation set, Testing images

1 Introduction

Обнаружение объекта в зрении Земли относится к объекту (например, транспортное средство, самолет), которое расположено на поверхности Земли и предсказывает его категорию. В отличие от общепринятого набора данных обнаружения объекта, в наборе данных обычного обнаружения объекта объект обычно сталкивается, и пример объекта в воздушном изображении обычно появляется в любом направлении, как показано на рисунке 1, в частности на углу платформы зрелища земли. Отказ

Хотя этот метод тонкой настройки является разумным способом исследовать, как показано на рисунке 1, показывает, что задача обнаружения объекта в авиационном изображении отличается от обычного задача обнаружения объекта:

Доля объектных экземпляров в авиационном изображении велик. Это не только связано с пространственным разрешением датчика, но и разность размеров того же объекта.
Как показано на рисунке 1, многие примеры малых объектов переполнены в воздушных изображениях, таких как суда в порту, а транспортные средства на стоянке, а также частотный дисбаланс в воздушном изображении, например, некоторые маленькие размеры, такие как 1K × × 1k) Изображение 1900 экземпляров, в то время как некоторые большие размеры (например, 4K × 4K) изображения могут содержать только небольшое количество небольших экземпляров.
Объекты в авиационном изображении обычно появляются в любом направлении. Существуют также несколько примеров соотношения сторон, например мосты.

Чтобы продвинуть целевое исследование обнаружения в зрении Земли, эта статья вводит большой набор данных для целевого обнаружения в авиационных изображениях (Dota: DataSet для обнаружения объекта в воздушных изображениях). Мы собираем 2806 авиационных изображений из разных датчиков и платформ через общественные сумки. Каждое изображение составляет около 4000 × 4000 пикселей и содержит объекты различных соотношений, направлений и форм. Эти изображения DOTA аннотируются экспертами по интерпретации авионики на 15 общих категорий объектов. Полностью аннотированный набор данных DOTA содержит 188 282 экземпляров, каждый экземпляр состоит из тега ориентированной ограничивающей коробки, а не пограничного поля, которая обычно используется в аннотации объекта в естественной сцене. Основной вклад этой работы:

В дополнение к продвижению исследования обнаружения объектов в Земле Vision, Dota также сделает интересные проблемы алгоритма для регулярного обнаружения объекта в компьютерном видении.

Рисунок 1: Пример, взятый из dota. (A) Типичные изображения в dota состоят из нескольких экземпляров нескольких категорий. (B) Этот тип будет описан в направлении и размере примера. (c), (d) показан в редром примере и приведении затора, соответственно. Здесь мы показываем четыре вида из 15 возможных категорий в доте. (b) (c) (d) является примером, показанным из выделения из исходного изображения (A). Гистограмма (E) (F) показывает распределение примеров относительно размера и направления в доте.

2 Motivations

Однако в обнаружении воздушного объекта отсутствие наборов данных, аналогичных MSCOCO и ImageNet с точки зрения количества изображений и детальной аннотации, которая становится одним из главных препятствий для исследований Земли зрение, особенно для алгоритмов на основе разработки. Обнаружение воздушного объекта очень полезно для количества транспортных средств, отслеживания удаленного объекта и беспилотное вождение. Следовательно, крупномасштабные и сложные ориентиры аэробных объектов, которые настолько близки, насколько это возможно для фактического применения, являются обязательными для продвижения исследований в этой области.

Мы считаем, что набор данных хорошего авиационного изображения должен иметь четыре свойства, а именно:

1) Много изображений,

2) Есть много экземпляров для каждой категории.

3) правильно ориентированные объектные ноты и

Таблица 1: Сравнение между наборами данных обнаружения DOTA и объекта в авиационном изображении. BB — это аббревиатура пограничного поля. One-Dot представляет собой только аннотацию координат центра экземпляра и не учитывает прекрасную классификацию. Например, Dota включает в себя 15 различных категорий, но только 14 основных категорий, поскольку небольшие транспортные средства и крупные транспортные средства являются подкатегориями транспортных средств.

Кроме того, Dota уникальна в вышеуказанной широкомасштабной базе обнаружения общего объекта, а объекты в доте помечены соответствующими ориентированными ограничивающимися коробками (ABB. OBB может лучше приложить объекты и различать переполненные объекты. Преимущества использования OBB в изображении воздуха будут описаны в разделе 3. По сравнению с Dota, Pascal Voc, ImageNet и MScoco, демонстрируя различия в таблице 2.

Таблица 2: Сравнение между DOTA и другими наборами данных об обнаружении объекта. Bbox — это среднее значение границы. Количество BBox представляет количество средних конвертов каждого изображения. Обратите внимание, что для каждого изображения DOTA имеет больший превышение других наборов данных.

3 Annotation of DOTA

В нашем наборе DOTA Data 15 категорий, в том числе самолет, судно, резервуар для хранения, бейсбол, теннисный корт, баскетбольная площадка, наземная взлетно-посадочная полоса, порт, мост, большой автомобиль, небольшой автомобиль, вертолет, кольцо пересечения, футбольное поле и баскетбол.

3 Annotation method

。， oriented instances，。 3（c）（d），，。， oriented objects. 。

3：。，：（a），（b），（c）。（d），（c），。

， 3 ，（x1，y1）， “ ”。，，，，，，，。，，，，，，。

patch( ) 4 。

4 Dataset splits

，， 1/6 ， 1/3 。，。，。

4 Properties of DOTA

，。， 800×800 4000×4000 ， ( PASCAL-VOC MSCOCO) 1000×1000。，，。

2 Various orientations of instances

1 (f) ，，。，，，。

3 Spatial resolution information

Мы также предоставляем пространственное разрешение для каждого изображения в наборе данных, что означает, что фактический размер экземпляра играет важную роль в аэрополютивном целевом обнаружении. Важность пространственного разрешения на тестовую задачу воплощена в двух аспектах. Во-первых, это позволяет модели иметь более сильную адаптацию и надежность разных объектов одной и той же категории. Хорошо известно, что он выглядит меньше на расстоянии. Один и тот же объект, разные размеры будут беспокоить модель, которая не способствует классификации. Однако модель может больше сосредоточиться на информации о разрешении, предоставленной формой, а не размер объекта. Во-вторых, это более подходит для мелкозернистой классификации. Например, очень просто различать лодки и большими линкорами.

Пространственное разрешение также можно использовать для фильтрации групп отмеченных ошибок в наборе данных, поскольку фактический размер категории ограничен. В пределах меньшего диапазона пространственного разрешения выберите объект, имеющий большую разницу от того же типа объекта, и вы можете найти выброс.

4 Various pixel size of categories

Стоит отметить, что размер пикселя отличается в разных категориях. Например, транспортное средство может быть мало до 30, но мост может быть большим до 1200, что в 40 раз больше, чем транспортное средство. Огромные различия между различными экземплярами категории делают задачи обнаружения более сложными, потому что модель должна быть гибкой для обработки минимальных объектов.

5 Various aspect ratio of instances

Рисунок 5: Статистика экземпляра DOTA. Ar представляет собой отношение длинного ширины. (а) горизонтальный ограничивающий Боар. (б) Аремированная ограничивающая коробка Ar. (c) количество экземпляров аннотации каждого изображения.

6 Various instance density of images

Есть так много случаев в одном изображении, и неизбежно можно увидеть примерную область. Для Coco экземпляр не будет маркирован один за другим, потому что трудно отличить пример и его соседний экземпляр. В этих случаях группа экземпляра помечается как сегмент с атрибутом «толпы». Однако для воздушного изображения не так, потому что с вышеупомянутой перспективы почти не заблокирован. Поэтому мы можем прокомментировать все экземпляры один за другим в интенсивном районе. На рисунке 4 показан пример плотного примера. В этих случаях огромная задача выдвигается на текущий метод обнаружения.

5 Evaluations

Изображение в DOTA слишком велико, а детектор на основе CNN не может быть использован напрямую. Следовательно, мы вырезаем серию цветовых блоков 1024 × 1024 от исходного изображения и установите шаги до 512. Обратите внимание, что во время процесса урожая некоторые из полных объектов могут быть разрезаны на две части. Для удобства мы представляем область исходного объекта AO AO, а область разделенной части Pi (I = 1, 2) представлена как Ai (I = 1, 2). Затем мы рассчитаем доля участков деталей на оригинальной области объекта:

На этапе тестирования мы впервые отправляем обрезанное изображение для получения временного результата, а затем объединить результаты, чтобы получить результат обнаружения на исходном изображении. Наконец, мы используем несущественную ингибирование (NMS) на основе категорий прогнозирования. Для эксперимента горизонтальной ограничивающей коробки (аббревиатура HBB) мы поддерживаем порог NMS до 0,3; для ориентированного эксперимента мы поддерживаем его порог до 0,1. Таким образом, мы можем косвенно тренироваться и тестировать модели на основе CNN на DOTA.

Для индикаторов оценки мы используем одни и те же расчеты карты, что и ЛОС Pascal.

2 Baselines with horizontal bounding boxes

Экспериментальные результаты, предсказанные HBB, показаны в таблице 4. Обратите внимание, что результаты SSD находятся далеко ниже других моделей. Мы подозреваем, что это связано с операцией случайной культуры в стратегии расширения данных SSD, которая полезна в общем целевом обнаружении, и это невозможно в очень маленьком экземпляре выявления тренировок воздушного целевого значения. Результаты также указывают на то, что существует огромная разница между аэрокосмическими объектами и общими объектами в примере.

3 Baselines with oriented bounding boxes

Предсказание OBB (ориентированная ограничивающая коробка сложно, потому что существующий метод обнаружения не предназначен для ориентированных объектов. Следовательно, мы выбираем быстрее R-CNN в качестве основной структуры ее точности и эффективности и изменить его, чтобы предсказать ориентированные луки.

4 Experimental analysis

Результаты анализа перечислены в таблице. Как показано на рисунке 4, производительность небольших транспортных средств, крупных транспортных средств и судов и т. Д., Приписывается его меньшим размерам и в положении в авиационном изображении. Напротив, большие и дискретные объекты (такие как самолеты, бассейны и теннисные корты) неплохо.

На рисунке 6 сравниваются результаты между экспериментами целевого обнаружения HBB и OBB. Для интенсивных договоренностей и ориентаций, показанных на рисунках 6 (a) и (b), точность позиционирования объекта в эксперименте HBB намного ниже, чем эксперимент OBB, и многие результаты подавляются после операции. Следовательно, регрессия OBB является правильным способом обнаружения объектов ориентации, которые можно по-настоящему интегрировать в фактические приложения. На фиг. 6 (c) сложно вернуть текущий детектор с помощью объекта соотношения ширины большой длины (такой как порт, мост), помеченный стилем OBB. Однако в стиле HBB эти объекты обычно имеют нормальное соотношение сторон, и, следовательно, результаты кажутся довольно хорошими, как показано на рис. 6 (d). Однако в чрезвычайно интенсивной сцене, например, на рисунках 6 (e) и (f), результаты HBB и OBB не могут быть удовлетворительными, что отражает недостатки текущего детектора.

6 Cross-dataset validations

5 。YOLOv2-A YOLOv2-D 35.8 15.6。 DOTA UCAS-AOD， UCAS-AOD 。 DOTA ， DOTA 。

5: 。 UCASAOD 。 DOTA 。YOLOv2-A YOLOv2-D UCAS-AOD DOTA 。

7 Conclusion

Мы установили широкомасштабный набор данных, который используется в определении ориентированных объектов в авиационном изображении, что намного больше, чем любые существующие данные, установленные в этой области. В отличие от основных ориентиров обнаружения объекта, мы используем ориентированные ограничивающие коробки, чтобы отметить много распределенных ориентированных объектов. Мы считаем, что набор данных сложно, очень похоже на сцену природной авиации, а натуральная сцена более подходит для практических применений. Мы также создали ориентир для обнаружения объекта в авиационном изображении и доказали возможность получения ориентированных ограничивающих коробок путем изменения основного алгоритма обнаружения.

8 Acknowledgement

We thank Fan Hu, Pu Jin, Xinyi Tong, Xuan Hu, Zhipeng Dong, Liang Wu, Jun Tang, Linyan Cui, Duoyou Zhou, Tengteng Huang, and all the others who involved in the annotations of DOTA.

Рабочая среда

Ubuntu16.04
python3.6.5

Тренировочные этапы

# Running directly from the repository:
keras_retinanettrainpy coco pathtoMSCOCO

# Using the installed script:
retinanettrain coco pathtoMSCOCO

python trainpy coco homexxxDOTADOTA_clip_coco_600DOTA_clip_coco_600

/path/to/MS/COCO: Введите место, где хранится ваши данные COCO. Следующая команда не пробовала, а друзья с потребностями могут практиковать себя.

PS: Получите модель обучения, хотите использовать модель для оценки модели для преобразования модели.

python convert_modelpy snapshotsresnet50_coco_06h5 modelsresnet50_coco_06h5

python evaluatepy imageside imageside coco homexxxDOTADOTA_clip_coco_600DOTA_clip_coco_600 modelsresnet50_coco_06h5

Команда предварительной тренировки, данная автором: Сначала используйте модель загрузки отпуска, поместите модель в снимки, выполните следующий код.

python trainpy weights kerasretinanetsnapshotsresnet50_coco_best_v2h5 coco homexxxDOTADOTA_clip_coco_600DOTA_clip_coco_600

Экспериментальный выход (следующее размещено какая-то карта)

Abstract

Object detection is an important and challenging problem in computer vision. Although the past decade has witnessed significant advances in object detection in natural scenes, this success has been slow for aerial imagery, not only because of the huge differences in the size, orientation and shape of objects on the Earth ’s surface, but also because of the air The scarcity of annotated data sets in the scene. In order to advance the object detection research in «Earth Vision» (also known as «Earth Observation and Remote Sensing»), we introduced a large data set (DOTA) for object detection in aerial images. To this end, we collected 2806 aerial images from different sensors and platforms. Each image is approximately 4000 × 4000 pixels in size and contains objects of various proportions, orientations and shapes. These DOTA images are annotated by aerial image interpretation experts using 15 common object categories. The fully annotated DOTA image contains 188,282 instances, each of which is marked by an arbitrary (8 d.o.f.) quadrilateral. In order to establish a benchmark for object detection in Earth Vision, we use the latest object detection algorithm on DOTA for evaluation. Experiments show that DOTA represents the real Earth Vision application well, and it is very challenging.

Object detection in Earth Vision refers to locating objects of interest (eg, vehicles, airplanes) on the surface of the earth and predicting their categories. Unlike the conventional object detection data set, in the conventional object detection data set, the object usually faces upward due to gravity, and the object instance in the aerial image usually appears in any direction, as shown in Figure 1, depending on the Earth Vision platform Angle.

The proportion of object instances in aerial imagery varies greatly. This is not only due to the spatial resolution of the sensor, but also the size difference of similar objects.
As shown in Figure 1, many instances of small objects are crowded in the aerial image, such as ships in the port and vehicles in the parking lot, and the frequency of the instances in the aerial image is unbalanced. 1900 instances, and some large-size (eg 4k × 4k) images may contain only a small number of small instances.
Objects in aerial images usually appear in any direction. There are also examples of very large aspect ratios, such as bridges.

In order to advance the target detection research in Earth Vision, this article introduces a large data set (DOTA: Dataset for Object deTection in Aerial images) for target detection in aerial imagery. We collected 2806 aerial images from different sensors and platforms through crowdsourcing. The size of each image is about 4000 × 4000 pixels, and contains objects of different proportions, directions and shapes. These DOTA images are annotated by aerial image interpretation experts for 15 common object categories. The fully annotated DOTA dataset contains 188,282 instances, each of which is marked by an oriented bounding box, rather than the axis-aligned bounding box that is commonly used for object annotation in natural scenes. The main contributions of this work are:

In addition to advancing research on object detection in Earth Vision, DOTA will also present interesting algorithmic issues for conventional object detection in computer vision.

Figure 1: An example taken from DOTA. (A) A typical image in DOTA consists of multiple instances in multiple categories. (B) Describe this category in terms of the direction and size of the example. (c), (d) are illustrations of sparse and congested examples, respectively. Here, we show 4 of the 15 possible categories in DOTA. (b) (c) (d) is an example shown in cropping from the source image (a). The histograms (e) (f) show the distribution of examples with respect to size and direction in DOTA.

However, in the detection of aerial objects, the lack of data sets similar to MSCOCO and ImageNet in terms of number of images and detailed annotations has become one of the main obstacles of Earth Vision research, especially for the development of algorithms based on deep learning. Aerial object detection is very useful for vehicle counting, remote object tracking and unmanned driving. Therefore, it is imperative to promote large-scale and challenging aeronautical object detection benchmarks that are as close to practical applications as possible to promote research in this field.

We believe that a good aerial image dataset should have four attributes, namely:

1) A large number of images,

2) There are many examples of each category,

3) Object annotations for proper orientation and

Table 1: Comparison between DOTA and object detection datasets in aerial imagery. BB is an abbreviation of bounding box. One-dot means that only the annotation of the center coordinates of the instance is provided, and the fine classification is not considered. For example, DOTA contains 15 different categories, but only 14 main categories, because small vehicles and large vehicles are subcategories of vehicles.

In addition, what makes DOTA unique among the aforementioned large-scale universal object detection benchmarks is that the objects in DOTA are marked with appropriate oriented bounding boxes (abbreviated as OBB). OBB can better enclose objects and distinguish crowded objects. The benefits of using OBB to annotate objects in aerial images will be further introduced in Section 3. We compared between DOTA, PASCAL VOC, ImageNet and MSCOCO, and the differences are shown in Table 2.

Table 2: Comparison between DOTA and other general object detection data sets. BBox is the average value of the bounding box. The number of BBoxes represents the average number of bounding boxes per image. Please note that for the average number of instances per image, DOTA greatly exceeds other data sets