OnTime
Этот датасет может быть получен двумя способами:
- импорт из сырых данных;
- скачивание готовых партиций.
Импорт из сырых данных
Скачивание данных (из https://github.com/Percona-Lab/ontime-airline-performance/blob/master/download.sh
):
Создание таблицы:
Загрузка данных:
Скачивание готовых партиций
Если вы собираетесь выполнять запросы, приведенные ниже, то к имени таблицы нужно добавить имя базы, datasets.ontime
.
Запросы:
Q0.
Q1. Количество полетов в день с 2000 по 2008 года
Q2. Количество полетов, задержанных более чем на 10 минут, с группировкой по дням неделе, за 2000-2008 года
Q3. Количество задержек по аэропортам за 2000-2008
Q4. Количество задержек по перевозчикам за 2007 год
Q5. Процент задержек по перевозчикам за 2007 год
Более оптимальная версия того же запроса:
Q6. Предыдущий запрос за более широкий диапазон лет, 2000-2008
Более оптимальная версия того же запроса:
Q7. Процент полетов, задержанных на более 10 минут, в разбивке по годам
Более оптимальная версия того же запроса:
Q8. Самые популярные направления по количеству напрямую соединенных городов для различных диапазонов лет
Q9.
Q10.
Бонус:
Данный тест производительности был создан Вадимом Ткаченко, статьи по теме:
- https://www.percona.com/blog/2009/10/02/analyzing-air-traffic-performance-with-infobright-and-monetdb/
- https://www.percona.com/blog/2009/10/26/air-traffic-queries-in-luciddb/
- https://www.percona.com/blog/2009/11/02/air-traffic-queries-in-infinidb-early-alpha/
- https://www.percona.com/blog/2014/04/21/using-apache-hadoop-and-impala-together-with-mysql-for-data-analysis/
- https://www.percona.com/blog/2016/01/07/apache-spark-with-air-ontime-performance-data/
- http://nickmakos.blogspot.ru/2012/08/analyzing-air-traffic-performance-with.html