Это лучшие бесплатные источники открытых данных, которые может использовать каждый

Что такое открытые данные?

Проще говоря, открытые данные означают такие данные, которые открыты для всех и каждого для доступа, изменения, повторного использования и совместного использования.

Открытые данные получают свою основу из различных «открытых движений», таких как открытый исходный код, открытое оборудование, открытое правительство, открытая наука и т. Д.

Правительства, независимые организации и агентства выступили вперед, чтобы открыть шлюзы данных, чтобы создавать все больше и больше открытых данных для свободного и легкого доступа.

Почему так важны открытые данные?

Открытые данные важны, потому что мир все больше ориентируется на данные. Но если существуют ограничения на доступ и использование данных, идея бизнеса и управления, основанных на данных, не будет реализована.

Поэтому открытые данные занимают свое уникальное место. Это может позволить более полное понимание глобальных проблем и универсальных вопросов. Это может дать большой толчок развитию бизнеса. Это может стать большим стимулом для машинного обучения. Это может помочь в борьбе с глобальными проблемами, такими как болезни, преступность или голод. Открытые данные могут расширить возможности граждан и, следовательно, укрепить демократию. Он может упростить процессы и системы, созданные обществом и правительствами. Это может помочь изменить то, как мы понимаем мир и взаимодействуем с ним.

Итак, вот мой список из 15 замечательных источников открытых данных:

1. Открытые данные Всемирного банка

Открытые данные Всемирного банка как хранилище самых полных данных о том, что происходит в разных странах мира, являются жизненно важным источником открытых данных. Он также обеспечивает доступ к другим наборам данных, которые упоминаются в каталоге данных.

Открытые данные Всемирного банка огромны, потому что они содержат 3000 наборов данных и 14000 показателей, охватывающих микроданные, статистику временных рядов и геопространственные данные.

Доступ к нужным данным и их обнаружение также довольно прост. Все, что вам нужно сделать, это указать названия индикаторов, страны или темы, и это откроет вам сокровищницу открытых данных. Он также позволяет загружать данные в различных форматах, таких как CSV, Excel и XML.

Если вы журналист или ученый, вы будете в восторге от множества доступных вам инструментов. Вы можете получить доступ к инструментам анализа и визуализации, которые могут облегчить ваши исследования. Это может способствовать более глубокому и лучшему пониманию глобальных проблем.

Вы можете получить доступ к API, который может помочь вам создать необходимые визуализации данных, живые комбинации с другими источниками данных и многие другие подобные функции.

Поэтому неудивительно, что открытые данные Всемирного банка возглавляют список источников открытых данных!

2. ВОЗ (Всемирная организация здравоохранения) - хранилище открытых данных

Репозиторий открытых данных ВОЗ - это то, как ВОЗ отслеживает статистические данные о здоровье своих 194 государств-членов.

В репозитории данные систематически организованы. К нему можно получить доступ согласно различным потребностям. Например, будь то смертность или бремя болезней, можно получить доступ к данным, отнесенным к 100 или более категориям, таким как Цели развития тысячелетия (питание детей, здоровье ребенка, материнское и репродуктивное здоровье, иммунизация, ВИЧ / СПИД, туберкулез, малярия, забытые болезни, водоснабжение и санитария), неинфекционные заболевания и факторы риска, заболевания, предрасполагающие к эпидемиям, системы здравоохранения, гигиена окружающей среды, насилие и травмы, справедливость и т. д.

Для ваших конкретных потребностей вы можете просматривать наборы данных по темам, категориям, показателям и странам.

Хорошо то, что можно загружать любые данные в формате Excel. Вы также можете отслеживать и анализировать данные, используя его портал данных.

Также доступен API для данных и статистики Всемирной организации здравоохранения.

3. Google Public Data Explorer

Google Public Data Explorer, запущенный в 2010 году, может помочь вам изучить огромное количество наборов данных, представляющих общественный интерес. Вы можете визуализировать и передавать данные для ваших соответствующих целей.

Это делает доступными данные из разных агентств и источников. Например, вы можете получить доступ к данным Всемирного банка, Бюро статистики труда США и Бюро США, ОЭСР, МВФ и других.

Различные заинтересованные стороны получают доступ к этим данным для различных целей. Независимо от того, являетесь ли вы студентом или журналистом, политиком или ученым, вы можете использовать этот инструмент для визуализации общедоступных данных.

Вы можете использовать различные способы представления данных, такие как линейные диаграммы, гистограммы, карты и пузырьковые диаграммы, с помощью Data Explorer.

Лучше всего то, что вы найдете эти визуализации довольно динамичными. Это означает, что вы увидите, как они меняются со временем. Вы можете менять темы, сосредотачиваться на разных записях и изменять масштаб.

Этим тоже легко поделиться. Как только вы подготовите диаграмму, вы можете встроить ее на свой веб-сайт или в блог или просто поделиться ссылкой с друзьями.

4. Реестр открытых данных на AWS (RODA)

Это репозиторий, содержащий общедоступные наборы данных. Это данные, которые доступны на ресурсах AWS.

Что касается RODA, вы можете находить и делиться общедоступными данными.

В RODA вы можете использовать ключевые слова и теги для общих типов данных, таких как геномные, спутниковые изображения и транспорт, чтобы искать любые данные, которые вы ищете. Все это возможно в простом веб-интерфейсе.

Для каждого набора данных вы найдете страницу с подробностями, примеры использования, информацию о лицензии, а также учебные пособия или приложения, которые используют эти данные.

Используя широкий спектр продуктов для вычислений и анализа данных, вы можете анализировать открытые данные и создавать любые сервисы, которые вам нужны.

Хотя данные, к которым вы получаете доступ, доступны через ресурсы AWS, вы должны помнить, что они не предоставляются AWS. Эти данные принадлежат различным агентствам, правительственным организациям, исследователям, предприятиям и частным лицам.

5. Портал открытых данных Европейского союза

Вы можете получить доступ ко всем открытым данным, которые публикуются учреждениями, агентствами и другими организациями ЕС, на единой платформе, а именно на Портале открытых данных Европейского Союза.

Портал открытых данных ЕС является домом для важных открытых данных, относящихся к областям политики ЕС. Эти области политики включают экономику, занятость, науку, окружающую среду и образование.

Около 70 институтов, организаций или департаментов ЕС, таких как Евростат, Европейское агентство по окружающей среде, Центр совместных исследований и другие генеральные директораты Европейской комиссии и агентства ЕС, сделали свои наборы данных общедоступными и разрешили доступ. Эти наборы данных пересекли число 11700 до настоящего времени.

Портал обеспечивает легкий доступ. Вы можете легко искать, исследовать, связывать, загружать и повторно использовать данные через каталог общих метаданных. Вы можете сделать это для своих конкретных целей. Это могут быть коммерческие или некоммерческие цели.

Вы можете выполнять поиск в каталоге метаданных с помощью интерактивной поисковой системы (вкладка «Данные») и запросов SPARQL (вкладка «Связанные данные»).

Используя этот каталог, вы можете получить доступ к данным, хранящимся на различных веб-сайтах учреждений, агентств и организаций ЕС.

6. FiveThirtyEight

Это отличный сайт для журналистики, основанной на данных, и для рассказывания историй.

Он предоставляет различные источники данных для различных секторов, таких как политика, спорт, наука, экономика и т. Д. Вы также можете скачать данные.

При доступе к данным вы найдете краткое объяснение каждого набора данных в отношении его источника. Вы также узнаете, что это означает и как его использовать.

Чтобы сделать эти данные удобными для пользователя, он предоставляет наборы данных в максимально простых, непатентованных форматах, таких как файлы CSV. Излишне говорить, что эти форматы могут быть легко доступны и обработаны людьми, а также машинами.

С помощью этих наборов данных вы можете создавать истории и визуализации в соответствии с вашими требованиями и предпочтениями.

7. Бюро переписи населения США

Бюро переписи населения США - крупнейшее статистическое агентство федерального правительства. Он хранит и предоставляет достоверные факты и данные о людях, местах и ​​экономике Америки.

Бюро переписи населения считает своей благородной миссией расширение своих услуг как наиболее надежного поставщика качественных данных.

Будь то федеральное правительство, правительство штата, местное или племенное правительство, все они используют данные переписи для различных целей. Эти правительства используют эти данные для определения местоположения нового жилья и общественных объектов. Они также используют его при изучении демографических характеристик сообществ, штатов и США.

Эти данные также используются при планировании транспортных систем и дорог. Когда дело доходит до определения квот и создания полицейских участков и пожарных участков, эти данные пригодятся. Когда правительства создают локальные избирательные участки, школы, коммунальные предприятия и т. Д., Они используют эти данные. Информацию о населении собирают раз в десятилетие, и эти данные весьма полезны для достижения той же цели.

Существуют различные инструменты, такие как American Fact Finder, Census Data Explorer и Quick Facts, которые полезны, если вы хотите искать, настраивать и визуализировать данные.

Например, только Quick Facts содержит статистику по всем штатам, округам, городам и даже городкам с населением 5000 и более человек.

Аналогичным образом, American Fact Finder может помочь вам обнаружить популярные факты, такие как население, доход и т. Д. Он предоставляет часто запрашиваемую информацию.

Хорошо то, что вы можете искать, взаимодействовать с данными, узнавать о популярной статистике и просматривать соответствующие диаграммы с помощью обозревателя данных переписи. Более того, вы также можете использовать визуальный инструмент для настройки данных на интерактивных картах.

8. Data.gov

Data.gov - это сокровищница открытых данных правительства США. Лишь недавно было принято решение сделать все правительственные данные доступными бесплатно.

Когда он был запущен, их было всего 47. Сейчас существует 180 000 наборов данных.

Data.gov - отличный ресурс, потому что вы можете найти данные, инструменты и ресурсы, которые можно использовать для различных целей. Вы можете проводить исследования, разрабатывать свои веб-приложения и мобильные приложения и даже создавать визуализации данных.

Все, что вам нужно сделать, это ввести ключевые слова в поле поиска и просмотреть типы, теги, форматы, группы, типы организаций, организации и категории. Это упростит доступ к необходимым данным или наборам данных.

Data.gov следует схеме открытых данных проекта - набору обязательных полей (заголовок, описание, теги, последнее обновление, издатель, контактное лицо и т. Д.) Для каждого набора данных, отображаемого на Data.gov.

9. DBpedia

Как известно, Википедия - отличный источник информации. DBpedia стремится получить структурированный контент из ценной информации, созданной Википедией.

С помощью DBpedia вы можете семантически искать и исследовать отношения и свойства ресурса Википедии. Это также включает ссылки на другие связанные наборы данных.

В наборе данных DBpedia около 4,58 миллиона объектов. 4,22 миллиона классифицируются по онтологии, в том числе 1 445 000 человек, 735 000 мест, 123 000 музыкальных альбомов, 87 000 фильмов, 19 000 видеоигр, 241 000 организаций, 251 000 видов и 6 000 болезней.

Для этих организаций есть ярлыки и аннотации примерно на 125 языках. Есть 25,2 миллиона ссылок на изображения. Есть 29,8 миллиона ссылок на внешние веб-страницы.

Все, что вам нужно сделать, чтобы использовать DBpedia, - это написать запросы SPARQL к конечной точке или загрузить их дампы.

DBpedia принесла пользу нескольким предприятиям, таким как Apple (через Siri), Google (через Freebase и Google Knowledge Graph) и IBM (через Watson), и в частности их соответствующие престижные проекты, связанные с искусственным интеллектом.

10. FreeCodeCamp Открытые данные

Это сообщество с открытым исходным кодом. Это важно, потому что это позволяет вам писать код, создавать проекты на общественных началах после некоммерческих организаций и устраиваться на работу в качестве разработчика.

Чтобы это произошло, сообщество freeCodeCamp.org ежемесячно предоставляет огромные объемы данных. Они превратили это в открытые данные.

В этом репозитории вы найдете множество вещей. Вы можете найти наборы данных, анализ тех же и даже демонстрации проектов на основе данных freeCodeCamp. Вы также можете найти ссылки на внешние проекты, связанные с данными freeCodeCamp.

Он может помочь вам с разнообразными проектами и задачами, которые вы можете иметь в виду. Будь то веб-аналитика, аналитика социальных сетей, анализ социальных сетей, анализ образования, визуализация данных, веб-разработка на основе данных или боты, данные, предлагаемые этим сообществом, могут быть чрезвычайно полезными и эффективными.

11. Открытые наборы данных Yelp

Набор данных Yelp - это, по сути, подмножество ничего, кроме нашего собственного бизнеса, обзоров и пользовательских данных для использования в личных, образовательных и академических целях.

В Yelp Open Datasets включено 5 996 996 отзывов, 188 593 предприятий, 280 991 фотография и 10 городских районов.

Вы можете использовать их для разных целей. Поскольку они доступны в виде файлов JSON, вы можете использовать их для обучения студентов базам данных. Вы можете использовать их для изучения NLP или для получения образцов производственных данных, пока вы понимаете, как создавать мобильные приложения.

В этом наборе данных вы найдете каждый файл, состоящий из одного типа объекта, по одному объекту JSON на строку.

12. Набор данных ЮНИСЕФ

Поскольку ЮНИСЕФ занимается широким кругом критических вопросов, он собрал соответствующие данные об образовании, детском труде, детской инвалидности, детской смертности, материнской смертности, воде и санитарии, низкой массе тела при рождении, дородовой помощи, пневмонии, малярии, йодной недостаточности. расстройство, калечащие операции на женских половых органах / обрезание и подростки.

Открытые наборы данных ЮНИСЕФ, опубликованные в реестре IATI: //www.iatiregistry.org/publisher/unicef ​​были извлечены непосредственно из операционной системы ЮНИСЕФ (VISION) и других систем данных и отражают данные, сделанные отдельными офисами ЮНИСЕФ.

Хорошо то, что эти наборы данных регулярно обновляются. Каждый месяц данные обновляются, чтобы сделать их более полными, надежными и точными.

Вы можете свободно и легко получить доступ к этим данным. Для этого вы можете скачать эти данные в формате CSV. Вы также можете предварительно просмотреть образцы данных перед их загрузкой.

Хотя любой может изучить и визуализировать наборы данных ЮНИСЕФ, есть три основных издателя:

ПОРТАЛ ПРОЗРАЧНОСТИ ПОМОЩИ ЮНИСЕФ: если вы воспользуетесь этим порталом, вам будет намного проще получить доступ к наборам данных. Он также включает подробную информацию по каждой стране, в которой работает ЮНИСЕФ.

Издатель d-portal: В данный момент он находится в бета-версии. С помощью этого портала вы можете просматривать данные IATI.

Вы можете искать информацию, относящуюся к деятельности по развитию, бюджетам и т. Д. Вы можете изучить эту информацию по странам.

Платформа данных издателя: на этой платформе вы можете легко получить доступ к статистике, диаграммам и метрикам по данным, доступным через реестр IATI. Если вы нажмете на заголовки, вы также можете отсортировать многие таблицы, которые вы видите на платформе. Вы также найдете многие наборы данных на платформах в машиночитаемом формате JSON.

13. Kaggle

Kaggle хорош тем, что продвигает использование различных форматов публикации наборов данных. Однако лучше всего то, что он настоятельно рекомендует издателям наборов данных делиться своими данными в доступном, непатентованном формате.

Платформа поддерживает открытые и доступные форматы данных. Это важно не только для доступа, но и для того, что вы хотите делать с этими данными. Таким образом, Kaggle Dataset четко определяет форматы файлов, которые рекомендуются при совместном использовании данных.

Уникальность наборов данных Kaggle заключается в том, что это не просто хранилище данных. Каждый набор данных представляет собой сообщество, которое позволяет вам обсуждать данные, узнавать общедоступные коды и методы и концептуализировать свои собственные проекты в ядрах.

CSV, JSON, SQLite, Archive, Big Query и т. Д. - это типы файлов, которые поддерживает Kaggle. Вы можете найти множество ресурсов, чтобы начать работу над своим проектом открытых данных.

Самое приятное то, что Kaggle позволяет публиковать и обмениваться наборами данных в частном или публичном порядке.

14. ЛОДУМ

Это инициатива открытых данных Мюнстерского университета. Благодаря этой инициативе любой желающий может получить доступ к любой публичной информации об университете в машиночитаемых форматах. Вы можете легко получить к нему доступ и повторно использовать его в соответствии с вашими потребностями.

В рамках этого проекта доступны открытые данные о научных артефактах и ​​закодированные как связанные данные.

С помощью связанных данных можно обмениваться и использовать данные, онтологии и различные стандарты метаданных. Фактически предполагается, что это будет принятый стандарт для предоставления метаданных и самих данных в Интернете.

Команда LODUM является со-инициатором LinkedUniversities.org и LinkedScience.org.

Вы можете использовать редактор SPARQL или пакет SPARQL R для анализа данных.

Пакет SPARQL позволяет подключаться к конечной точке SPARQL через HTTP, создавать запрос SELECT или запрос обновления (LOAD, INSERT, DELETE).

15. Репозиторий машинного обучения UCI

Он служит всеобъемлющим хранилищем баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.

В этом репозитории в настоящее время содержится 463 набора данных в качестве услуги для сообщества машинного обучения.

Центр машинного обучения и интеллектуальных систем Калифорнийского университета в Ирвине принимает и обслуживает его. Дэвид Аха изначально создал его, будучи аспирантом Калифорнийского университета в Ирвине.

С тех пор студенты, преподаватели и исследователи во всем мире используют его в качестве надежного источника наборов данных для машинного обучения.

Принцип работы заключается в том, что у каждого набора данных есть отдельная веб-страница, на которой собраны все известные детали, включая любые соответствующие публикации, которые исследуют его. Вы можете загрузить эти наборы данных в виде файлов ASCII, часто в формате CSV.

Детали наборов данных резюмируются по таким аспектам, как типы атрибутов, количество экземпляров, количество атрибутов и год публикации, которые можно сортировать и искать.

Порталы открытых данных и поисковые системы:

Несмотря на то, что каждый год многочисленные агентства публикуют множество наборов данных, очень мало наборов данных становится признанным и установленным.

Причина, по которой очень мало таких наборов данных остается полезным ресурсом, заключается в том, что сложно разработать, управлять и предоставлять данные таким образом, чтобы люди и организации находили их полезными и простыми в использовании.

Однако ниже представлен список нескольких других важных порталов и платформ открытых данных, которые позволяют пользователям легко получать доступ к открытым данным, изучать влияние и собирать ценные идеи.

  1. Поиск по набору данных Google
  2. Dataverse
  3. Комплект открытых данных
  4. Ckan
  5. Открытый монитор данных
  6. Plenar.io
  7. Карта воздействия открытых данных

Вывод

Открытые данные - это порядок дня. Мир постепенно начал двигаться в сторону открытых систем, и открытые данные по праву синхронизируются с этим.

Бизнес и организации, использующие открытые данные, получат конкурентное преимущество и смогут доминировать в будущем.