IT-бауырсақи
571 subscribers
1.66K photos
232 videos
26 files
3.26K links
Сәлеметсіз бе! Наливай чаёк, присаживайся рядом! Мы и наш бот Ағын расскажем тебе про IT, новейшие технологии, ноутбуки и смартфоны. У нас ты узнаешь про права человека в интернете, инфобезопасность и оценишь юмор искусственного интеллекта.
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.

Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]

Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.

Разницу между GeoSeer и Dateno можно описать так:
1. В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. Пока в Dateno нет расширенного вывода метаданных для георесурсов

В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.

Ссылки:
[1] https://www.geoseer.net
[2] https://t.me/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats

#opendata #datasearch #datasets #geodata #spatial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Foursquare вот буквально только что выложили огромный набор данных в 100 миллионов точек интереса (POI) [1] [2], скачать его можно через Amazon S3 хранилище [3] в виде множества parquet файлов.

Данные охватывают 247 стран и территорий [4], например, по Армении 7425 точек (очень мало!), по Польше 3,553,098 (❗️), по России меньше чем по Польше, всего 3,125,954. А более всего, ожидаемо, по США - 22 миллиона точек. Это на апрель 2023 года и по всей базе Places, а конкретно этот набор надо изучить, что там внутри.

Всё оформлено как полноценный дата продукт, с документацией, примерами SQL запросов, API, ответами на вопросы. Необычна лицензия, Apache 2.0, она в целом для кода, а не для данных.

Ссылки:
[1] https://location.foursquare.com/resources/blog/products/foursquare-open-source-places-a-new-foundational-dataset-for-the-geospatial-community/
[2] https://opensource.foursquare.com/os-places/
[3] https://docs.foursquare.com/data-products/docs/access-fsq-os-places
[4] https://docs.foursquare.com/data-products/docs/supported-countries

#opendata #datasets #foursquare #geodata #spatial #poi