IT-бауырсақи
571 subscribers
1.66K photos
232 videos
26 files
3.26K links
Сәлеметсіз бе! Наливай чаёк, присаживайся рядом! Мы и наш бот Ағын расскажем тебе про IT, новейшие технологии, ноутбуки и смартфоны. У нас ты узнаешь про права человека в интернете, инфобезопасность и оценишь юмор искусственного интеллекта.
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]

Как думаете, что не так с этими опросами?

Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.

Так что нет в Казахстане портала открытых данных;)

А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.

P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.

Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz

#opendata #kazakhstan #closeddata #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
В отношении Казахстана я, также, напомню что в стране много данных за пределами официального портала data.egov.kz. Например, много геопорталов и есть, даже, пара научных репозиториев. Полный список можно увидеть в реестре Common Data Index [1] там 37 каталогов данных. Из них 9 индексируются в Dateno, это каталоги на базе Geonode, GeoServer и ArcGIS Server. Остальные сделаны, или на каких-то собственных движках, или не индексируются с внешних серверов или имеют какие-то другие ограничения.

Также в Казахстане есть система индикаторов TALDAU [2] и есть много данных на сайтах Пр-ва, госорганов, акиматов и тд. А ещё немало недокументированного API у государственных систем через которые можно собирать местные реестры.

Всё это к тому что национальный портал данных страны data.egov.kz на всём этом фоне выглядит реально вызывающе плохо.

Если появится в стране кто-то кто захочет сделать общественный портал открытых данных то собрать каталог значительно большего объёма совершенно несложно.

Я большого секрета не открою если скажу что пару лет назад мы с коллегами обсуждали не создать ли большой каталог данных на всю Центральную Азию, но в итоге делать этого не стали не будучи достаточно погруженными в местный контекст. Вместо этого появился Dateno в котором охватываются вообще все страны миры.

Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://taldau.stat.gov.kz/

#opendata #data #datacalogs #kazakhstan
Forwarded from Ivan Begtin (Ivan Begtin)
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.

Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].

Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.

Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.

Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/

#opendata #datasets #data #geodata #microsoft
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.

Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]

Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.

Разницу между GeoSeer и Dateno можно описать так:
1. В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. Пока в Dateno нет расширенного вывода метаданных для георесурсов

В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.

Ссылки:
[1] https://www.geoseer.net
[2] https://t.me/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats

#opendata #datasearch #datasets #geodata #spatial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Foursquare вот буквально только что выложили огромный набор данных в 100 миллионов точек интереса (POI) [1] [2], скачать его можно через Amazon S3 хранилище [3] в виде множества parquet файлов.

Данные охватывают 247 стран и территорий [4], например, по Армении 7425 точек (очень мало!), по Польше 3,553,098 (❗️), по России меньше чем по Польше, всего 3,125,954. А более всего, ожидаемо, по США - 22 миллиона точек. Это на апрель 2023 года и по всей базе Places, а конкретно этот набор надо изучить, что там внутри.

Всё оформлено как полноценный дата продукт, с документацией, примерами SQL запросов, API, ответами на вопросы. Необычна лицензия, Apache 2.0, она в целом для кода, а не для данных.

Ссылки:
[1] https://location.foursquare.com/resources/blog/products/foursquare-open-source-places-a-new-foundational-dataset-for-the-geospatial-community/
[2] https://opensource.foursquare.com/os-places/
[3] https://docs.foursquare.com/data-products/docs/access-fsq-os-places
[4] https://docs.foursquare.com/data-products/docs/supported-countries

#opendata #datasets #foursquare #geodata #spatial #poi
Forwarded from Ivan Begtin (Ivan Begtin)
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.

Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.

Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/

#openknowledge #opendata #ai #aibots