Верховна Рада України
Портал відкритих даних

Data Hub або API?

Єдиного стандарту проектів, побудованих на відкритих даних, не існує. В кожному окремому випадку вони розвиваються по різному: силами зацікавлених осіб, активних користувачів, волонтерів, за наявності чи відсутності необхідних ресурсів, інформації та послідовності їх появлення. Розвиток також обумовлений наявністю та популярністю поширених в той час технологій й форматів даних.

Більшість проектів відкритих даних будується за стандартною схемою: створюється єдиний портал відкритих даних – хаб даних або Data Hub, – де у вигляді каталогу розміщуються всі доступні (у тому числі і для автоматичної обробки) необроблені набори даних, в деяких випадках в неперсоналізованому вигляді, тобто вилучена персональна інформація фізичних осіб, якщо вони окремо не надали згоду на її розповсюдження. Не підлягає опублікуванню інформація грифована чи для внутрішнього користування, яка за інструкціями розпорядників даних не має бути розповсюджена (зокрема, з метою запобігання поширенню недостовірної інформації). Але, згідно частини 2 статті 5 Закону України "Про захист персональних даних", не є конфіденційною інформацією персональні дані, що стосуються здійснення особою, яка займає посаду, пов’язану з виконанням функцій держави або органів місцевого самоврядування, посадових або службових повноважень.

До кожного набору відкритих даних обов’язково додається паспорт метаданих, де визначається багато параметрів, у тому числі джерело походження інформації, дату та час створення і оновлення, адресу відповідального адміністратора тощо. Поряд з даними можуть знаходитись опис структури файлів (схема) та інструкції по роботі з ними. Якщо потрібно, додаються програмні модулі чи приклади коду на якійсь з мов програмування. Крім того, сучасні портали даних, які розповсюджуються як opensource (наприклад, CKAN ), мають інтегровані засоби архівування, конвертування файлів та перегляду таблиць даних в форматі CSV.

Існують проекти, які надають доступ до відкритих даних через власний API (Application Programming Interface, або Інтерфейс прикладного програмування). Для цього в Інтернет активно використовується формат JSON, як основний. Він легко перетворюється на інший (наприклад, XML) за допомогою конвертора.

Data Hub зберігає відкриті дані в єдиному статичному сховищі, що по-перше, дозволяє отримати повний, необмежений та анонімний доступ в найбільш простий та зручний спосіб. По-друге, таким чином зменшується навантаження на основні робочі системи та сервери, коли користувачі, що бажають отримати копії баз даних, звертаються за даними та завантажують їх собі (мінус: одночасно збільшується кількість запитів під час оновлення даних на Data Hub). По-третє, і це основний недолік, регулярне автоматичне дублювання великого об’єму інформації у визначений період часу призводить до виникнення несуттєвої різниці з даними першоджерел.

На відміну від API, проблема розсинхронізації виникає на всіх порталах відкритих даних через надмірну кількість наборів даних в одному місці, не кажучи вже про потребу постійного збільшення дискового простору для їх збереження. Крім того, власникам і розпорядникам відкритих даних важко оперативно впливати на помилки, якщо викривленні і не оновлені дані будуть зберігатися в іншому місці.

Тому Data Hub краще підходить для даних, що змінюються рідко або час від часу, а API – для швидких оперативних запитів і міжсерверної взаємодії. Можлива комбінація двох способів, коли частина відкритих даних (довідники, списки) знаходяться в статичному вигляді на порталі, а окремі елементи (картки чи тексти документів, фотографії, приєднані файли тощо) мають доступ за відповідною URI-адресою на іншому сервері, як зовнішні ресурси.



вгору