Верховна Рада України
Портал відкритих даних

Формати даних

В залежності від специфіки даних, їх розміру та тематики (геологія, тендери, реєстри, судові документи тощо), одні проекти відкритих даних створювались на базі наборів PDF чи DOC файлів, таблиць XLS, що перетворювались на прості текстові таблиці CSV, а інші брали за основу формат розмітки XML, проектували власні схеми XSD і використовували складні структури.

Як свідчить остання статистика використання форматів відкритих даних, найбільш поширений в світі формат (як по кількості, так і по об’єму даних) – PDF. Для українських органів влади, де найбільш розповсюджені операційні системи Microsoft Windows, переважають формати DOC та XLS. Разом з новими версіями офісних програм в Інтернет почали з’являтися документи DOCX та XLSX, рідко ODF (Open Document Format). Як надбання DOS’івського періоду, поки ще зустрічаються документи в старому форматі Lexicon (TXT) або ранніх версій Word (RTF). Після поширення ініціативи відкриття державних даних та створення порталів, кількість наборів в форматі XML та інших відкритих форматах почала суттєво збільшуватись.

Необроблені дані, сформовані державними структурами за багато років, можуть бути досить неоднорідними, а деякі набори навіть дублюються в різних форматах для зручності користування.

Серед доступних в цей час форматів відкритих даних, які можна автоматично обробляти електронними засобами, існують: CSV (текстові дані, розділені комами або іншими розділовими символами), JSON (формат, орієнтований на обробку складних структурованих даних за допомогою javascript) та XML (універсальний текстовий формат розмітки).

Існує ще один сучасний формат даних, концептуально схожий на XML (але без зайвих втрат на розмітку) – YAML . Він відносно новий, але набирає популярність, тому що, на відміну від інших машиночитних форматів, дуже легко формується та обробляється людиною, за допомогою звичайних засобів редагування текстів.

Розглянемо детально основні відкриті формати – CSV, JSON та XML.вгору