Верховна Рада України
Портал відкритих даних

Формати даних – XML

XML (від англ. eXtensible Markup Language – мова розмітки, що розширюється) – мабуть найстаріший текстовий відкритий формат, створений в 1994 році та рекомендований Консорціумом Всесвітньої павутини (W3C ), як основний для обміну інформацією в Інтернет. Гіпертекстова розмітка (HTML) – це один з різновидів XML. Разом з таблицями каскадних стилів CSS, які формують зовнішній вигляд документів, вони є тими основними форматами, що обумовлюють розвиток технологій.

Насправді XML (див. wikipedia ) – універсальний зручний для людини формат для збереження, передачі структурованих даних і їх автоматичної обробки у формі машиночитних документів. З нього починали розвиток інші відкриті формати, на ньому вдосконалювались підходи обміну даними. Сама ж мова розмітки XML є похідною від ще старішого та більш складного формату SGML (Standard Generalized Markup Language – стандартна узагальнена мова розмітки), стандартизованого за ISO 8879:1986 Information processing—Text and office systems—Standard Generalized Markup Language (SGML).

Перевагами XML є простота та гнучкість розмітки, яка не вимагає формальних, фіксованих назв тегів чи параметрів, і будь-який розробник може доповнювати та змінювати формат, створювати власну схему XSD (XML Schema Definition). Фактично, це мова, яка описує сама себе і будь-які за розміром і складністю структури даних. Безумовно, в цей формат можна конвертувати інші формати (наприклад, XLS). Крім того, формат не залежіть від операційної системи чи бази даних. Для простого перегляду чи редагування достатньо текстового редактора. Але є й недоліки – дані в форматі XML займають значно більше місце, ніж це потрібно, за рахунок повторення тегів та відступів, а парсинг значно складніший, ніж CSV чи JSON.

За довгий час існування XML на його базі було розроблено багато форматів і стандартів зі схожим синтаксисом (див. приклади стандартних схем ). Зазвичай цю групу форматів називають загальною назвою – XML, тому що вони мають єдині механізми опису схем XSD, перевірки правильності даних (валідації), перегляд DOM (Document Object Model), доступу до елементів XPath та трансформації для автоматичного конвертування у інші схеми чи формати (наприклад, альтернативні JSON та YAML) за допомогою мови перетворення XSLT (eXtensible Stylesheet Language Transformations).

Використання формату XML (а саме LegalXML ) у якості відкритого стандарту нормативно-правового документа – це сучасний спосіб забезпечити обмін інформацією (документами, картками, довідниками тощо) між інформаційними системами або в межах однієї системи при підготовці (опрацюванні) документів.

В одному файлі XML в текстовому вигляді, крім основних даних та тексту електронного нормативного документа, можна розміщати метадані (характеристики, реквізити, опис, класифікацію тощо), вкладені файли (картинки, стилі тексту, таблиці Excel, документи Word і т.і.), необхідні структури чи довідники. Це дозволяє зручно не тільки зберігати, передавати, обробляти документ, отримувати PDF версію для друку, формувати зміст чи робити посилання на конкретну главу, статтю, пункт, підпункт тощо, а й автоматизовано вносити зміни, підготовлені у вигляді, що дозволяє їх програмну обробку.вгору