YARN/Формат

Материал из NLPub
Перейти к навигации Перейти к поиску

Форматы данных YARN

Warning.svg Автор: Дмитрий Усталов при поддержке РГНФ[1].

Важной особенностью Yet Another RussNet является открытость данных и форматов их обмена как на входе, так и на выходе. Схемы и примеры форматов расположены в репозитории https://github.com/russianwordnet/yarn-formats.

Экспорт данных

Тезаурус доступен для широкой публики в популярных машиночитаемых форматах данных: дамп тезауруса в формате CSV содержит синсеты и некоторых их метаданные, дамп в формате XML целиком представляет готовую часть тезауруса. Дампы генерируются ежесуточно в полночь по уральскому времени и отражают состояние ресурса на момент генерации.

При кодировании грамматической информации используются следующие обозначения: n — имя существительное, a — имя прилагательное, v — глагол. В тезаурусе не хранятся отдельные формы слов, только их канонические формы — леммы.

Формат CSV

Содержимое синсетов тезауруса в формате CSV доступно по адресу http://russianword.net/yarn-synsets.csv. В качестве разделителя колонок используются запятые, первая строка — заголовок. Каждая строка представляет собой следующие поля:

  • id — уникальный идентификатор синсета, который можно использовать в том числе для обращения через сайт: http://russianword.net/synsets/<id>.
  • words — слова в синсете, разделённые точкой с запятой (;).
  • grammar — общая грамматическая характеристика синсета.
  • domain — обозначение предметной области синсета (если есть).

Пример фрагмента файла yarn-synsets.csv:

id,words,grammar,domain
1,автомашина;машина;колёса;драндулет;авто;автомобиль;тачка,n,транспортное

В данном фрагменте приведена информация о синсете, доступном по адресу http://russianword.net/synsets/1 из предметной области «транспортное», содержащем имена существительные «автомашина», «машина», «колёса», «драндулет», «авто», «автомобиль», «тачка».

Формат XML

Материалы тезауруса Yet Another RussNet не ограничиваются словами в синсетах. Эта информация представлена в XML-дампе ресурса: http://russianword.net/yarn.xml и соответствует специальной XSD: yarn.xsd. Мы будем рады принять pull request с документацией схемы на английском языке.

Схематично, дерево документа выглядит следующим образом:

+ yarn
|--+ words
|  |--+ wordEntry(id)
|     |-- word    — лемма
|     |-- grammar — грамматическая характеристика
|     |-- url     — URL источника
|--+ synsets
   |--+ synsetEntry(id)
      |--+ word(ref → wordEntry)
         |-- mark       — словарная помета
         |-- definition — определение слова в синсете
         |-- example    — пример употребления слова в синсете

Наглядный пример документа, соответствующего этой схеме: yarn.xml.

Импорт данных

Процедура импорта подробно изложена на странице YARN/Словари. В этом разделе описывается только формат используемых файлов.

Лексикон

Файл с лексиконом записывается в формате XML, его формат очень похож на формат экспорта. Основное отличие состоит в отсутствии синсетов: лексикон представляет собой только загружаемый словник. Лексикон должен соответствовать схеме yarn-raw-lexicon.xsd. Наглядный пример файла с лексиконом: yarn-raw-lexicon.xml.

Синонимы

Загружаемые списки синонимов записываются в виде CSV-файла с двумя колонками: word1 и word2, представляющие пары синонимов. В качестве разделителя используется запятая. Образец: yarn-raw-synonyms.csv. Пример фрагмента файла:

word1,word2
актёр,артист
актриса,артист

Частоты

В качестве формата файла с частотными характеристиками лексических входов используется формат файла freqrnc2012.csv, построенного по материалам НКРЯ: http://hsemysql.wikispaces.com/aggregation.

Примечания

Данная страница имеет версию на английском языке YARN/Format.

  1. Исследование выполняется при финансовой поддержке РГНФ (проект № 13-04-12020 «Новый открытый электронный тезаурус русского языка»).