YARN/Формат
Форматы данных YARN
Автор: Дмитрий Усталов при поддержке РГНФ[1]. |
Важной особенностью Yet Another RussNet является открытость данных и форматов их обмена как на входе, так и на выходе. Схемы и примеры форматов расположены в репозитории https://github.com/russianwordnet/yarn-formats.
Экспорт данных
Тезаурус доступен для широкой публики в популярных машиночитаемых форматах данных: дамп тезауруса в формате CSV содержит синсеты и некоторых их метаданные, дамп в формате XML целиком представляет готовую часть тезауруса. Дампы генерируются ежесуточно в полночь по уральскому времени и отражают состояние ресурса на момент генерации.
При кодировании грамматической информации используются следующие обозначения: n
— имя существительное, a
— имя прилагательное, v
— глагол. В тезаурусе не хранятся отдельные формы слов, только их канонические формы — леммы.
Формат CSV
Содержимое синсетов тезауруса в формате CSV доступно по адресу http://russianword.net/yarn-synsets.csv. В качестве разделителя колонок используются запятые, первая строка — заголовок. Каждая строка представляет собой следующие поля:
id
— уникальный идентификатор синсета, который можно использовать в том числе для обращения через сайт:http://russianword.net/synsets/<id>
.words
— слова в синсете, разделённые точкой с запятой (;
).grammar
— общая грамматическая характеристика синсета.domain
— обозначение предметной области синсета (если есть).
Пример фрагмента файла yarn-synsets.csv
:
id,words,grammar,domain 1,автомашина;машина;колёса;драндулет;авто;автомобиль;тачка,n,транспортное
В данном фрагменте приведена информация о синсете, доступном по адресу http://russianword.net/synsets/1 из предметной области «транспортное», содержащем имена существительные «автомашина», «машина», «колёса», «драндулет», «авто», «автомобиль», «тачка».
Формат XML
Материалы тезауруса Yet Another RussNet не ограничиваются словами в синсетах. Эта информация представлена в XML-дампе ресурса: http://russianword.net/yarn.xml и соответствует специальной XSD: yarn.xsd. Мы будем рады принять pull request с документацией схемы на английском языке.
Схематично, дерево документа выглядит следующим образом:
+ yarn |--+ words | |--+ wordEntry(id) | |-- word — лемма | |-- grammar — грамматическая характеристика | |-- url — URL источника |--+ synsets |--+ synsetEntry(id) |--+ word(ref → wordEntry) |-- mark — словарная помета |-- definition — определение слова в синсете |-- example — пример употребления слова в синсете
Наглядный пример документа, соответствующего этой схеме: yarn.xml.
Импорт данных
Процедура импорта подробно изложена на странице YARN/Словари. В этом разделе описывается только формат используемых файлов.
Лексикон
Файл с лексиконом записывается в формате XML, его формат очень похож на формат экспорта. Основное отличие состоит в отсутствии синсетов: лексикон представляет собой только загружаемый словник. Лексикон должен соответствовать схеме yarn-raw-lexicon.xsd. Наглядный пример файла с лексиконом: yarn-raw-lexicon.xml.
Синонимы
Загружаемые списки синонимов записываются в виде CSV-файла с двумя колонками: word1
и word2
, представляющие пары синонимов. В качестве разделителя используется запятая. Образец: yarn-raw-synonyms.csv. Пример фрагмента файла:
word1,word2 актёр,артист актриса,артист
Частоты
В качестве формата файла с частотными характеристиками лексических входов используется формат файла freqrnc2012.csv
, построенного по материалам НКРЯ: http://hsemysql.wikispaces.com/aggregation.
Примечания
Данная страница имеет версию на английском языке YARN/Format.