РуТез

Материал из NLPub
Перейти к: навигация, поиск

Лингвистическая онтология РуТез (англ. RuThes) — тезаурус русского языка, представляющий собой иерархическую сеть понятий.[1]

Доступность

Тезаурус РуТез распространяется на условиях лицензии CC BY-NC-SA 3.0 и бесплатно доступен для некоммерческого использования. Машиночитаемая версия тезауруса предоставляется авторами по запросу.

Тезаурус РуТез

Тезаурус содержит более 31 тыс. понятий, между которыми установлено более 111 тыс. отношений. Машиночитаемая версия тезауруса РуТез состоит из четырёх XML-файлов:

  • concepts.xml — понятия;
  • relations.xml — отношения между понятиями;
  • text_entry.xml — текстовые входы;
  • synonyms.xml — отношения между понятиями и текстовыми входами.

Ресурс устроен таким образом, что понятия включают в себя лексемы различных частей речи, что отличается от принципов построения WordNet-подобных тезаурусов.

RuWordNet

RuWordNet — вариация тезауруса РуТез, полученная путём автоматизированного преобразования данных исходного ресурса в стандартную структуру WordNet.[2] Кроме того, понятия разделены по частям речи, то есть один синсет RuWordNet содержит лексемы только одной части речи: имена существительные (N), прилагательные (A), глаголы (V). Ресурс представлен в виде XML-файлов, соответствующих частям речи:

  • synsets.X.xml — синсеты части речи X;
  • synset_relations.X.xml — отношения между синсетами части речи X;
  • senses.X.xml — лексические значения слов части речи X.

RuSentiLex

RuSentiLex (РуСентиЛекс) — словарь оценочных слов и выражений русского языка, записи в котором содержат ссылки на понятия РуТез.[3]

Цитирование

Ссылки

См. также

Примечания

  1. Н.В. Лукашевич (2011), Тезаурусы в задачах информационного поиска
  2. N.V. Loukachevitch et al. (2016), Creating Russian WordNet by Conversion
  3. N. Loukachevitch, A. Levchik (2016), Creating a General Russian Sentiment Lexicon