Russian Distributional Thesaurus

Russian Distributional Thesaurus (сокр. RDT) — проект создания открытого дистрибутивного тезауруса русского языка. На данный момент ресурс содержит несколько компонент: вектора слов (word embeddings), граф подобия слов (дистрибутивный тезаурус), множество гиперонимов и инвентарь смыслов слов. Все ресурсы были построены автоматически на основании корпуса текстов книг на русском языке (12.9 млрд словоупотреблений). В следующих версиях ресурса планируется добавление и векторов смыслов слов для русского языка, которые были получены на основании того же корпуса текстов. Проект разрабатывается усилиями представителей УрФУ, МГУ им. Ломоносова, Университета Гамбурга. В прошлом в проект внесли свой вклад исследователи из Южно-Уральского государственного университета, Дармштадского технического университета, Волверхемтонского университета и Университета Тренто.

Ближайшие соседи слова "физика" в дистрибутивном тезаурусе RDT визуализированные в виде эго-сети.

RDT представляет собой первый свободно доступный дистрибутивный тезаурус русского языка. Данный лингвистический ресурс покрывает около миллиона наиболее частотных слов русского языка и представляет значительный интерес для задач автоматической обработки текстов.

Для создания дистрибутивного тезауруса была использована модель Skip-Gram реализованная в word2vec (Mikolov et al., 2013), обученная на корпусе 12.9 млрд словоупотреблений. Согласно результатам участия данной модели в соревновании систем оценки семантичекой близости RUSSE, данный подход стабильно входит в пятерку лучших систем (из 105 участвующих систем). Результаты участия в соревновании описаны в (Arefyev et al., 2015).

Ресурс был получен на основании исходного корпуса текстов без какой-либо предварительной обработки, такой как лемматизация или стемминг. Высокое качество достигается за счет использования качественной и большой коллекции текстов. Различные исследования показывают, что качество дистрибутивных моделей, обученных на текстах книг или энциклопедий, выше качества моделей сопоставимого размера, обученных на текстах, извлеченных из веб-страниц сети Интернет. Для миллиона наиболее частотных слов были получены 250 ближайших соседей.

Ниже приведено резюме ресурсов доступных в RDT (подробное описание каждого из них смотрите ниже):

Ресурс	Описание	Формат	Лицензия	Скачать
Корпус текстов	Коллекция книг на русском языке содержащая 12.9 млрд словоупотреблений (150 Гб).	текст в gz	N/A	40 Гб
Вектора слов	Векторные представления слов (word embeddings) полученные на основе модели SGNS из word2vec.	бинарный файл word2vec	CC BY 4.0	14 Гб
Граф подобия слов	Дистрибутивный тезаурус для миллиона наиболее частотный слов русского языка, полученный на основании векторов слов.	CSV	CC BY 4.0	1.8 Гб
Гиперонимы	Родо-видовые отношения извлеченные из корпуса текстов с использованием лексико-синтаксических шаблонов PatternSim.	CSV	CC BY 4.0	15 Мб
Инвентарь смыслов слов (word2vec)	Дистрибутивный тезаурус в котором одна запись представляет не слово, а смысл слова. Получен на основании word2vec.	CSV	CC BY 4.0	1.1 Гб
Инвентарь смыслов слов (JoBimText)	Дистрибутивный тезаурус в котором одна запись представляет не слово, а смысл слова. Получен на основании JoBimText.	CSV	CC BY 4.0	875 Мб

Примеры записей тезауруса

Ниже приведены записи тезауруса для нескольких слов. Каждая запись состоит из множеств ближайших соседей (семантически близких слов). Ниже для каждого слова приведены визуализации в виде списка 20 ближайших соседей с использованием системы Серелекс. Тезаурус доступен в данной системе (из меню следует выбрать модель "Russian: SkipGram".

Рисунок 1. Ближайшие соседи слова "математика" в дистрибутивном тезаурусе RDT.

Рисунок 2. Ближайшие соседи слова "лингвистика" в дистрибутивном тезаурусе RDT.

Рисунок 3. Ближайшие соседи слова "хороший" в дистрибутивном тезаурусе RDT.

Пример записи в формате CSV для слова "словесность":

словесность литература:0.693631, словесности:0.673393, поэзия:0.657318, литературу:0.646993, поэзию:0.625772, филология:0.623357, словесностью:0.614474, проза:0.610109, литературы:0.591108, литературная:0.583375, литератур:0.581673, литературоведение:0.581571, поэтику:0.576219, литтература:0.575055, прозу:0.571903, беллетристика:0.570541, книжность:0.567516, драматургия:0.565701, поэтика:0.565087, стихотворство:0.562407, публицистику:0.560926, публицистика:0.558548, журналистика:0.558000, допушкинскую:0.557183, поэзии:0.553815, литературные:0.552337, пиитику:0.550831, литературное:0.548529, допушкинской:0.547422, послепушкинская:0.545402, неотлучимы:0.545200, филологическая:0.542263, кребильйона:0.542140, реторической:0.541381, паралитературу:0.540992, своебытная:0.540851, риторика:0.540751, литературой:0.539374, пиитики:0.538791, бытописательскую:0.538671, витийственная:0.538429, пиитика:0.538293, японоязычная:0.537896, сентименталистская:0.536457, эстетика:0.536436, кантемиро:0.534982, эссеистика:0.534580, литературную:0.534455, преполнейший:0.534125, риторику:0.532908, философию:0.530697, литературных:0.530465, койпергейме:0.530071, литературной:0.529084, прозы:0.528637, допушкинское:0.528361, беллетристику:0.528068, философия:0.527975, художественная:0.527742, лингвопоэтика:0.527723, пиитике:0.526392, обэриутскую:0.525666, виршевой:0.525662, грамматика:0.525596

Оценка качества ресурса

Таблица 1. Оценка различных конфигураций RDT. Верхняя часть таблицы представляет результаты оценки на основании данных соревнования RUSSE (HJ, AE, RT) и результаты ручной оценки качества каждого из 20 ближайших соседей (P@k). Нижняя часть таблицы преставляет четыре лучших альтернативных системы по результатам соревнования RUSSE. Источник: (Panchenko et al., 2017).

Результаты сравнения векторной модели RDT с лучшими системами участвовавшими в RUSSE приведены в Таблице 1. Оценка проводилась для различных конфигураций RDT -- варьировались размер контекстного окна, количество итераций, размер корпуса текстов и другие параметры. Таблица приводит четыре лучших модели. Верхняя часть таблицы представляет результаты оценки на основании данных соревнования RUSSE (HJ, AE, RT) и результаты ручной оценки качества ближайших соседей на основаннии ручной разметки (P@k = Precision@k nearest neighbors). Нижняя часть таблицы преставляет четыре лучших альтернативных системы по результатам соревнования RUSSE. Согласно результатам ручной оценки качества ресурса, точность первых 5 ближайших соседей (P@5) составляет 97.1%, а точность первых 20 ближайших соседей (P@20) составляет 91.2%. Более подробные результаты данного эксперимента приведены на рисунке ниже и в статье (Panchenko et al., 2017). ]]

Рисунок 4. Оценка различных конфигураций RDT согласно результатам ручной оценки качества каждого из 20 ближайших соседей (P@k). Источник: (Panchenko et al., 2017).

Преимущества использования RDT перед самостоятельным обучением word2vec

1. Нет необходимости подбирать мета-параметры для русского языка. Модель RDT содержит высококачественные предобученные векторные представления слов. Были исследованы различные комбинации мета-параметров модели, такие как тип модели (SkipGram/CBOW) и размер контекстного окна, с использованием множества тестовых коллекций и выбраны оптимальные параметры для русского языка. Стандартные параметры word2vec могут отличатся от оптимальных для русского языка.

2. Нет необходимости в длительном обучении модели. Обучение модели векторных представлений размерности 500 на корпусе текстов из 150 Гб с тремя итерациями по корпусу занимает до нескольких дней на инстансе r3.8xlarge Amazon EC2 с 32 ядрами и 244 Гб оперативной памяти. Вычисление ближайших соседей для миллиона наиболее частотных слов занимает еще несколько дней для векторной модели сопоставимой размерности (вектора размерности 500, лексикон из 7 млн слов).

3. Эффективность в использовании. Многие полезные приложения векторных представлений слов используют только список ближайших слов и могут обойтись без векторов слов. Например, для лексического расширения запросов и других видов коротких текстов достаточно знать список ближайших слов к целевому слову. Граф подобия слов занимает на порядок меньше памяти (1 Гб оперативной памяти для графа слов по сравнению с 20 Гб для векторов) и не требует ресурсоемких вычислений близости между векторами.

4. Наличие гиперонимов. В состав RDT входят гиперонимы извлеченные из того же корпуса, который был использован для обучения векторных представлений слов.

5. Наличие смыслов слов. В отличие от стандартной модели word2vec, дистрибутивный тезаурус русского языка содержит версии в которых для каждого слова известно несколько смыслов (например, "ключ" для замка и "ключ" как источник воды). Для каждого из значений представлен список ближайших соседей релевантных данному смыслу.

Корпус текстов

Для получения русского дистрибутивного тезаурусы была использована коллекция книг на русском языке. Статистика данного корпуса привидена ниже.

Статистика корпуса

Количество токенов: 12.9 млрд
Размер: 150 Гб

Данный корпус текстов содержит 12.9 млрд словоупотреблений (150 Гб текста), извлеченных из коллекции книг на русском языке в формате FB2, очищенных от метаданных. Корпус был использован для обучения векторных представлений слов, на основании которых был построен дистрибутивный тезаурус русского языка RDT. Загрузить корпус (40 Гб)

Вектора слов (word embeddings)

Для построения векторных представлений слов использовался стандартная имплементация word2vec с параметрами приведенными ниже. Данные параметры позволяют достичь наилучших результатов с точки зрения оценки качества по нескольким тестовым коллекциям (Arefyev et al., 2015).

Параметры модели

Модель: skip-gram
Размер контекстного окна: 10 слов
Размерность векторного пространства: 500
Количество итераций: 3
Минимальная частота слова в корпусе: 5

Векторы доступны в формате gensim. Загрузить вектора (14 Гб)

Другие модели

Для достижения наилучшего качества результатов мы рекомендуем использовать модель векторных представлений слов описанную выше. Однако в силу большого размера модели в отладочных и тестовых целях могут быть удобны другие модели, которые гораздо более компактны и доступны в том же формате (word2vec/gensim):

Наиболее "легкая" модель размерности 100: подходит для тестов и отладочных целей

Модель: skip-gram
Размер контекстного окна: 10 слов
Размерность векторного пространства: 100
Количество итераций: 1
Минимальная частота слова в корпусе: 100
Файл: Загрузить вектора (496Мб)

Более компактная модель, размерность 500

Модель: skip-gram
Размер контекстного окна: 7 слов
Размерность векторного пространства: 500
Количество итераций: 5
Минимальная частота слова в корпусе: 5
Файл: Загрузить вектора (5Гб)

Пример использования из Python

Для использования векторов слов вам потребуется установить пакет gensim.

from gensim.models.word2vec import Word2Vec

w2v_fpath = "all.norm-sz100-w10-cb0-it1-min100.w2v"
w2v = Word2Vec.load_word2vec_format(w2v_fpath, binary=True, unicode_errors='ignore')
w2v.init_sims(replace=True)
for word, score in w2v.most_similar(u"дерево"):
    print word, score

Ожидаемый результат для 100 мерной модели:

дерево — 0.867808103561
деревце 0.867724657059 
деревцо 0.855274558067
буковое 0.850244879723
дерево, — 0.84667634964
дерево… 0.845241606236
срубленное 0.844372928143
росшее 0.83302116394
спиленное 0.8262809515
развесистое 0.82619869709

gensim >= 1.0.1

В версии gensim >= 1.0.1 несколько изменился интерфейс загрузки векторов и вы можете получить deprecation error для кода указанного выше. В этом случае вы можете попробовать следующий код:

import gensim

w2v_fpath = "all.norm-sz500-w10-cb0-it3-min5.w2v"
w2v = gensim.models.KeyedVectors.load_word2vec_format(w2v_fpath, binary=True, unicode_errors='ignore')
w2v.init_sims(replace=True)
for word, score in w2v.most_similar(u"дерево"):
    print word, score

Системные требования для комфортной работы с векторами слов

Всего модель содержит более 7 миллионов векторов размерности 500 измерений, поэтому для загрузки модели в память мы рекомендуем использовать компьютер с как минимум 24 Гб оперативной памяти (модель занимает 17-19 Гб оперативной памяти, но работа возможна и с 16 Гб оперативной памяти при наличии файла подкачки достаточного объема). Общее время загрузки полной модели составляет около 200-240 секунд, модель занимает около 17-19 Гб оперативной памяти.

Граф подобия слов

Дистрибутивный тезаурус представляет собой граф подобия слов. Русский дистрибутивный тезаурус содержит ближайшие соседи для векторов слов, приведенных выше. Мы вычислили ближайшие соседи для миллиона наиболее частотных слов в русском языке (в силу некоторые фильтраций ресурс содержит 932 тыс. слов).

Статистика

Количество входов тезауруса (уникальных исходных слов): 931,896
Количество выходов тезауруса (уникальных целевых слов): 4,456,444
Количество семантических отношений в тезаурусе: 193,909,130.

Скачать в формате CSV

Ресурс доступен в формате CSV файла в формате “word_i<TAB>word_j<TAB>similarity_ij”. Загрузить ресурс (1.8 Гб)

Доступ по API

Вы можете использовать API для получения списка ближайших соседей слова из вашего приложения следующим образом:

http://www.serelex.org/find/ru-skipgram-librusec/<слово>

Ограничений на количество запросов нет, но рекомендуется использовать CSV файл при необходимости большого количества запросов в секунду.

Примеры запросов

Ближайшие соседи слова "соль": http://www.serelex.org/find/ru-skipgram-librusec/соль
Ближайшие соседи слова "физика": http://www.serelex.org/find/ru-skipgram-librusec/физика
Ближайшие соседи слова "математика": http://www.serelex.org/find/ru-skipgram-librusec/математика
Ближайшие соседи слова "внедорожник": http://www.serelex.org/find/ru-skipgram-librusec/внедорожник

Ближайшие соседи слова "физика" в RDT в формате JSON по запросу к API.

Использование из Python

Самый простой способ использования графа подобия слов из вашего приложения заключается в загрузке его в базу данных либо в память в хэш таблицу. При интенсивных вычислениях (большом количестве обращений к графу) первый вариант может быть недостаточно эффективным, а второй может занимать больше оперативной памяти чем хотелось бы. Кроме этого, парсинг файла может занять значительное время. Как замену хэш таблицы вы можете использовать библиотеку RDT, которая хранит граф более компактно в памяти и позволяет более быстро загрузить весь граф в память из эффективного бинарного формата. Для хранения графа используется комбинация Marisa Trie и массива NumPy. Загрузить граф подобия в бинарном формате (3.5 Гб)

Пример использования графа подобия слов в бинарном формате (требуется скачать библиотеку библиотеку RDT):

from dt import RDT, DistributionalThesaurus

rdt = RDT(dt_pkl_fpath="rdt.pkl")
for word, score in rdt.most_similar(u"граф"):
    print word, score

Гиперонимы

Используя лексико-синтаксические паттерны извлечения отношений гиперонимии для русского языка, реализованные в системе PatternSim, из корпуса текстов была получена база гиперонимов для русского языка.

Примеры гиперонимов

 математика  наука   1006
 математика  предмет 386
 математика  наук    198
 математика  науки   172
 математика  дисциплина  156
 математика  предметы    130

 лингвистика наука   206
 лингвистика гуманитарных науках 40
 лингвистика дисциплина  40
 лингвистика наук    38
 лингвистика науке   30

 яблоко  фрукт   346
 яблоко  фрукты  182
 яблоко  продукт 138
 яблоко  плод    132
 яблоко  фруктов 68
 
 жрец    лицо    30
 жрец    человек 22
 жрец    должностным лицам   16
 жрец    служители культа    12
 жрец    людей   10

 грызун  животное    60
 грызун  животных    24
 грызун  млекопитающее   22
 грызун  вредитель   6
 грызун  млекопитающие   6

Статистика

Количество отношений гиперонимии (отношений вида "гипоним-гипероним"): 1,597,652
Количество гипонимов: 377,259
Количество гиперонимов: 186,803

Ресурс доступен в формате CSV файла "гипоним гипероним частота-излечения-отношения": Загрузить гиперонимы (15 Мб)

Вектора смыслов слов

Доступны вектора смыслов с различным уровнем многозначности (средним количеством смыслов на одно слово) и созданные на основании различных дистрибутивных тезаурусов (word2vec и JoBimText, смотри выше). Скачать вектора смыслов в формате word2vec. Вектора можно загрузить с использованием gensim. Для каждой модели предоставляется csv файл с инвентарем смыслов.

Инвентарь смыслов слов (word2vec)

В отличие от дистрибутивного тезауруса, представленного выше, запись которого представлена в виде "<слово> <список ближайших соседей>", запись данного тезауруса содержит информацию о смыслах слов "<слово> <номер смысла> <список ближайших соседей>". Например, "ключ 0 родник, река, вода,..." и "ключ 1 дверь, замок, скважина, ...". Данный ресурс был получен на основании дистрибутивного тезауруса описанного выше с использованием метода SenseGram (Pelevina et al., 2016). Данный метод производит кластеризацию его-сети ближайших соседей, таких как представлены на рисунках 1-3 с помощью алгоритма кластеризации графов. Рисунок 6 иллюстрирует процесс кластеризации эго-сети ближайших соседей слова (запись дистрибутивного тезауруса) для выделения кластеров смыслов слов. При кластеризации эго (центральный узел сети) удаляется. Полученные кластеры соответствуют различным смыслам слова. На данный момент доступны две версии дистрибутивного тезауруса со смыслами слов полученные с использованием алгоритма ChineseWhispers (Biemann, 2006) и Markov Clustering (van Dongen, 2000).

Рисунок 6. Иллюстрация метода извлечения смыслов на основании кластеризации эго-сети семантически близких слов тезауруса RDT.

Пример смыслов для слова "тяжелая"

Для данного слова были найдены три "смысла" соответствующие нейтральной характеристике, оценочной характеристике и различным морфологическим вариациям слова:

тяжелая 6       огромная:0.51983, громадная:0.48902, большая:0.475527, черная:0.464581, темная:0.462924, грязная:0.4576, пыльная:0.445188, погромыхивающая:0.444775, обрушилась:0.444733, чья:0.444029,  многомиллионотонная:0.442737, ухудшавшая:0.441817, несдвигаемая:0.440147, гигантская:0.43987, низкая:0.438296, волалле:0.437128 

тяжелая 14      тяжкая:0.651204, тяжела:0.604192, тяжелейшая:0.539784, страшная:0.522136, сильная:0.518284,        изнурительная:0.513324, трудная:0.511258, полунапускного:0.502963, опасная:0.495431, напряженная:0.493792,         долгая:0.490981, непосильная:0.490949, неудобная:0.482314, ноша:0.481326, сложная:0.471597, ужасная:0.469746,  такая:0.463978, жуткая:0.462879, несподручная:0.462711, обычная:0.459433, навалилась:0.458595, легла:0.457486, нелегкая:0.455226, тяжесть:0.454914, жестокая:0.453044, изматывающая:0.451107, неприятная:0.451087, самая:0.449778, изнуряющая:0.449188, острая:0.447366, давила:0.447207, кочережная:0.44607, предрвотная:0.444107, затяжная:0.443997, тягостная:0.443634, мрачная:0.443053, неходкая:0.442844, спиртизация:0.442556,  длительная:0.442044, продолжительная:0.441387, непривычная:0.440918, придавливавшего:0.440586, утомительная:0.440554, всегосударственная:0.440409, изломавшая:0.439478, отнимавшая:0.438735, изнурительнейшая:0.438155,  пригибавшая:0.437872, метровская:0.437725, непростая:0.437677, предынфарктная:0.436289     

тяжелая 19      тяжелой:0.627186, тяжелую:0.59458, тяжелый:0.557616, тяжелое:0.556219, тяжелым:0.522697,           тяжелые:0.520747, тяжелее:0.482678, алкестийцы:0.482063, выхлестнута:0.474561, тяжелыми:0.470576, тяжелого:0.465566, тяжелых:0.461391, пчелометов:0.452285, артедайнской:0.4487, турболетным:0.44657, тяжело:0.437902

Модель основаная на алгоритме кластеризации графов Chinese Whispers

Количество смыслов слов: 1,789,793
Количество слов: 887,773
Средняя полисемия (количество смыслов / количество слов): 2.01
Скачать: Инвентарь смыслов в формате CSV (1.1 Гб)

Модель основаная на алгоритме кластеризации графов Markov Clustering (MCL)

Количество смыслов слов: 1,820,726
Количество слов: 904,914
Средняя полисемия (количество смыслов / количество слов): 2.01
Скачать: Инвентарь смыслов в формате CSV (1.4 Гб)

Инвентарь смыслов слов (JoBimText)

Данный ресурс был извлечен из того же корпуса текстов как и все остальные ресурсы представленные на этой странице. Однако для построения дистрибутивного тезауруса вместо векторных представлений слов полученных с использованием word2vec был использован метод JoBimText. Данный пакет поддерживает различные признаковые представления контекста. В данном случае было использовано представление в виде триграммов (<left-word>__@__<right-word>) для вычисления графа подобия слов. Как и в случае с моделью на основании векторных представлений слов, лемматизации корпуса не проводилось. Извлечение смыслов слов было проведено аналогичным образом ресурсу описанному выше -- с помощью кластеризации эго-сети ближайших соседей слова. Для извлечения смыслов был использован алгоритма ChineseWhispers (Biemann, 2006).

Обратите внимание на то, что инвентари смыслов можно использовать и как дистрибутивные тезаурусы сливая ближайшие соседи всех смыслов для данного слова.

Пример смыслов для слова "замок"

замок	1	город:102.0,  особняк:92.0,  дворец:90.0,  замке:83.0,  дом:81.0,  гараж:57.0,  храм:53.0,  форт:53.0,  сарай:53.0,  отель:52.0,  домик:49.0,  склеп:48.0,  герб:47.0,  корабль:46.0,  лагерь:45.0,  коттедж:43.0,  мост:41.0,  ангар:38.0,  сад:38.0,  парк:38.0,  забор:37.0,  трон:36.0,  поселок:36.0,  павильон:35.0,  монастырь:34.0,  терем:34.0,  городок:34.0,  донжон:34.0,  подвал:34.0,  мавзолей:34.0,  кремль:34.0,  чулан:33.0,  редут:33.0,  бастион:33.0,  шатер:32.0,  остров:32.0,  амбар:32.0,  Париж:31.0,  двор:30.0,  курган:30.0,  каземат:30.0,  туннель:30.0,  аул:29.0,  Рим:29.0,  бункер:29.0,  крепость:29.0,  проход:28.0,  титул:28.0,  вигвам:27.0,  погреб:27.0,  вензель:27.0,  амфитеатр:27.0,  некрополь:27.0,  Лондон:27.0,  кишлак:27.0,  Киев:26.0,  коридор:26.0,  штандарт:26.0,  кабинет:26.0,  мостик:26.0,  бар:25.0,  алтарь:25.0,  дот:25.0,  помост:25.0,  обелиск:25.0,  космопорт:25.0,  костел:25.0,  вольер:25.0,  ипподром:24.0,  шалаш:24.0,  тоннель:24.0,  космодром:24.0,  хутор:24.0	

замок	2	засов:154.0,  замочек:149.0,  запор:137.0,  замки:124.0,  шпингалет:111.0,  сейф:111.0,  задвижку:82.0,  сундук:81.0,  щеколду:67.0,  секретер:67.0,  шкаф:66.0,  калитку:65.0,  дверь:64.0,  затвор:62.0,  наручник:59.0,  ключ:56.0,  выключатель:55.0,  ларец:53.0,  шкафчик:51.0,  люк:51.0,  ящик:50.0,  защелку:48.0,  клапан:47.0,  браслет:46.0,  турникет:45.0,  перстень:45.0,  шлюз:44.0,  запоры:44.0,  багажник:44.0,  засовы:44.0,  стопор:43.0,  портал:43.0,  переключатель:43.0,  фиксатор:43.0,  боек:42.0,  наручники:42.0,  вентиль:41.0,  дверцу:41.0,  предохранитель:40.0,  крючок:40.0,  кран:40.0,  замочки:39.0,  медальон:39.0,  тайник:38.0,  ворота:37.0,  буфет:37.0,  шкатулку:37.0,  шпингалеты:36.0,  молоток:35.0,  механизм:35.0,  лифт:35.0,  саркофаг:35.0,  бардачок:34.0,  фолиант:34.0,  застежку:34.0,  шлагбаум:34.0,  зажим:34.0,  решетку:34.0,  сундучок:34.0,  кейс:33.0,  фотоаппарат:32.0,  ошейник:32.0,  защелки:32.0,  ящичек:32.0,  печать:31.0,  тумблер:31.0,  хронометр:31.0,  чемодан:31.0,  пломбу:31.0,  колокольчик:30.0,  барабан:30.0,  компас:30.0,  молоточек:30.0,  клетку:30.0,  меч:30.0,  комод:30.0,  холодильник:30.0,  портфель:30.0,  таймер:29.0,  щит:29.0,  металл:29.0,  ставни:29.0,  ставень:29.0,  рубильник:28.0,  пароль:28.0,  молот:28.0,  тостер:28.0,  ларчик:28.0,  задвижки:28.0,  арбалет:28.0,  контейнер:28.0,  барьер:28.0,  чемоданчик:27.0,  домофон:27.0,  будильник:27.0,  киоск:27.0,  кассу:27.0,  кладовку:27.0,  двери:27.0,  взрыватель:27.0,  ларек:27.0,  хлыст:27.0,  код:26.0,  кладовую:26.0,  саквояж:26.0,  термостат:26.0,  шлем:26.0,  капкан:26.0,  ограничитель:25.0,  топор:25.0,  кинжал:25.0,  секундомер:25.0,  подъемник:25.0,  магазин:25.0,  канделябр:25.0,  калькулятор:24.0,  колокол:24.0,  проигрыватель:24.0	

замок	3	затвором:36.0,  задвижкой:35.0,  выключателем:30.0,  засовом:29.0,  замком:27.0,  тумблером:27.0,  зажигалкой:26.0

Пример смыслов для слова "ключ"

ключ	0	доступ:60.0, путь:37.0, подход:36.0, подступ:35.0, допуск:34.0	

ключ	2	ключи:266.0, ключик:205.0, отмычку:87.0, пистолет:78.0, револьвер:73.0, нож:73.0, кинжал:72.0, бумажник:69.0, мобильник:65.0, карточку:61.0, выключатель:60.0, засов:60.0, брелок:59.0, кошелек:58.0, футляр:58.0, кассету:58.0, шпингалет:57.0, медальон:56.0, портсигар:56.0, конверт:56.0, замок:56.0, блокнот:56.0, флешку:54.0, голову:54.0, зажигалку:53.0, меч:53.0, расческу:52.0, диск:52.0, рычажок:50.0, вентиль:50.0, шомпол:49.0, ручку:49.0, фотоаппарат:49.0, пудреницу:48.0, отвертку:47.0, переключатель:47.0, налево:47.0, направо:47.0, дискету:46.0, кран:46.0, флэшку:45.0, визитку:45.0, стилет:45.0, браунинг:44.0, сверток:44.0, руль:43.0, штурвал:43.0, платок:43.0, запор:43.0, краник:43.0, браслет:41.0, телефон:41.0, шприц:41.0, клинок:41.0, диктофон:41.0, ключа:41.0, штырь:41.0, обойму:40.0, рычаг:40.0, наган:40.0, бластер:40.0, катетер:40.0, кляп:40.0, пульт:40.0, наушник:40.0, флакон:39.0, штепсель:39.0, кругляш:39.0, сигарету:39.0, тумблер:39.0, стетоскоп:39.0, кастет:38.0, штекер:38.0, портмоне:38.0, гвоздь:38.0, жетон:38.0, беретту:37.0, смартфон:37.0, пинцет:37.0, свисток:37.0, термометр:37.0, фонарик:36.0, карандаш:36.0, монокль:36.0, молоток:35.0, компас:35.0, задвижку:35.0, пузырек:35.0, топор:35.0, ломик:35.0, кольт:35.0, черепок:35.0, блокнотик:35.0, кристалл:35.0, молоточек:34.0, финку:34.0, цилиндр:34.0, ключики:34.0, рубильник:34.0, влево:34.0, сосуд:33.0, ножик:33.0, регулятор:33.0, шпильку:33.0, фантик:33.0, заколку:33.0, ингалятор:33.0, замочек:33.0, сигареты:32.0, колокольчик:32.0, вправо:32.0, платочек:32.0, монету:32.0, канделябр:32.0, напильник:32.0, радиотелефон:32.0, футлярчик:32.0, номерок:32.0, половник:32.0, лом:32.0, винтик:32.0, черпак:31.0, зеркальце:31.0, румпель:31.0, маузер:31.0, стержень:31.0, шест:31.0, отмычки:31.0, затычку:31.0, затычки:31.0, амулет:31.0, крючок:31.0, записку:31.0, взрыватель:31.0, авторучку:31.0, ящичек:31.0, табакерку:30.0, зажим:30.0, обруч:30.0, тюбик:30.0, кипятильник:30.0, кулон:30.0, подсвечник:30.0, кисет:30.0, иглу:30.0, флакончик:30.0, лупу:30.0, пестик:30.0, косметичку:30.0, тесак:29.0, таз:29.0, вспять:29.0, сигару:29.0, провод:29.0, пожелтевший:29.0, головы:29.0, паспорт:29.0, капсюль:29.0, планшет:29.0, катану:29.0, шокер:29.0, прут:29.0, саблю:29.0, зубочистку:29.0, чип:29.0, кол:28.0, кошель:28.0, сотовый:28.0, папиросу:28.0, колесико:28.0, тубус:28.0, лорнет:28.0, защелку:28.0, гильзу:28.0, шланг:28.0, свиток:28.0, градусник:28.0, фотографию:28.0, вилку:28.0, баллончик:28.0, детонатор:28.0, стрелу:28.0, крюк:27.0, пароль:27.0, ампулу:27.0, щуп:27.0, пакетик:27.0, барабан:27.0, поднос:27.0, шпагу:27.0

Статистика

Количество смыслов слов: 2,709,522
Количество слов: 1,549,574
Средняя полисемия (количество смыслов / количество слов): 1.74
Скачать: Инвентарь смыслов в формате CSV (875 Мб)

Веб демо

Вы можете получить доступ к модели используя веб демо JoBimText. Для этого из списка моделей следует выбрать модель "Trigram (Russian)". Переключатель модели расположен справа от строки поиска.

Рисунок 7. Интерактивный доступ к инвентарю смыслов русского дистрибутивного тезауруса, извлеченного с использованием JoBimText. Здесь Jo-s -- семантически связанные слова, Bim-s -- характерные признаки из контекста. Колонка спарава отображает смыслы слов.

Доступ по API

Кроме интерактивнрго демо, доступ к данной модели может быть получен через API. Например, ближайшие соседи для слова "математика" могут быть получены следующим образом:

http://ltmaggie.informatik.uni-hamburg.de/jobimviz/ws/api/russianTrigram/jo/similar/математика

Ожидаемый результат запроса:

{
    error: null,
    method: "getSimilarTerms",
    holingtype: {
        name: "russianTrigram",
        isDefault: false
    },
    results: [
    {
        score: 1000,
        key: "математика",
        contextScores: null
    },
    {
        score: 94,
        key: "физика",
        contextScores: null
    },
   {
        score: 71, 
        key: "философа",
        contextScores: null
    }, 
...

Цитирование

Если вы используете какой-либо из ресурсов перечисленных на данной странице просим ссылаться на следующую публикацию:

Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N. and Biemann C. (2016): Human and Machine Judgements about Russian Semantic Relatedness. In Proceedings of the 5th Conference on Analysis of Images, Social Networks, and Texts (AIST'2016). Communications in Computer and Information Science (CCIS). Springer-Verlag Berlin Heidelberg

@InProceedings{Panchenko:17:RDT,
  author    = {Panchenko, A. and Ustalov, D. and Arefyev, N. and Paperno, D. and Konstantinova, N. and Loukachevitch, N. and Biemann, C.},
  title     = {{Human and Machine Judgements for Russian Semantic Relatedness}},
  booktitle = {Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Yekaterinburg, Russia, April 7-9, 2016, Revised Selected Papers},
  year      = {2017},
  publisher = {Springer International Publishing},
  address   = {Yekaterinburg, Russia},
  pages     = {221--235},
  isbn      = {978-3-319-52920-2},
  doi       = {10.1007/978-3-319-52920-2\_21},
  language  = {english},
}

Публикации по проекту

Ustalov D., Arefyev N., Biemann C., Panchenko A. (2017): Negative Sampling Improves Hypernymy Extraction Based on Projection Learning. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL'2017). Valencia, Spain. Association for Computational Linguistics

Pelevina M., Arefyev N., Biemann C., Panchenko A. (2016): Making Sense of Word Embeddings. In Proceedings of the 1st Workshop on Representation Learning for NLP co-located with the ACL conference. Berlin, Germany. Association for Computational Linguistics

Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N. and Biemann C. (2016): Human and Machine Judgements about Russian Semantic Relatedness. In Proceedings of the 5th Conference on Analysis of Images, Social Networks, and Texts (AIST'2016). Communications in Computer and Information Science (CCIS). Springer-Verlag Berlin Heidelberg

Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2015): RUSSE: The First International Workshop on Russian Semantic Similarity. In Proceedings of the 21st International Conference on Computational Linguistics and Intellectual Technologies (Dialogue'2015). Moscow, Russia. RGGU

Arefyev N., Panchenko A., Lukanin A., Lesota O., Romanov P. (2015): Evaluating Three Corpus-Based Semantic Similarity Systems for Russian. In Proceedings of the 21st International Conference on Computational Linguistics and Intellectual Technologies (Dialogue'2015). Moscow, Russia. RGGU

Лицензия

Векторные представления слов, дистрибутивный тезаурус, гиперонимы и инвентари смыслов распространяются на условиях лицензии Attribution 4.0 International (CC BY 4.0) . Лицензия разрешает коммерческое использование. Просим обратить внимание на то, что корпус текстов не распространяется под данной лицензией и доступен исключительно для возможности воспроизводимости результатов научного исследования (например для сравнения аналогичных моделей и подходов на той же коллекции данных). Данный корпус не следует использовать в каком-либо коммерческом или ином продуке.

Ссылки

См. также

Russian Semantic Similarity Evaluation (RUSSE)