Ресурсы

Материал из NLPub
(перенаправлено с «Словарь»)

Под ресурсом понимаются данные и их производные, используемые в процессе обработки естественного языка: корпусы текстов, тезаурусы, словари.

Словарь

Словарь — собрание слов (иногда также морфем или словосочетаний), расположенных в определённом порядке, используемое в качестве справочника, который объясняет значения описываемых единиц, даёт различную информацию о них или их перевод на другой язык либо сообщает сведения о предметах, обозначаемых ими.[1]

Название Описание Разметка Млн. словоформ Статус Языки
Словарь OpenCorpora Морфологический словарь открытого корпуса части речи, грамматические характеристики слов, связи между леммами 5 Открытый, свободный русский
АОТ Русский морфологический словарь системы «ДИАЛИНГ» части речи, грамматические характеристики слов, ударения 5 Открытый, свободный русский
hunspell-ru Русский словарь hunspell части речи, грамматические характеристики слов н/д Открытый, свободный русский
Семантический словарь русского языка Семантический словарь для решения проблемы семантического анализа текстов на русском языке толкования на семантическом языке 0,1 Открытый, несвободный русский
Акцентуированная парадигма Полная акцентуированная парадигма по А. А. Зализняку ударения 3 Открытый, свободный русский
Грамматический словарь русского языка Электронная версия грамматического словаря по А.А. Зализняку (проект Starling) грамматические характеристики слов, ударение н/д Открытый, свободный русский
oDict.ru Форк проекта Starling: добавлено более 3000 личных имен и топонимов в формате А.А. Зализняка грамматические характеристики слов, ударения, видовые пары, пары "топоним - прилагательное" (Москва - московский) 4 Открытый, свободный русский
Визуальный словарь Электронный словарь толкования, синонимы н/д частично открытый русский
Словеса Электронный словарь ассоциаций признаки, действия, синонимы 0.05 н/д русский
Русский ассоциативный словарь Электронный словарь ассоциаций реакции, частотность н/д н/д русский
ABBYY Lingvo Электронный словарь толкования, переводы н/д Закрытый русский, английский, немецкий, французский, др.
Pop-Up Dictionary Электронный словарь толкования, переводы 0.001–1 Открытый (частично) русский, английский, немецкий, французский, др.
Мультитран Электронный словарь переводы 8 Закрытый русский, английский, немецкий, французский, др.
Словари на основе НКРЯ Частотный словарь, Грамматический словарь новых слов, Непредметные имена (глагольная сочетаемость), Прилагательные и наречия высокой степени (сочетаемость) - электронные словари частотность, части речи, грамматические характеристики, сочетаемость 0,05 [2] Открытый русский
Словарь Мюллера Электронный словарь переводы 0.07 н/д русский, английский
Открытая семантика русского языка Разметка слов и выражений русского языка по семантическим срезам семантические метки (материальность, живое, предмет и т.д.) 0.01 открытый, несвободный русский

Тональные словари

Тональный словарь — собрание слов (иногда словосочетаний), снабжённых оценочной меткой ("хорошо", "плохо", "нейтрально") или числовым значением оценки из непрерывного числового диапазона (зачастую [-1, 1]).

Название Описание Разметка Источник данных Объём Лицензия, условия использования Языки
КартаСловСент Тональный словарь русского языка оценочная метка, скалярное значение из диапазона [-1, 1] краудсорсинг 46127 слов CC BY-NC-SA 4.0 русский
LINIS Crowd SENT Тональный словарь и коллекция текстов с тональной разметкой список дискретных оценок от -2 до 2 для каждого слова краудсорсинг 9702 слов CC BY-NC-SA 4.0 русский
РуСентиЛекс Словарь оценочных слов и выражений русского языка полярность слова (то же, что "оценочная метка"), источник тональности, учёт многозначности эксперт 12000+ слов и выражений не указано русский

Тезаурус

Тезаурус (от греч. thesaurós — сокровище, сокровищница) — множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений.[1]

Название Описание Структура Тыс. понятий Статус Языки
Викисловарь Многофункциональный многоязычный словарь и тезаурус синонимы, антонимы, гиперонимы, гипонимы, родственные слова 450 Открытый, свободный русский
Russian Distributional Thesaurus (RDT) Дистрибутивный тезаурус русского языка семантически близкие слова (semantically related words), гиперонимы 932 Открытый, свободный русский
Словарь системы ASIS Большой словарь-справочник синонимов русского языка системы ASIS синонимы 434 Закрытый русский
Словарь Абрамова Словарь русских синонимов и сходных по смыслу выражений синонимы, родственные слова 20 Открытый, устаревший русский
WordNet Тезаурус синонимы, антонимы, гиперонимы, гипонимы, меронимы, логическое следование, каузация н/д Открытый, свободный русский (не поддерживается), английский, голландский, итальянский, испанский, немецкий, французский, чешский, эстонский
YARN Тезаурус синонимы 15 Открытый, свободный русский
BabelNet Лингвистическая онтология синонимы, антонимы, гиперонимы, гипонимы, меронимы, определения 985 Открытый, несвободный русский, английский, немецкий, французский, итальянский, испанский
"Универсальный словарь концептов" UNL описание Тезаурус синонимы, антонимы 964 Открытый, свободный русский, английский, французский, хинди, испанский, малайский, вьетнамский
РуТез Лингвистическая онтология синонимы, антонимы, гиперонимы, гипонимы, меронимы 158 Открытый, несвободный русский
ОРФО Тезаурус синонимы, антонимы, родственные слова 70 Закрытый русский
ABBYY Lingvo Тезаурус синонимы, антонимы, родственные слова н/д Закрытый русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий, финский, китайский, латинский, турецкий, украинский, казахский, татарский, польский, венгерский, датский, нидерландский, норвежский
Идеографический словарь русского языка Тезаурус иерархическая система понятий 7.8 Открытый русский
Славянский ассоциативный словарь Тезаурус синонимы н/д Открытый русский
InTez Тезаурус иерархическая система понятий н/д Открытый, несвободный русский

Корпус текстов

Корпус текстов — собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.[3]

Название Описание Разметка Млн. словоформ Статус Языки
OpenCorpora Открытый корпус русского языка графематическая, морфологическая 1,3 Открытый, свободный русский
ГИКРЯ Генеральный интернет-корпус русского языка графематическая, морфологическая, пунктуация, метатекстоваяя разметка (гендерная, географическая, возрастная и т.д.) 20000 Требуется регистрация (онлайн-версия), есть свободно распространяемый подкорпус русский
НКРЯ Национальный корпус русского языка лексическая, морфологическая, синтаксическая, лексико-семантическая, акцентная, пунктуация; метрика и рифмовка (поэтический корпус), жестовая, речевые действия, орфоэпическая и вокалическая структуры (мультимедийный корпус), мультиязычная (параллельные корпуса), оригинальная орфография (исторические корпуса) 500 Открытый (онлайн-версия), несвободнораспространяемый русский, параллельный корпус также: английский, немецкий, французский, испанский, итальянский, польский, украинский, белорусский
MTEngine Параллельный корпус текстов графематическая, мультиязычная 0,1 Открытый русский, английский
Leipzig Corpora Параллельный корпус текстов мультиязычная 0,2 Открытый русский, английский, немецкий, др.
Корпус Яндекс.перевод Параллельный корпус текстов мультиязычная 1 (предложений) Открытый русский, английский.
Корпус EuroParl Корпуса текстов заседаний Европарламента; параллельные корпуса (для пар с участием английского); инструмент для предобработки и выравнивания Метатекстовая (CHAPTER, PARAGRAPH, SPEAKER), мультиязычная (для пар с участием английского); в среднем около 30 Открытый 21 язык
Корпус несовершенных переводов Параллельный многовариантный корпус переводов, содержащих ошибки мультиязычная 0,8 Открытый русский, английский.
UMC Параллельный корпус на основе новостных текстов мультиязычная 0,1 Открытый русский, английский, чешский
Корпус на основе Twitter Корпус коротких текстов на русском языке на основе постов Twitter тональность н/д Открытый русский
Wikipedia Monolingual Corpora Одноязычный корпус текстов на основе Википедии нет 5000 Открытый русский, английский, немецкий и др.
Common Crawl Корпус данных веб-страниц метатекстовая, исходная HTML-разметка н/д (541 TB данных. Содержит дубликаты, см. также https://wwwdb.inf.tu-dresden.de/misc/dwtc/) Открытый русский, английский, немецкий и др.
ParaPhraser Корпус текстов для перефразирования парафраз н/д Открытый русский
Сентинет Игра по разметке тональности тональность в именных группах н/д Открытый русский
Linis Crowd Тональная разметка словаря и текстов тональность н/д Открытый русский
sentimeter Разметка тональности текстов социальных сетей тональность н/д Открытый русский
Корпус биографических текстов Корпус на основе биографических текстов из Википедии. Тексты разбиты на предложения, предложения имеют тематическую разметку тематика (тип биографической информации) н/д Открытый русский
Auto_reviews Отзывы на автомобили с оценкой по 5-балльной шкале. тональность н/д Открытый русский
PaRuS Морфологически и синтаксически аннотированный корпус предложений русского литературного языка. морфологическая и синтаксическая (порождена автоматически) ≈2700 Открытый, CC BY 4.0 русский
Taiga An open-source corpus for machine learning. морфологическая и синтаксическая (порождена автоматически), метаданные документов ≈5000 Открытый, CC BY-SA 3.0 русский
RusAge Russian corpus of fiction book previews with age rating labels. Ознакомительные фрагменты и аннотации книг с возрастным рейтингом: 1) взрослые/детские; 2) возрастная категория (0+, 6+, 12+, 16+, 18+) н/д Открытый русский

Коллекции н-грамм

Коллекции н-грамм — н-граммы (последовательности из n слов) и их частоты в больших массивах текстов

Название Описание Разметка Млн. нграмм Статус Языки
Google Ngrams н-граммы, рассчитанные по Google Books метатекстовая (год создания книги из Google Books), морфологическая(часть речи) свободная (CC BY 3.0) английский, китайский, французский, немецкий, иврит, итальянский, русский, испанский
н-граммы словоформ в НКРЯ н-граммы, рассчитанные по НКРЯ открытая русский
н-граммы по Common Crawl н-граммы, рассчитанные по Common Crawl открытая русский, английский, немецкий и др.
data.statoperator.com н-граммы, рассчитанные по главным страницам доменов Alexa top 1M отчёт с рассчитанными н-граммами для каждого домена из списка 588 открытая русский, английский, немецкий и др.

Банк данных

Название Типы ресурсов Языки Лицензия
VoxForge акустические модели, аудиофайлы, грамматики 13 языков, включая русский, украинский GPL
Festvox аудиофайлы OS (Carnegie Mellon University)
Linguistic Data Consortium аудиофайлы (различные источники и темы) коммерческая
AMI Meeting Corpus аудиофайлы (совещания), аннотированный английский The University of Edinburgh EULA (Noncommercial)
EUSTACE аудиофайлы, просодическая разметка английский The University of Edinburgh EULA (For noncommercial use)
Data Archive (the Max Planck Institute) аудио- и видеофайлы, аннотированный более 200 языков некоммерческая (см. Правила использования)

Размеченная коллекция изображений

Размеченная коллекция изображений — собрание графических изображений, к которым приписаны метки, описывающие представленные иконки, пиктограммы, силуэты.

Название Изображения Разметка Языки Лицензия
The Noun Project распространённые имена существительные метки русский, английский CC0 или CC BY
OpenClipArt клипарт метки английский общественное достояние
Basic English picture wordlist распространённые имена существительные метки английский CC BY-SA
ImageNet имена существительные из WordNet ссылки на WordNet английский н/д
Pictogram популярные слова метки английский, русский н/д

Примечания

  1. 1,0 1,1 Большая советская энциклопедия: В 30 т. - М.: "Советская энциклопедия", 1969–1978.
  2. [http://corplingran.ru/ Введение к частотному словарю современного русского языка, п. 5.1]
  3. Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика»