Под ресурсом понимаются данные и их производные, используемые в процессе обработки естественного языка: корпусы текстов, тезаурусы, словари.
Словарь
Словарь — собрание слов (иногда также морфем или словосочетаний), расположенных в определённом порядке, используемое в качестве справочника, который объясняет значения описываемых единиц, даёт различную информацию о них или их перевод на другой язык либо сообщает сведения о предметах, обозначаемых ими.[1]
Название
|
Описание
|
Разметка
|
Млн. словоформ
|
Статус
|
Языки
|
Словарь OpenCorpora
|
Морфологический словарь открытого корпуса
|
части речи, грамматические характеристики слов, связи между леммами
|
5
|
Открытый, свободный
|
русский
|
АОТ
|
Русский морфологический словарь системы «ДИАЛИНГ»
|
части речи, грамматические характеристики слов, ударения
|
5
|
Открытый, свободный
|
русский
|
hunspell-ru
|
Русский словарь hunspell
|
части речи, грамматические характеристики слов
|
н/д
|
Открытый, свободный
|
русский
|
Семантический словарь русского языка
|
Семантический словарь для решения проблемы семантического анализа текстов на русском языке
|
толкования на семантическом языке
|
0,1
|
Открытый, несвободный
|
русский
|
Акцентуированная парадигма
|
Полная акцентуированная парадигма по А. А. Зализняку
|
ударения
|
3
|
Открытый, свободный
|
русский
|
Грамматический словарь русского языка
|
Электронная версия грамматического словаря по А.А. Зализняку (проект Starling)
|
грамматические характеристики слов, ударение
|
н/д
|
Открытый, свободный
|
русский
|
Визуальный словарь
|
Электронный словарь
|
толкования, синонимы
|
н/д
|
частично открытый
|
русский
|
Словеса
|
Электронный словарь ассоциаций
|
признаки, действия, синонимы
|
0.05
|
н/д
|
русский
|
Русский ассоциативный словарь
|
Электронный словарь ассоциаций
|
реакции, частотность
|
н/д
|
н/д
|
русский
|
ABBYY Lingvo
|
Электронный словарь
|
толкования, переводы
|
н/д
|
Закрытый
|
русский, английский, немецкий, французский, др.
|
Pop-Up Dictionary
|
Электронный словарь
|
толкования, переводы
|
0.001–1
|
Открытый (частично)
|
русский, английский, немецкий, французский, др.
|
Мультитран
|
Электронный словарь
|
переводы
|
8
|
Закрытый
|
русский, английский, немецкий, французский, др.
|
Тезаурус
Тезаурус (от греч. thesaurós — сокровище, сокровищница) — множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений.[1]
Название
|
Описание
|
Структура
|
Тыс. понятий
|
Статус
|
Языки
|
Викисловарь
|
Многофункциональный многоязычный словарь и тезаурус
|
синонимы, антонимы, гиперонимы, гипонимы, родственные слова
|
450
|
Открытый, свободный
|
русский
|
Словарь системы ASIS
|
Большой словарь-справочник синонимов русского языка системы ASIS
|
синонимы
|
434
|
Закрытый
|
русский
|
Cловарь синонимов Н. Абрамова
|
Словарь русских синонимов и сходных по смыслу выражений
|
синонимы, родственные слова
|
20
|
Открытый, устаревший
|
русский
|
WordNet
|
Тезаурус
|
синонимы, антонимы, гиперонимы, гипонимы, меронимы, логическое следование, каузация
|
н/д
|
Открытый, свободный
|
русский (не поддерживается), английский, голландский, итальянский, испанский, немецкий, французский, чешский, эстонский
|
ОРФО
|
Тезаурус
|
синонимы, антонимы, родственные слова
|
70
|
Закрытый
|
русский
|
ABBYY Lingvo
|
Тезаурус
|
синонимы, антонимы, родственные слова
|
н/д
|
Закрытый
|
русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий, финский, китайский, латинский, турецкий, украинский, казахский, татарский, польский, венгерский, датский, нидерландский, норвежский
|
Идеографический словарь русского языка
|
Тезаурус
|
иерархическая система понятий
|
7.8
|
Открытый
|
русский
|
Славянский ассоциативный словарь
|
Тезаурус
|
синонимы
|
н/д
|
Открытый
|
русский
|
Корпус текстов
Корпус текстов — собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.[2]
Название
|
Описание
|
Разметка
|
Млн. словоформ
|
Статус
|
Языки
|
OpenCorpora
|
Открытый корпус русского языка
|
графематическая, морфологическая
|
0,8
|
Открытый, свободный
|
русский
|
НКРЯ
|
Национальный корпус русского языка
|
графематическая, морфологическая, синтаксическая, семантическая
|
300
|
Закрытый
|
русский
|
MTEngine
|
Параллельный корпус текстов
|
графематическая, мультиязычная
|
0,1
|
Открытый
|
русский, английский
|
Leipzig Corpora
|
Параллельный корпус текстов
|
мультиязычная
|
0,2
|
Открытый
|
русский, английский, немецкий, др.
|
Корпус Яндекс.перевод
|
Параллельный корпус текстов
|
мультиязычная
|
1(?)
|
Открытый
|
русский, английский.
|
Корпус несовершенных переводов
|
Параллельный многовариантный корпус переводов, содержащих ошибки
|
мультиязычная
|
0,8
|
Открытый, свободный
|
русский, английский.
|
Банк данных
Название
|
Типы ресурсов
|
Языки
|
Лицензия
|
VoxForge
|
акустические модели, аудиофайлы, грамматики
|
13 языков, включая русский, украинский
|
GPL
|
Festvox
|
аудиофайлы
|
|
OS (Carnegie Mellon University)
|
Linguistic Data Consortium
|
аудиофайлы (различные источники и темы)
|
|
коммерческая
|
AMI Meeting Corpus
|
аудиофайлы (совещания), аннотированный
|
английский
|
The University of Edinburgh EULA (Noncommercial)
|
EUSTACE
|
аудиофайлы, просодическая разметка
|
английский
|
The University of Edinburgh EULA (For noncommercial use)
|
Размеченная коллекция изображений
Размеченная коллекция изображений — собрание графических изображений, к которым приписаны метки, описывающие представленные иконки, пиктограммы, силуэты.
Название
|
Изображения
|
Разметка
|
Языки
|
Лицензия
|
The Noun Project
|
распространённые имена существительные
|
метки
|
русский, английский
|
CC0 или CC BY
|
OpenClipArt
|
клипарт
|
метки
|
английский
|
общественное достояние
|
Basic English picture wordlist
|
распространённые имена существительные
|
метки
|
английский
|
CC BY-SA
|
Примечания
- ↑ 1,0 1,1 Большая советская энциклопедия: В 30 т. - М.: "Советская энциклопедия", 1969–1978.
- ↑ Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика»