Ресурсы
Под ресурсом понимаются данные и их производные, используемые в процессе обработки естественного языка: корпусы текстов, тезаурусы, словари.
Словарь
Словарь — собрание слов (иногда также морфем или словосочетаний), расположенных в определённом порядке, используемое в качестве справочника, который объясняет значения описываемых единиц, даёт различную информацию о них или их перевод на другой язык либо сообщает сведения о предметах, обозначаемых ими.[1]
Название | Описание | Разметка | Млн. словоформ | Статус | Языки |
---|---|---|---|---|---|
Словарь OpenCorpora | Морфологический словарь открытого корпуса | части речи, грамматические характеристики слов, связи между леммами | 5 | Открытый, свободный | русский |
АОТ | Русский морфологический словарь системы «ДИАЛИНГ» | части речи, грамматические характеристики слов, ударения | 5 | Открытый, свободный | русский |
hunspell-ru | Русский словарь hunspell | части речи, грамматические характеристики слов | н/д | Открытый, свободный | русский |
Семантический словарь русского языка | Семантический словарь для решения проблемы семантического анализа текстов на русском языке | толкования на семантическом языке | 0,1 | Открытый, несвободный | русский |
Акцентуированная парадигма | Полная акцентуированная парадигма по А. А. Зализняку | ударения | 3 | Открытый, свободный | русский |
Грамматический словарь русского языка | Электронная версия грамматического словаря по А.А. Зализняку (проект Starling) | грамматические характеристики слов, ударение | н/д | Открытый, свободный | русский |
oDict.ru | Форк проекта Starling: добавлено более 3000 личных имен и топонимов в формате А.А. Зализняка | грамматические характеристики слов, ударения, видовые пары, пары "топоним - прилагательное" (Москва - московский) | 4 | Открытый, свободный | русский |
Визуальный словарь | Электронный словарь | толкования, синонимы | н/д | частично открытый | русский |
Словеса | Электронный словарь ассоциаций | признаки, действия, синонимы | 0.05 | н/д | русский |
Русский ассоциативный словарь | Электронный словарь ассоциаций | реакции, частотность | н/д | н/д | русский |
ABBYY Lingvo | Электронный словарь | толкования, переводы | н/д | Закрытый | русский, английский, немецкий, французский, др. |
Pop-Up Dictionary | Электронный словарь | толкования, переводы | 0.001–1 | Открытый (частично) | русский, английский, немецкий, французский, др. |
Мультитран | Электронный словарь | переводы | 8 | Закрытый | русский, английский, немецкий, французский, др. |
Словари на основе НКРЯ | Частотный словарь, Грамматический словарь новых слов, Непредметные имена (глагольная сочетаемость), Прилагательные и наречия высокой степени (сочетаемость) - электронные словари | частотность, части речи, грамматические характеристики, сочетаемость | 0,05 [2] | Открытый | русский |
Словарь Мюллера | Электронный словарь | переводы | 0.07 | н/д | русский, английский |
Открытая семантика русского языка | Разметка слов и выражений русского языка по семантическим срезам | семантические метки (материальность, живое, предмет и т.д.) | 0.01 | открытый, несвободный | русский |
Тональные словари
Тональный словарь — собрание слов (иногда словосочетаний), снабжённых оценочной меткой ("хорошо", "плохо", "нейтрально") или числовым значением оценки из непрерывного числового диапазона (зачастую [-1, 1]).
Название | Описание | Разметка | Источник данных | Объём | Лицензия, условия использования | Языки |
---|---|---|---|---|---|---|
КартаСловСент | Тональный словарь русского языка | оценочная метка, скалярное значение из диапазона [-1, 1] | краудсорсинг | 46127 слов | CC BY-NC-SA 4.0 | русский |
LINIS Crowd SENT | Тональный словарь и коллекция текстов с тональной разметкой | список дискретных оценок от -2 до 2 для каждого слова | краудсорсинг | 9702 слов | CC BY-NC-SA 4.0 | русский |
РуСентиЛекс | Словарь оценочных слов и выражений русского языка | полярность слова (то же, что "оценочная метка"), источник тональности, учёт многозначности | эксперт | 12000+ слов и выражений | не указано | русский |
Тезаурус
Тезаурус (от греч. thesaurós — сокровище, сокровищница) — множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений.[1]
Название | Описание | Структура | Тыс. понятий | Статус | Языки |
---|---|---|---|---|---|
Викисловарь | Многофункциональный многоязычный словарь и тезаурус | синонимы, антонимы, гиперонимы, гипонимы, родственные слова | 450 | Открытый, свободный | русский |
Russian Distributional Thesaurus (RDT) | Дистрибутивный тезаурус русского языка | семантически близкие слова (semantically related words), гиперонимы | 932 | Открытый, свободный | русский |
Словарь системы ASIS | Большой словарь-справочник синонимов русского языка системы ASIS | синонимы | 434 | Закрытый | русский |
Словарь Абрамова | Словарь русских синонимов и сходных по смыслу выражений | синонимы, родственные слова | 20 | Открытый, устаревший | русский |
WordNet | Тезаурус | синонимы, антонимы, гиперонимы, гипонимы, меронимы, логическое следование, каузация | н/д | Открытый, свободный | русский (не поддерживается), английский, голландский, итальянский, испанский, немецкий, французский, чешский, эстонский |
YARN | Тезаурус | синонимы | 15 | Открытый, свободный | русский |
BabelNet | Лингвистическая онтология | синонимы, антонимы, гиперонимы, гипонимы, меронимы, определения | 985 | Открытый, несвободный | русский, английский, немецкий, французский, итальянский, испанский |
"Универсальный словарь концептов" UNL описание | Тезаурус | синонимы, антонимы | 964 | Открытый, свободный | русский, английский, французский, хинди, испанский, малайский, вьетнамский |
РуТез | Лингвистическая онтология | синонимы, антонимы, гиперонимы, гипонимы, меронимы | 158 | Открытый, несвободный | русский |
ОРФО | Тезаурус | синонимы, антонимы, родственные слова | 70 | Закрытый | русский |
ABBYY Lingvo | Тезаурус | синонимы, антонимы, родственные слова | н/д | Закрытый | русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий, финский, китайский, латинский, турецкий, украинский, казахский, татарский, польский, венгерский, датский, нидерландский, норвежский |
Идеографический словарь русского языка | Тезаурус | иерархическая система понятий | 7.8 | Открытый | русский |
Славянский ассоциативный словарь | Тезаурус | синонимы | н/д | Открытый | русский |
InTez | Тезаурус | иерархическая система понятий | н/д | Открытый, несвободный | русский |
Корпус текстов
Корпус текстов — собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.[3]
Название | Описание | Разметка | Млн. словоформ | Статус | Языки |
---|---|---|---|---|---|
OpenCorpora | Открытый корпус русского языка | графематическая, морфологическая | 1,3 | Открытый, свободный | русский |
ГИКРЯ | Генеральный интернет-корпус русского языка | графематическая, морфологическая, пунктуация, метатекстоваяя разметка (гендерная, географическая, возрастная и т.д.) | 20000 | Требуется регистрация (онлайн-версия), есть свободно распространяемый подкорпус | русский |
НКРЯ | Национальный корпус русского языка | лексическая, морфологическая, синтаксическая, лексико-семантическая, акцентная, пунктуация; метрика и рифмовка (поэтический корпус), жестовая, речевые действия, орфоэпическая и вокалическая структуры (мультимедийный корпус), мультиязычная (параллельные корпуса), оригинальная орфография (исторические корпуса) | 500 | Открытый (онлайн-версия), несвободнораспространяемый | русский, параллельный корпус также: английский, немецкий, французский, испанский, итальянский, польский, украинский, белорусский |
MTEngine | Параллельный корпус текстов | графематическая, мультиязычная | 0,1 | Открытый | русский, английский |
Leipzig Corpora | Параллельный корпус текстов | мультиязычная | 0,2 | Открытый | русский, английский, немецкий, др. |
Корпус Яндекс.перевод | Параллельный корпус текстов | мультиязычная | 1 (предложений) | Открытый | русский, английский. |
Корпус EuroParl | Корпуса текстов заседаний Европарламента; параллельные корпуса (для пар с участием английского); инструмент для предобработки и выравнивания | Метатекстовая (CHAPTER, PARAGRAPH, SPEAKER), мультиязычная (для пар с участием английского); | в среднем около 30 | Открытый | 21 язык |
Корпус несовершенных переводов | Параллельный многовариантный корпус переводов, содержащих ошибки | мультиязычная | 0,8 | Открытый | русский, английский. |
UMC | Параллельный корпус на основе новостных текстов | мультиязычная | 0,1 | Открытый | русский, английский, чешский |
Корпус на основе Twitter | Корпус коротких текстов на русском языке на основе постов Twitter | тональность | н/д | Открытый | русский |
Wikipedia Monolingual Corpora | Одноязычный корпус текстов на основе Википедии | нет | 5000 | Открытый | русский, английский, немецкий и др. |
Common Crawl | Корпус данных веб-страниц | метатекстовая, исходная HTML-разметка | н/д (541 TB данных. Содержит дубликаты, см. также https://wwwdb.inf.tu-dresden.de/misc/dwtc/) | Открытый | русский, английский, немецкий и др. |
ParaPhraser | Корпус текстов для перефразирования | парафраз | н/д | Открытый | русский |
Сентинет | Игра по разметке тональности | тональность в именных группах | н/д | Открытый | русский |
Linis Crowd | Тональная разметка словаря и текстов | тональность | н/д | Открытый | русский |
sentimeter | Разметка тональности текстов социальных сетей | тональность | н/д | Открытый | русский |
Корпус биографических текстов | Корпус на основе биографических текстов из Википедии. Тексты разбиты на предложения, предложения имеют тематическую разметку | тематика (тип биографической информации) | н/д | Открытый | русский |
Auto_reviews | Отзывы на автомобили с оценкой по 5-балльной шкале. | тональность | н/д | Открытый | русский |
PaRuS | Морфологически и синтаксически аннотированный корпус предложений русского литературного языка. | морфологическая и синтаксическая (порождена автоматически) | ≈2700 | Открытый, CC BY 4.0 | русский |
Taiga | An open-source corpus for machine learning. | морфологическая и синтаксическая (порождена автоматически), метаданные документов | ≈5000 | Открытый, CC BY-SA 3.0 | русский |
RusAge | Russian corpus of fiction book previews with age rating labels. | Ознакомительные фрагменты и аннотации книг с возрастным рейтингом: 1) взрослые/детские; 2) возрастная категория (0+, 6+, 12+, 16+, 18+) | н/д | Открытый | русский |
Коллекции н-грамм
Коллекции н-грамм — н-граммы (последовательности из n слов) и их частоты в больших массивах текстов
Название | Описание | Разметка | Млн. нграмм | Статус | Языки |
---|---|---|---|---|---|
Google Ngrams | н-граммы, рассчитанные по Google Books | метатекстовая (год создания книги из Google Books), морфологическая(часть речи) | свободная (CC BY 3.0) | английский, китайский, французский, немецкий, иврит, итальянский, русский, испанский | |
н-граммы словоформ в НКРЯ | н-граммы, рассчитанные по НКРЯ | открытая | русский | ||
н-граммы по Common Crawl | н-граммы, рассчитанные по Common Crawl | открытая | русский, английский, немецкий и др. | ||
data.statoperator.com | н-граммы, рассчитанные по главным страницам доменов Alexa top 1M | отчёт с рассчитанными н-граммами для каждого домена из списка | 588 | открытая | русский, английский, немецкий и др. |
Банк данных
Название | Типы ресурсов | Языки | Лицензия |
---|---|---|---|
VoxForge | акустические модели, аудиофайлы, грамматики | 13 языков, включая русский, украинский | GPL |
Festvox | аудиофайлы | OS (Carnegie Mellon University) | |
Linguistic Data Consortium | аудиофайлы (различные источники и темы) | коммерческая | |
AMI Meeting Corpus | аудиофайлы (совещания), аннотированный | английский | The University of Edinburgh EULA (Noncommercial) |
EUSTACE | аудиофайлы, просодическая разметка | английский | The University of Edinburgh EULA (For noncommercial use) |
Data Archive (the Max Planck Institute) | аудио- и видеофайлы, аннотированный | более 200 языков | некоммерческая (см. Правила использования) |
Размеченная коллекция изображений
Размеченная коллекция изображений — собрание графических изображений, к которым приписаны метки, описывающие представленные иконки, пиктограммы, силуэты.
Название | Изображения | Разметка | Языки | Лицензия |
---|---|---|---|---|
The Noun Project | распространённые имена существительные | метки | русский, английский | CC0 или CC BY |
OpenClipArt | клипарт | метки | английский | общественное достояние |
Basic English picture wordlist | распространённые имена существительные | метки | английский | CC BY-SA |
ImageNet | имена существительные из WordNet | ссылки на WordNet | английский | н/д |
Pictogram | популярные слова | метки | английский, русский | н/д |
Примечания
- ↑ 1,0 1,1 Большая советская энциклопедия: В 30 т. - М.: "Советская энциклопедия", 1969–1978.
- ↑ [http://corplingran.ru/ Введение к частотному словарю современного русского языка, п. 5.1]
- ↑ Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика»