Ресурсы

Материал из NLPub
Перейти к: навигация, поиск

Под ресурсом понимаются данные и их производные, используемые в процессе обработки естественного языка: корпусы текстов, тезаурусы, словари.

Содержание

Словарь

Словарь — собрание слов (иногда также морфем или словосочетаний), расположенных в определённом порядке, используемое в качестве справочника, который объясняет значения описываемых единиц, даёт различную информацию о них или их перевод на другой язык либо сообщает сведения о предметах, обозначаемых ими.[1]

Название Описание Разметка Млн. словоформ Статус Языки
Словарь OpenCorpora Морфологический словарь открытого корпуса части речи, грамматические характеристики слов, связи между леммами 5 Открытый, свободный русский
АОТ Русский морфологический словарь системы «ДИАЛИНГ» части речи, грамматические характеристики слов, ударения 5 Открытый, свободный русский
hunspell-ru Русский словарь hunspell части речи, грамматические характеристики слов н/д Открытый, свободный русский
Семантический словарь русского языка Семантический словарь для решения проблемы семантического анализа текстов на русском языке толкования на семантическом языке 0,1 Открытый, несвободный русский
Акцентуированная парадигма Полная акцентуированная парадигма по А. А. Зализняку ударения 3 Открытый, свободный русский
Грамматический словарь русского языка Электронная версия грамматического словаря по А.А. Зализняку (проект Starling) грамматические характеристики слов, ударение н/д Открытый, свободный русский
Визуальный словарь Электронный словарь толкования, синонимы н/д частично открытый русский
Словеса Электронный словарь ассоциаций признаки, действия, синонимы 0.05 н/д русский
Русский ассоциативный словарь Электронный словарь ассоциаций реакции, частотность н/д н/д русский
ABBYY Lingvo Электронный словарь толкования, переводы н/д Закрытый русский, английский, немецкий, французский, др.
Pop-Up Dictionary Электронный словарь толкования, переводы 0.001–1 Открытый (частично) русский, английский, немецкий, французский, др.
Мультитран Электронный словарь переводы 8 Закрытый русский, английский, немецкий, французский, др.

Тезаурус

Тезаурус (от греч. thesaurós — сокровище, сокровищница) — множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений.[1]

Название Описание Структура Тыс. понятий Статус Языки
Викисловарь Многофункциональный многоязычный словарь и тезаурус синонимы, антонимы, гиперонимы, гипонимы, родственные слова 450 Открытый, свободный русский
Словарь системы ASIS Большой словарь-справочник синонимов русского языка системы ASIS синонимы 434 Закрытый русский
Cловарь синонимов Н. Абрамова Словарь русских синонимов и сходных по смыслу выражений синонимы, родственные слова 20 Открытый, устаревший русский
WordNet Тезаурус синонимы, антонимы, гиперонимы, гипонимы, меронимы, логическое следование, каузация н/д Открытый, свободный русский (не поддерживается), английский, голландский, итальянский, испанский, немецкий, французский, чешский, эстонский
ОРФО Тезаурус синонимы, антонимы, родственные слова 70 Закрытый русский
ABBYY Lingvo Тезаурус синонимы, антонимы, родственные слова н/д Закрытый русский, английский, немецкий, французский, испанский, итальянский, португальский, греческий, финский, китайский, латинский, турецкий, украинский, казахский, татарский, польский, венгерский, датский, нидерландский, норвежский
Идеографический словарь русского языка Тезаурус иерархическая система понятий 7.8 Открытый русский
Славянский ассоциативный словарь Тезаурус синонимы н/д Открытый русский

Корпус текстов

Корпус текстов — собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.[2]

Название Описание Разметка Млн. словоформ Статус Языки
OpenCorpora Открытый корпус русского языка графематическая, морфологическая 0,8 Открытый, свободный русский
НКРЯ Национальный корпус русского языка графематическая, морфологическая, синтаксическая, семантическая 300 Закрытый русский
MTEngine Параллельный корпус текстов графематическая, мультиязычная 0,1 Открытый русский, английский
Leipzig Corpora Параллельный корпус текстов мультиязычная 0,2 Открытый русский, английский, немецкий, др.
Корпус Яндекс.перевод Параллельный корпус текстов мультиязычная 1(?) Открытый русский, английский.
Корпус несовершенных переводов Параллельный многовариантный корпус переводов, содержащих ошибки мультиязычная 0,8 Открытый, свободный русский, английский.

Банк данных

Название Типы ресурсов Языки Лицензия
VoxForge акустические модели, аудиофайлы, грамматики 13 языков, включая русский, украинский GPL
Festvox аудиофайлы OS (Carnegie Mellon University)
Linguistic Data Consortium аудиофайлы (различные источники и темы) коммерческая
AMI Meeting Corpus аудиофайлы (совещания), аннотированный английский The University of Edinburgh EULA (Noncommercial)
EUSTACE аудиофайлы, просодическая разметка английский The University of Edinburgh EULA (For noncommercial use)

Размеченная коллекция изображений

Размеченная коллекция изображений — собрание графических изображений, к которым приписаны метки, описывающие представленные иконки, пиктограммы, силуэты.

Название Изображения Разметка Языки Лицензия
The Noun Project распространённые имена существительные метки русский, английский CC0 или CC BY
OpenClipArt клипарт метки английский общественное достояние
Basic English picture wordlist распространённые имена существительные метки английский CC BY-SA

Примечания

  1. 1,0 1,1 Большая советская энциклопедия: В 30 т. - М.: "Советская энциклопедия", 1969–1978.
  2. Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика»
Личные инструменты
Пространства имён

Варианты
Действия
NLPub
Ресурсы
Вживую
Навигация
Инструменты