OpenCorpora

Материал из NLPub
(перенаправлено с «Открытый корпус»)
Перейти к: навигация, поиск

OpenCorpora («Открытый корпус») — краудсорсинговый проект создания морфологически, синтаксически и семантически размеченного корпуса текстов на русском языке, в полном объёме доступном для исследователей. Проект существует с 2009 года и содержит свободные тексты, распространяющиеся на условиях лицензии CC-BY-SA.

Технологическая платформа проекта доступна[1] по лицензии GNU GPL.

Компоненты

Морфологически размеченный корпус

Основная задача проекта сегодня — создать доступный морфологически размеченный корпус текстов на русском языке со снятой неоднозначностью. При этом любой желающий может принять участие в разметке текстов, и для этого совершенно не требуется знание области компьютерной лингвистики. Достаточно просто вспомнить школьный курс русского языка — различия между частями речи, открыть список заданий и уделить ответам на эти задания несколько минут своего времени.

Задания сгруппированы в пулы по несколько сотен штук. На каждое задание отвечает несколько человек (чаще всего трое). Когда все задания в пуле выполнены заданным количеством участников, пул закрывается и перестаёт отображаться в списке доступных заданий. Закрытые пулы проверяют модераторы и принимают окончательные решения. После модерации ответы попадают в разметку корпуса и часть неоднозначности снимается.

Все размеченные материалы доступны для скачивания.

Словарь

Морфологический словарь проекта «Открытый корпус» содержит более пяти миллионов словоформ в индексе[2]. Характеристики слов описываются ста девятью граммемами. Описание XML-разметки словаря опубликовано на сайте проекта.

Ссылки

Примечания

  1. Багтрекер и исходные коды проекта «Открытый корпус» доступны на GitHub.
  2. Словарь доступен в машиночитаемом виде.