OpenCorpora
OpenCorpora («Открытый корпус») — краудсорсинговый проект создания морфологически, синтаксически и семантически размеченного корпуса текстов на русском языке, в полном объёме доступном для исследователей. Проект существует с 2009 года и содержит свободные тексты, распространяющиеся на условиях лицензии CC-BY-SA.
Технологическая платформа проекта доступна[1] по лицензии GNU GPL.
Компоненты
Морфологически размеченный корпус
Основная задача проекта сегодня — создать доступный морфологически размеченный корпус текстов на русском языке со снятой неоднозначностью. При этом любой желающий может принять участие в разметке текстов, и для этого совершенно не требуется знание области компьютерной лингвистики. Достаточно просто вспомнить школьный курс русского языка — различия между частями речи, открыть список заданий и уделить ответам на эти задания несколько минут своего времени.
Задания сгруппированы в пулы по несколько сотен штук. На каждое задание отвечает несколько человек (чаще всего трое). Когда все задания в пуле выполнены заданным количеством участников, пул закрывается и перестаёт отображаться в списке доступных заданий. Закрытые пулы проверяют модераторы и принимают окончательные решения. После модерации ответы попадают в разметку корпуса и часть неоднозначности снимается.
Все размеченные материалы доступны для скачивания.
Словарь
Морфологический словарь проекта «Открытый корпус» содержит более пяти миллионов словоформ в индексе[2]. Характеристики слов описываются ста девятью граммемами. Описание XML-разметки словаря опубликовано на сайте проекта.