MULTEXT

Материал из NLPub
Перейти к: навигация, поиск

Multilingual Text Tools and Corpora (сокр. англ. MULTEXT) — открытый проект по разработке стандартов и спецификаций для кодирования и обработки корпусов текстов, а также по созданию инструментов и языковых ресурсов на основе этих стандартов.

Состав

Проект делится на две ветки: MULTEXT — стандарты преимущественно для западноевропейских языков, и MULTEXT-East — стандарты преимущественно для восточноевропейских языков, в том числе русского и украинского.

Ресурсы проекта MULTEXT-East включают в себя многоязычный набор данных для построения решений для автоматической обработки текста. Набор данных с некоторыми исключениями состоит из морфосинтаксических спецификаций (тагсета), словаря, размеченного корпуса, параллельного корпуса и речевого корпуса для болгарского, хорватского, чешского, английского, эстонского, венгерского, литовского, македонского, персидского, польского, румынского, русского, сербского, словацкого, словенского, и украинского языков.

Спецификации

В рамках проекта представлена система морфосинтаксических дескрипторов, позволяющая однозначно кодировать части речи слов и их грамматические характеристики с возможностью эффективного хранения и обработки. Дескриптор представляется в виде последовательности символов, первым из которых выступает категория (часть речи), после которой перечисляются значения соответствующих атрибутов с учётом порядка их следования в спецификации.

Пример

Например, запись Ncmsan означает неодушевлённое общеупотребительное имя существительное мужского рода в единственном числе и винительном падеже, а запись Vm--1p---p означает глагол длительного вида в первом лице и множественном числе.

Использование

Данный стандарт имеет достаточно широкое применение. Например, морфосинтаксические дескрипторы MULTEXT-East используются в модели русского языка для TreeTagger, составленной Сергеем Шаровым.

Ruby

Для языка программирования Ruby существует библиотека Myasorubka, реализующая спецификации MULTEXT-East для русского и английского языков.

Ссылки

Примечания