MULTEXT
Multilingual Text Tools and Corpora (сокр. англ. MULTEXT) — открытый проект по разработке стандартов и спецификаций для кодирования и обработки корпусов текстов, а также по созданию инструментов и языковых ресурсов на основе этих стандартов.
Состав
Проект делится на две ветки: MULTEXT — стандарты преимущественно для западноевропейских языков, и MULTEXT-East — стандарты преимущественно для восточноевропейских языков, в том числе русского и украинского.
Ресурсы проекта MULTEXT-East включают в себя многоязычный набор данных для построения решений для автоматической обработки текста. Набор данных с некоторыми исключениями состоит из морфосинтаксических спецификаций (тагсета), словаря, размеченного корпуса, параллельного корпуса и речевого корпуса для болгарского, хорватского, чешского, английского, эстонского, венгерского, литовского, македонского, персидского, польского, румынского, русского, сербского, словацкого, словенского, и украинского языков.
Спецификации
В рамках проекта представлена система морфосинтаксических дескрипторов, позволяющая однозначно кодировать части речи слов и их грамматические характеристики с возможностью эффективного хранения и обработки. Дескриптор представляется в виде последовательности символов, первым из которых выступает категория (часть речи), после которой перечисляются значения соответствующих атрибутов с учётом порядка их следования в спецификации.
Пример
Например, запись Ncmsan
означает неодушевлённое общеупотребительное имя существительное мужского рода в единственном числе и винительном падеже, а запись Vm--1p---p
означает глагол длительного вида в первом лице и множественном числе.
Использование
Данный стандарт имеет достаточно широкое применение. Например, морфосинтаксические дескрипторы MULTEXT-East используются в модели русского языка для TreeTagger, составленной Сергеем Шаровым.
Ruby
Для языка программирования Ruby существует библиотека Myasorubka, реализующая спецификации MULTEXT-East для русского и английского языков.