АОТ
Проект АОТ (сокр. автоматическая обработка текста) — общее название инструментов обработки текста на естественном языке, разработанных при создании системы автоматического перевода ДИАЛИНГ. Пакет состоит из компонентов — лингвистических процессоров, которые друг за другом обрабатывают входной текст. Вход одного процессора является выходом другого.
Авторы выделяют такие компоненты, как графематический, морфологический, синтаксический и семантический анализатор.[1]
Доступность
В начале 2010 года все исходные коды анализаторов АОТ опубликованы на условиях лицензии LGPL в SVN-репозитории. Данный репозиторий включает инструменты для анализа текста, графические утилиты для Microsoft Windows и кросс-платформенные инструменты для анализа текста, а также все необходимые для работы словари.
Компоненты
Графематический анализ
Графематический анализатор выполняет выделение слов, цифровых комплексов, формул и т. д.
Морфологический анализ
Морфологический анализатор строит морфологическую интерпретацию слов входного текста.
Морфологический словарь
Русский морфологический словарь базируется на грамматическом словаре А. А. Зализняка и включает в себя 161 тыс. лемм. (около 5 млн. словоформ).[2]
Словарь представлен в виде двух файлов собственного формата: файла с описанием грамматической информации и непосредственно файла словаря.
Синтаксический анализ
Синтаксический анализатор осуществляет построение дерева зависимостей всего предложения.
Семантический анализ
Семантический анализатор формирует семантический граф текста.
Ссылки
См. также
Примечания
- ↑ АОТ :: Технологии
- ↑ Русский морфологический словарь системы «ДИАЛИНГ». http://aot.ru/docs/rusmorph.html