АОТ

Материал из NLPub

Проект АОТ (сокр. автоматическая обработка текста) — общее название инструментов обработки текста на естественном языке, разработанных при создании системы автоматического перевода ДИАЛИНГ. Пакет состоит из компонентов — лингвистических процессоров, которые друг за другом обрабатывают входной текст. Вход одного процессора является выходом другого.

Авторы выделяют такие компоненты, как графематический, морфологический, синтаксический и семантический анализатор.[1]

Доступность

В начале 2010 года все исходные коды анализаторов АОТ опубликованы на условиях лицензии LGPL в SVN-репозитории. Данный репозиторий включает инструменты для анализа текста, графические утилиты для Microsoft Windows и кросс-платформенные инструменты для анализа текста, а также все необходимые для работы словари.

Компоненты

Графематический анализ

Графематический анализатор выполняет выделение слов, цифровых комплексов, формул и т. д.

Морфологический анализ

Морфологический анализатор строит морфологическую интерпретацию слов входного текста.

Морфологический словарь

Русский морфологический словарь базируется на грамматическом словаре А. А. Зализняка и включает в себя 161 тыс. лемм. (около 5 млн. словоформ).[2]

Словарь представлен в виде двух файлов собственного формата: файла с описанием грамматической информации и непосредственно файла словаря.

Синтаксический анализ

Синтаксический анализатор осуществляет построение дерева зависимостей всего предложения.

Семантический анализ

Семантический анализатор формирует семантический граф текста.

Ссылки

См. также

Примечания

  1. АОТ :: Технологии
  2. Русский морфологический словарь системы «ДИАЛИНГ». http://aot.ru/docs/rusmorph.html