Tesuck

Материал из NLPub
Перейти к: навигация, поиск

Tesuçk — сервис автоматического реферирования и выделения ключевых слов, построенный на основе теоретико-графовых моделей[1].

Доступность

Анализатор доступен только для некоммерческого использования, так как при обработке текста используются программные продукты, запрещающие коммерческое применение[2].

Использование

Сервис Tesuçk имеет программный интерфейс, при помощи которого можно выполнять извлечение ключевых слов и словосочетаний из текстов.

Для обращения к программному интерфейсу необходимо передать POST-запрос по желаемому URI. Сервис позволяет решать следующие задачи:

  • извлечение ключевых слов и словосочетаний;
  • автоматическое реферирование текста;
  • построение графа слов текста.

Внутри запроса необходимо передать один из обязательных параметров: text или link. Также доступны необязательные параметры, уточняющие желаемое поведение анализатора. Эти параметры доступны во всех режимах работы анализатора.

Параметр Описание
text Текст для обработки в кодировке UTF-8.
link URI документа в Интернете, например http://tesuck.eveel.ru/about.
approach Алгоритм: textrank (по умолчанию) или degext.
language Целевой язык: ru (по умолчанию) или en.
window Ширина окна при составлении графа: 2 (по умолчанию).
sentences Количество предложений в автореферате. Указывается целое число. Если не указать, то сервис оценит значение самостоятельно.

Доступны примеры использования анализатора на распространённых языках программирования.

Извлечение ключевых слов

Основная задача сервиса — извлечение ключевых слов и словосочетаний из предоставленных текстов. Сторонние системы могут воспользоваться данной функциональностью по адресу http://<АДРЕС>/extract.json или http://<АДРЕС>/extract.xml.

Существует вариант с экспортом списка терминов в виде CSV-файла: http://<АДРЕС>/extract.csv. При этом колонки имеют следующий порядок: [лемма, значимость].

Автоматическое реферирование текста

Сервис умеет выполнять автоматическое реферирование текстов. Данная функциональность доступна по URI: http://<АДРЕС>/summarize.json. Можно указать желаемое количество предложений в автореферате или положиться на эвристику сервиса.

Построение графа слов текста

В процессе обработки текста анализатор генерирует граф слов. Сервис имеет возможность экспорта данного графа в формате GraphML для дальнейшего использования: http://<АДРЕС>/extract.graphml.

Ссылки

См. также

Примечания

  1. Д. Усталов (2012), Извлечение терминов из русскоязычных текстов при помощи графовых моделей
  2. Tesuçk использует TreeTagger для снятия морфологической неоднозначности и лемматизации.