TextRank

Материал из NLPub
Перейти к: навигация, поиск

TextRank — приложение алгоритма PageRank к задачам обработки естественного языка.

Суть

Основная идея заключается в выполнении трёх шагов[1]:

  1. построение графа на основе исходного текста на естественном языке;
  2. приближённое вычисление значения PageRank для построенного графа;
  3. применение полученных весов вершин для извлечения сведений из текста.

Вычисление

Используются следующие обозначения: — фактор затухания, — множество вершин, входящих в , — множество вершин, исходящих из , — вес ребра .

В общем виде, величина TextRank — это значение стационарного распределения случайного блуждания для каждой вершины с учётом весов рёбер .

Применение

В оригинальной работе[1] продемонстрировано использование TextRank в задачах извлечения ключевых слов и автореферата для английского языка. Позднее показана эффективность применения TextRank и для русского языка[2].

Примечания