TextRank

Материал из NLPub
Перейти к: навигация, поиск

TextRank — приложение алгоритма PageRank к задачам обработки естественного языка.

Суть

Основная идея заключается в выполнении трёх шагов[1]:

  1. построение графа на основе исходного текста на естественном языке;
  2. приближённое вычисление значения PageRank для построенного графа;
  3. применение полученных весов вершин для извлечения сведений из текста.

Вычисление

Используются следующие обозначения: d — фактор затухания, In(t) — множество вершин, входящих в t, Out(t) — множество вершин, исходящих из t, w_{ij} — вес ребра (t_i, t_j).

В общем виде, величина TextRank — это значение стационарного распределения случайного блуждания для каждой вершины t \in V с учётом весов рёбер TR(t_i) = (1 - d) + d \cdot \sum_{t_j \in In(t_i)} \frac{w_{ji}}{\sum_{t_k \in Out(t_j)} w_{jk}} \cdot TR(t_j).

Применение

В оригинальной работе[1] продемонстрировано использование TextRank в задачах извлечения ключевых слов и автореферата для английского языка. Позднее показана эффективность применения TextRank и для русского языка[2].

Примечания

  1. 1,0 1,1 R. Mihalcea, P. Tarau. TextRank: Bringing Order into Texts, 2004.
  2. Д. Усталов. Извлечение терминов из русскоязычных текстов при помощи графовых моделей, 2012.