Решётки слов и классов

Материал из NLPub
(перенаправлено с «Word-Class Lattices»)
Перейти к: навигация, поиск

Решётки слов и классов (англ. Word-Class Lattices) — модель представления предложения в виде направленного ацикличного графа, вершнинами которого являются слова или классы слов.[1]

Доступность

Набор данных

В оригинальной статье про WCL[1] сказано, что построенный по материалам Википедии оценочный набор данных всего содержит 4619 предложений, из которых 1908 являются определениями, 2711 определениями не являются. В свою очередь, эти цифры не согласуются с количеством предложений в опубликованных наборах данных. Извлечь необходимые определения можно из набора данных wcl_datasets_v1.0.tar.gz.

После распаковки архива необходимо перейти в директорию wikipedia и добавить в неё содержимое git-репозитория https://gist.github.com/dustalov/d9830eee6a9350ffac0559abc3a02b1f. Затем достаточно выполнить команду make wiki_really_all.txt, которая корректным образом извлечёт из файлов wiki_good.txt и wiki_bad.txt соответствующие предложения и сформирует следующие файлы:

  • wiki_really_good.txt, содержащий 1908 предложений с определениями;
  • wiki_really_bad.txt, содержащий 2711 предложений, не являющихся определениями;
  • wiki_really_all.txt, содержащий все 4619 предложений.

Каждое предложение в этих файлах записывается в виде двух строк. Первая строка начинается с символа # и содержит текстовое представление предложения с зашифрованным целевым словом, отмеченным как TARGET. Вторая строка начинается с целевого слова, после чего записывается представление слов и их частей речи в данном предложении.

Для извлечения текста предложений с заменой метки TARGET на фактически употреблённое слово возможно воспользоваться следующей командой:

$ ./filter.awk wiki_really_all.txt > sentences.txt

Реализация

http://lcl.uniroma1.it/wcl/WCL-API-2.2.zip

Ссылки

См. также