Разрешение лексической многозначности

Материал из NLPub
Перейти к: навигация, поиск

Разрешение лексической многозначности (англ. word sense disambiguation) — задача автоматического определения лексического значения многозначного слова в заданном контексте.[1]

Оценка качества

Оценка качества разрешения лексической многозначности осуществляется с использованием золотого стандарта на основе метода, использованного в дорожке SemEval 2010 Task 14.[2] Метод состоит в вычислении численной меры качества кластеризации для каждого отдельного слова. В качестве кластеризации выступает объединение предложений по номеру значения слова.

Мерой качества в дорожке SemEval 2010 Task 14 является V-мера.[3] Проблема использования V-меры состоит в том, что данная мера качества максимизируется при определении каждого объекта в отдельный кластер. В свою очередь, скорректированный коэффициент Рэнда не обладает такой проблемой и рекомендуется к использованию в качестве основной меры качества.[4]

Формат входного файла с результатами разрешения лексической многозначности — текстовый. В каждой строке — три поля, соответствующих предложению: lexelt — идентификатор леммы, instance — идентификатор предложения, sense — идентификатор значения слова. Поля разделены пробелом.

альбом.n альбом.n.instance.0 альбом.n.2
альбом.n альбом.n.instance.1 альбом.n.3
анатомия.n анатомия.n.instance.0 анатомия.n.2
анатомия.n анатомия.n.instance.1 анатомия.n.2
билет.n билет.n.instance.0 билет.n.1
билет.n билет.n.instance.1 билет.n.1
билет.n билет.n.instance.2 билет.n.1

См. также

Примечания