Мягкая кластеризация

Материал из NLPub
Перейти к навигации Перейти к поиску

Мягкая кластеризация (англ. fuzzy clustering и soft clustering) — тип кластеризации, при котором каждая точка может принадлежать одному или нескольким кластерам. Мягкая кластеризация также называется нечёткой кластеризацией и используется при решении задач обработки естественного языка, в том числе в лексической семантике.

Методы

Меры качества

Оценка качества мягкой кластеризации затруднена различиями между золотым стандартом и результатами работы метода. Несмотря на это, существует три подхода к оценке мягкой кластеризации: попарная точность и полнота, нечёткий B³ и нормализованная чистота.

Попарная точность и полнота

Кластер из элементов может быть преобразован в полносвязный граф, содержащий рёбер, то есть пар элементов. Это позволяет использовать стандартные меры качества, принятые в информационном поиске.[1]

Точность:

Полнота:

F-мера:

Нечёткий B³

[2]

Точность:

Полнота:

https://code.google.com/archive/p/cluster-comparison-tools/

Нормализованная чистота

[3]

Нормализованная чистота:

Нормализованная обратная чистота:

Реализация данной меры качества доступна на GitHub: https://gist.github.com/dustalov/df3c644ebe3367660e13a1f23ac200a7.

См. также

Примечания