Мягкая кластеризация

Материал из NLPub
Перейти к: навигация, поиск

Мягкая кластеризация (англ. fuzzy clustering и soft clustering) — тип кластеризации, при котором каждая точка может принадлежать одному или нескольким кластерам. Мягкая кластеризация также называется нечёткой кластеризацией и используется при решении задач обработки естественного языка, в том числе в лексической семантике.

Методы

Меры качества

Оценка качества мягкой кластеризации затруднена различиями между золотым стандартом и результатами работы метода. Несмотря на это, существует три подхода к оценке мягкой кластеризации: попарная точность и полнота, нечёткий B³ и нормализованная чистота.

Попарная точность и полнота

Кластер из n элементов может быть преобразован в полносвязный граф, содержащий \frac{n(n-1)}{2} рёбер, то есть пар элементов. Это позволяет использовать стандартные меры качества, принятые в информационном поиске.[1]

Точность: \text{Pr} = \frac{tp}{tp + fp}

Полнота: \text{Re} = \frac{tp}{tp + fn}

F-мера: F_1 = 2 \frac{\text{Pr} \cdot \text{Re}}{\text{Pr} + \text{Re}}

Нечёткий B³

[2]

Точность: \text{Pr} = \operatorname{avg}_i \operatorname{avg}_{j \neq i \in \mu_y(i)} P(i, j)

Полнота: \text{Re} = \operatorname{avg}_i \operatorname{avg}_{j \neq i \in \mu_x(i)} R(i, j)

https://code.google.com/archive/p/cluster-comparison-tools/

Нормализованная чистота

[3]

Нормализованная чистота: \text{nmPU} = \frac{1}{N} \sum_{i \mbox{ s.t. } |K_i| > 1} \max_j \delta_{K_i}(K_i \cap G_j)

Нормализованная обратная чистота: \text{niPU} = \frac{1}{N} \sum_j \max_i \delta_{G_j}(K_i \cap G_j)

См. также

Примечания