Кластеризация или естественная классификация это процесс объединение в группы объектов, обладающих схожими признаками. В отличие от задачи классификации, где количество групп объектов фиксировано и заранее определено набором идеалов, здесь группы заранее не определены и формируются в процессе работы системы исходя из определённой меры близости объектов.
Кластеризация применяется для решения многих прикладных задач: от сегментации изображений до экономического прогнозирования и борьбы с электронным мошенничеством.
Существует несколько основных методов разбиения множества объектов на группы. В этой статье рассматривается метод кластеризации данных, который называется КНП – ”Кратчайший Незамкнутый Путь”.
Рассмотрим набор точек X в n-мерном пространстве признаков с заданной на нём метрикой.
Метод КНП строит на точках выборки X ациклический связный граф, соединяя точки исходя из минимального расстояния между ними. После того как граф построен, из него удаляются k самых длинных рёбер, где k это параметр, который определяет количество кластеров.
Алгоритм КНП выглядит следующим образом.
Определим функцию оценки Q качества работы кластеризатора.
c – количество кластеров;
di – среднее внутрикластерное расстояние;
do – среднее межкластерное расстояние;
На рисунках ниже проиллюстрирована результаты работы КНП-кластеризатора.
Рис.1: набор данных для обработки | Рис.2: результат кластеризации Q=0.2 |
Рис.3: полный граф | Рис.4: граф с удалёнными рёбрами |