Кластеризация или естественная классификация это процесс объединение в группы объектов, обладающих схожими признаками. В отличие от обычной классификации, где количество групп объектов фиксировано и заранее определено набором идеалов, здесь группы заранее не определены и формируются в процессе работы системы исходя из определённой меры близости объектов.
Кластеризация применяется для решения многих прикладных задач: от сегментации изображений до экономического прогнозирования и борьбы с электронным мошенничеством.
Существует несколько основных методов разбиения множества объектов на группы. В этой статье рассматривается метод кластеризации данных, который называется ФОРЭЛ – ”ФОРмальные ЭЛементы”.
Рассмотрим набор точек X в n-мерном пространстве признаков с заданной на нём метрикой.
Метод ФОРЭЛ разбивает множество точек X на кластеры радиуса R, где R это параметр. Результатом работы этого метода есть набор C точек-центроидов, вокруг которых формируются кластеры по принципу ближайшего центра.
Алгоритм ФОРЭЛ выглядит следующим образом.
Если был задан достаточно малый размер кластера R, то в результате применения ФОРЭЛ к множеству точек X у нас появляется список центроидов C. Для улучшения результата к множеству C можно применить метод кластеризации КНП [1]. Таким образом, объединив слишком мелкие кластеры C(X), мы получаем двухуровневую кластеризацию.
Определим функцию оценки Q качества работы кластеризатора.
c – количество кластеров;
di – среднее внутрикластерное расстояние;
do – среднее межкластерное расстояние;
На рисунках ниже проиллюстрирована результаты работы ФОРЭЛ+КНП-кластеризатора. Вначале с помощью ФОРЭЛ находим точки-центроиды кластеров первого уровня, затем применяем ним КНП [1], который строит граф на этих точках, объединяя мелкие кластеры первого уровня в более крупные кластеры второго уровня.
Количество кластеров:первого уровня - 26 , ( Qlow = 0.04 )
второго уровня - 5 , ( Qhigh = 0.25 )
Рис.1: набор данных для обработки | Рис.2: результат кластеризации |
Рис.3: полный граф | Рис.4: граф с удалёнными рёбрами |
[1] Евгений Борисов Метод кластеризации КНП. -- http://www.mechanoid.kiev.ua/ml-knp.html
[2] Воронцов К.В. Методы кластеризации – http://shad.yandex.ru/lectures/machine_learning.xml