Кластерный анализ основан на матрице сходства/несходства и заключается в постепенном слиянии (=объединении) станций в группы (кластеры) по определенному алгоритму, начиная с тех групп, между которыми наблюдается наибольшее сходство (несходство). Результатом является графическое изображение взаимоотношений между станциями (датами), называемое дендрограммой. По оси х на таком графике откладываются все станции (даты), а по оси y – уровень их сходства (например, по коэффициенту Брея-Куртиса). Чтобы разобраться с тем, как происходит объединение станций (дат) в кластеры, используем уже знакомый нам простой пример с зообентосом залива Лох-Линне. Выполнив трансформацию исходных данных по численности путем извлечения корня четвертой степени, мы получили следующую матрицу сходства Как видим, наибольшее сходство наблюдается между пробами 2 и 4, поэтому именно их мы и объединяем в первый кластер на уровне сходства 68.1%. После этого рассчитывается новая матрица сходства, включающая уже три пробы: «1», «2&4» и «3». Понятно, что между пробами 1 и 3 степень сходства остается той же. Но вот что считать сходством S(1, 2&4)? Очевидно, этот новый уровень должен быть функцией (т.е. должен зависеть) от исходных уровней сходства, т.е. S(1,4) и S(1,2). Здесь возможны три принципиальных варианта: а) одиночное присоединение (single linkage): выбирается максимальное из исходных сходств. В нашем случае это S(1, 2&4) = S(1,4) = 52.2%. б) полное присоединение (complete linkage): выбирается наименьшее из исходных сходств: S(1, 2&4) = S(1,2) = 25.6%. в) среднее присоединение (group-average linkage): S(1, 2&4) = [S(1,4) + S(1,2)]/2 = 38.9% Мы используем последний вариант (38.9%). В новой матрице наибольшее сходство наблюдается между кластером «2&4» и пробой «3». Поэтому именно их мы далее и объединяем в новый кластер «2&3&4». Наконец, осталось построить последнюю матрицу, которая отражала бы сходство между пробой 1 и кластером «2&3&4». Чтобы найти это сходство можно усреднить все коэффициенты сходства между первой пробой и всеми остальными пробами в исходной матрице сходства: S(1, 2&3&4) = (25.6 + 0.0 + 52.2)/3 = 25.9. Результатом всех этих преобразований будет следующая дендрограмма. Как видим, кластерный анализ стремится к объединению станций/проб/дат в дискретные группы, а не изображению их взаимного расположения в определенной непрерывной числовой системе координат, как это делает анализ главных компонент. В этом состоит одно из главных различий этих двух методов. Еще одно отличие состоит в определенной произвольности кластерного анализа. Речь идет о способе объединения тех или иных объектов в кластеры. При разных способах присоединения окончательный вид дендрограммы может варьировать и, следовательно, приводить к разным выводам. Общих рекомендаций по поводу того, какой вариант объединения выбрать, нет. Обычно бывает полезно испробовать несколько вариантов. Еще необходимо помнить о том, что кластерный анализ имеет смысл при достаточно большом числе наблюдений, когда простой анализ матрицы сходства затруднителен. Так, в рассмотренном примере особого смысла в построении дендрограммы не было. Однако при большом числе наблюдений этот метод оказывается очень полезным.