Clustering hierárquico x particional
O clustering é uma técnica de aprendizado de máquina para analisar dados e dividir em grupos de dados semelhantes. Esses grupos ou conjuntos de dados semelhantes são conhecidos como clusters. A análise de cluster analisa algoritmos de cluster que podem identificar clusters automaticamente. Hierárquica e Particional são duas dessas classes de algoritmos de agrupamento. Os algoritmos hierárquicos de armazenamento em cluster dividem os dados em uma hierarquia de clusters. Algoritmos parciais dividem o conjunto de dados em partições separadas entre si.
O que é cluster hierárquico?
Os algoritmos de cluster hierárquicos repetem o ciclo de mesclagem de clusters menores em maiores ou de divisão de clusters maiores em outros menores. De qualquer maneira, ele produz uma hierarquia de clusters chamada dendograma. A estratégia de clustering aglomerativa usa a abordagem de baixo para cima da mesclagem de clusters para os maiores, enquanto a estratégia de cluster divisivo usa a abordagem de cima para baixo da divisão para os menores. Normalmente, a abordagem gananciosa é usada para decidir quais clusters maiores / menores são usados para mesclar / dividir. Distância euclidiana, distância de Manhattan e semelhança de cosseno são algumas das métricas de similaridade mais comumente usadas para dados numéricos. Para dados não numéricos, são usadas métricas como a distância de Hamming. É importante observar que as observações reais (instâncias) não são necessárias para o agrupamento hierárquico, porque apenas a matriz de distâncias é suficiente. Dendograma é uma representação visual dos clusters, que exibe a hierarquia muito claramente. O usuário pode obter agrupamentos diferentes, dependendo do nível em que o dendograma é cortado.
O que é clustering parcial?
Os algoritmos de armazenamento em cluster particional geram várias partições e as avaliam por algum critério. Eles também são referidos como não hierárquicos, pois cada instância é colocada em exatamente um dos k clusters mutuamente exclusivos. Como apenas um conjunto de clusters é a saída de um algoritmo de cluster particional típico, é necessário que o usuário insira o número desejado de clusters (geralmente chamado k). Um dos algoritmos de clustering particional mais comumente usados é o algoritmo de clustering k-means. O usuário deve fornecer o número de clusters (k) antes de iniciar e o algoritmo inicia primeiro os centros (ou centróides) das partições k. Em poucas palavras, o algoritmo de agrupamento k-means designa membros com base nos centros atuais e re-estima os centros com base nos membros atuais. Essas duas etapas são repetidas até que uma certa função objetivo de similaridade intra-cluster e função objetivo de dissimilaridade inter-cluster seja otimizada. Portanto, a inicialização sensata dos centros é um fator muito importante na obtenção de resultados de qualidade a partir de algoritmos de agrupamento parciais.
Qual é a diferença entre Clustering Hierárquico e Particional?
O cluster hierárquico e o particional têm diferenças importantes no tempo de execução, suposições, parâmetros de entrada e clusters resultantes. Normalmente, o clustering particional é mais rápido que o clustering hierárquico. O cluster hierárquico requer apenas uma medida de similaridade, enquanto o cluster particional requer suposições mais fortes, como número de clusters e os centros iniciais. O armazenamento em cluster hierárquico não requer nenhum parâmetro de entrada, enquanto os algoritmos de armazenamento em cluster particional requerem o número de clusters para iniciar a execução. O cluster hierárquico retorna uma divisão muito mais significativa e subjetiva dos clusters, mas o cluster parcial resulta em exatamente k clusters. Algoritmos de cluster hierárquicos são mais adequados para dados categóricos, desde que uma medida de similaridade possa ser definida adequadamente.