Técnica multivariada (também conhecida como análise de conglomerado ou de agrupamento) com o objetivo de agrupar dados de acordo com as similaridades entre eles
É uma ferramenta estatística na qual é possível formar grupos com homogeneidade dentro do agrupamento e heterogeneidade entre eles
Pontos importantes
A técnica não distingue relevância das variáveis
A técnica não-inferencial
A amostra deve ser representativa da população
A colinearidade múltipla entre as variáveis deve ser mínima
Etapas da análise de cluster
Medidas de Similaridade ou Distância
A análise de aglomerados inicia criando uma matriz que indica a similaridade (ou distância) entre cada par de objetos relativos às k variáveis contidas na base de dados
Medidas de distância
Medidas correlacionadas
Medidas de associação
Como são determinados os grupos?
Existem diferentes métodos para isto, que deverão ser selecionados em função da quantidade de dados disponíveis e do número de agrupamentos a serem formados
Determinação dos agrupamentos
Escolha do algoritmo de agrupamento: Maximizar diferenças entre grupos e minimizar a variação dentro destes
Tipos de Cluster
Método Hierárquico
O resultado do algoritmo é uma árvore de grupos (dendograma), que mostra como os grupos estão relacionados
AGLOMERATIVOS | DIVISIVOS |
---|---|
Vizinho mais próximo | Método da fragmentação média |
Vizinho mais distante | Método de traço |
Encadeamento médio | Aglomeração por K médias |
Agrupamento pela mediana | |
Método de Ward | |
Método Não-hierárquico
Desenvolvidos para agrupar elementos em K grupos, onde K é a quantidade de grupos definida previamente
Escolher uma partição inicial dos elementos e, em seguida, alterar os membros dos grupos para obter-se a melhor partição
INTERATIVOS:
Limiar sequencial
Limiar paralelo
Método de otimização
Problemas da técnica
Interpretação dos grupos pode ser difícil
Necessidade análise de subgrupos para realizar inferências
Escolha do número de grupos
Resultado necessita de validação
Referência: prof. Wesley Almeida
Comentarios