o diferença chave entre classificação e árvore de regressão é que na classificação, as variáveis dependentes são categóricas e não ordenadas, enquanto na regressão as variáveis dependentes são valores inteiros contínuos ou ordenados.
Classificação e regressão são técnicas de aprendizado para criar modelos de previsão a partir dos dados coletados. Ambas as técnicas são apresentadas graficamente como árvores de classificação e regressão, ou melhor, fluxogramas com divisões de dados após cada etapa, ou melhor, “ramificação” na árvore. Esse processo é chamado de particionamento recursivo. Campos como Mineração usam essas técnicas de classificação e aprendizado de regressão. Este artigo enfoca a árvore de classificação e a árvore de regressão.
1. Visão geral e principais diferenças
2. O que é classificação
3. O que é regressão
4. Comparação Lado a Lado - Classificação x Regressão em Forma Tabular
5. Resumo
Classificação é uma técnica usada para chegar a um esquema que mostra a organização dos dados começando com uma variável precursora. As variáveis dependentes são o que classificam os dados.
Figura 01: Mineração de dados
A árvore de classificação começa com a variável independente, que se ramifica em dois grupos, conforme determinado pelas variáveis dependentes existentes. Destina-se a elucidar as respostas na forma de categorização provocada pelas variáveis dependentes.
A regressão é um método de previsão baseado em um valor de saída numérico assumido ou conhecido. Esse valor de saída é o resultado de uma série de particionamentos recursivos, com cada etapa tendo um valor numérico e outro grupo de variáveis dependentes que se ramificam para outro par como este.
A árvore de regressão começa com uma ou mais variáveis precursoras e termina com uma variável de saída final. As variáveis dependentes são variáveis numéricas contínuas ou discretas.
Classificação vs Regressão | |
Um modelo de árvore em que a variável de destino pode assumir um conjunto discreto de valores. | Um modelo de árvore em que a variável de destino pode receber valores contínuos, geralmente números reais. |
Variável dependente | |
Para árvore de classificação, as variáveis dependentes são categóricas. | Para árvore de regressão, as variáveis dependentes são numéricas. |
Valores | |
Tem uma quantidade definida de valores não ordenados. | Tem valores discretos ainda ordenados ou valores indiscretos. |
Finalidade da construção | |
O objetivo de construir a árvore de regressão é ajustar um sistema de regressão a cada ramo determinante de maneira que o valor esperado da saída apareça. | Uma árvore de classificação se ramifica conforme determinado por uma variável dependente derivada do nó anterior. |
As árvores de regressão e classificação são técnicas úteis para mapear o processo que aponta para um resultado estudado, seja na classificação ou em um único valor numérico. A diferença entre a árvore de classificação e a árvore de regressão é sua variável dependente. As árvores de classificação têm variáveis dependentes que são categóricas e não ordenadas. As árvores de regressão têm variáveis dependentes que são valores contínuos ou valores inteiros ordenados.
1. "Aprendizado em Árvore de Decisão". Wikipedia, Wikimedia Foundation, 13 de maio de 2018. Disponível aqui
1.'Data Mining'By Arbeck - Obra própria, (CC BY 3.0) via Commons Wikimedia