Diferença entre ensacamento e floresta aleatória

Ao longo dos anos, vários sistemas classificadores, também chamados de sistemas de conjuntos, têm sido um tópico de pesquisa popular e receberam crescente atenção na comunidade de inteligência computacional e aprendizado de máquina. Atraiu o interesse de cientistas de várias áreas, incluindo aprendizado de máquina, estatística, reconhecimento de padrões e descoberta de conhecimento em bancos de dados. Com o tempo, os métodos de ensemble provaram ser muito eficazes e versáteis em um amplo espectro de domínios de problemas e aplicativos do mundo real. Originalmente desenvolvido para reduzir a variação no sistema automatizado de tomada de decisão, os métodos de ensemble foram usados ​​para resolver uma variedade de problemas de aprendizado de máquina. Apresentamos uma visão geral dos dois algoritmos de conjunto mais importantes - Bagging e Random Forest - e discutimos as diferenças entre os dois.

Em muitos casos, o empacotamento, que usa amostragem de autoinicialização, mostrou que a trança de classificação tem maior precisão do que uma única árvore de classificação. O empacotamento é um dos algoritmos baseados em conjuntos mais antigos e mais simples, que pode ser aplicado a algoritmos baseados em árvore para aprimorar a precisão das previsões. Existe ainda outra versão aprimorada de ensacamento, chamada algoritmo Random Forest, que é essencialmente um conjunto de árvores de decisão treinadas com um mecanismo de ensacamento. Vamos ver como o algoritmo de floresta aleatória funciona e como ele é diferente do empacotamento em modelos de conjuntos.

Ensacamento

A agregação de bootstrap, também conhecida como ensacamento, é um dos algoritmos mais antigos e mais simples baseados em conjuntos para tornar as árvores de decisão mais robustas e obter melhor desempenho. O conceito por trás do ensacamento é combinar as previsões de vários alunos de base para criar uma saída mais precisa. Leo Breiman introduziu o algoritmo de empacotamento em 1994. Ele mostrou que a agregação de bootstrap pode trazer resultados desejados em algoritmos de aprendizado instáveis, onde pequenas alterações nos dados de treinamento podem causar grandes variações nas previsões. Um bootstrap é uma amostra de um conjunto de dados com substituição e cada amostra é gerada amostrando uniformemente o conjunto de treinamento de tamanho m até que um novo conjunto com m instâncias seja obtido.

Random Forest

A floresta aleatória é um algoritmo de aprendizado de máquina supervisionado baseado no aprendizado de conjuntos e uma evolução do algoritmo de ensacamento original da Breiman. É uma grande melhoria em relação às árvores de decisão agrupadas para criar várias árvores de decisão e agregá-las para obter um resultado preciso. Breiman adicionou uma variação aleatória adicional ao procedimento de ensacamento, criando maior diversidade entre os modelos resultantes. As florestas aleatórias diferem das árvores ensacadas, forçando a árvore a usar apenas um subconjunto de seus preditores disponíveis para se dividir na fase de crescimento. Todas as árvores de decisão que compõem uma floresta aleatória são diferentes porque cada árvore é construída em um subconjunto aleatório diferente de dados. Por minimizar o ajuste excessivo, tende a ser mais preciso do que uma única árvore de decisão.

Diferença entre ensacamento e floresta aleatória

Fundamentos

- As florestas de ensacamento e aleatória são algoritmos baseados em conjuntos que visam reduzir a complexidade de modelos que superestimam os dados de treinamento. A agregação de bootstrap, também chamada de ensacamento, é um dos métodos mais antigos e poderosos de ensemble para evitar o ajuste excessivo. É uma meta-técnica que usa vários classificadores para melhorar a precisão preditiva. Ensacamento significa simplesmente retirar amostras aleatórias da amostra de treinamento para substituição, a fim de obter um conjunto de modelos diferentes. A floresta aleatória é um algoritmo de aprendizado de máquina supervisionado baseado no aprendizado de conjuntos e uma evolução do algoritmo de ensacamento original de Breiman.

Conceito

- O conceito de amostragem de inicialização (ensacamento) é treinar um monte de árvores de decisão não podadas em diferentes subconjuntos aleatórios dos dados de treinamento, amostrando com substituição, a fim de reduzir a variação das árvores de decisão. A idéia é combinar as previsões de vários alunos de base para criar uma saída mais precisa. Com florestas aleatórias, uma variação aleatória adicional é adicionada ao procedimento de ensacamento para criar maior diversidade entre os modelos resultantes. A idéia por trás de florestas aleatórias é construir várias árvores de decisão e agregá-las para obter um resultado preciso.

Objetivo

- As árvores ensacadas e as florestas aleatórias são os instrumentos de aprendizado de conjunto mais comuns usados ​​para resolver uma variedade de problemas de aprendizado de máquina. A amostragem do Bootstrap é um meta-algoritmo projetado para melhorar a precisão e a estabilidade dos modelos de aprendizado de máquina usando o aprendizado por conjunto e reduzir a complexidade dos modelos de sobreajuste. O algoritmo de floresta aleatória é muito robusto contra o ajuste excessivo e é bom com dados ausentes e desequilibrados. É também a escolha preferida do algoritmo para a construção de modelos preditivos. O objetivo é reduzir a variação através da média de várias árvores de decisão profunda, treinadas em diferentes amostras dos dados.

Ensacamento versus floresta aleatória: gráfico de comparação

Sumário

As árvores ensacadas e as florestas aleatórias são os instrumentos de aprendizado de conjunto mais comuns usados ​​para resolver uma variedade de problemas de aprendizado de máquina. O empacotamento é um dos algoritmos baseados em conjuntos mais antigos e mais simples, que pode ser aplicado a algoritmos baseados em árvore para aprimorar a precisão das previsões. O Random Forests, por outro lado, é um algoritmo supervisionado de aprendizado de máquina e uma versão aprimorada do modelo de amostragem de autoinicialização usado para problemas de regressão e classificação. A idéia por trás da floresta aleatória é construir várias árvores de decisão e agregá-las para obter um resultado preciso. Uma floresta aleatória tende a ser mais precisa do que uma única árvore de decisão, porque minimiza o ajuste excessivo.