Vários aprendizes fracos são combinados em aprendizes fortes usando um processo de boosting eficaz conhecido como gradient boosting. Cada novo modelo é treinado usando gradient descent para minimizar a função de perda do modelo anterior, como erro quadrático médio ou entropia cruzada. O algoritmo calcula o gradiente da função de perda em relação às previsões do ensemble atual em cada iteração e, em seguida, treina um novo modelo fraco para tentar minimizar esse gradiente. O ensemble é então atualizado com as previsões do novo modelo, e o processo continua até que um critério de parada seja atendido. Tanto variáveis-alvo contínuas quanto categóricas podem ser previstas usando a abordagem de gradient boosting (como regressor ou classificador). A função de custo é o Erro Quadrático Médio (MSE) quando usado como regressor, enquanto é a Log Loss quando usado como classificador.
O que é Gradient Boosting?