|
Processo de Desenvolvimento de Scorecard - Criação e
teste de um modelo
Este é o quarto artigo da série relacionada a
scorecards. A abordagem de criação de modelos, tanto de proposta (application scorecards)
quanto comportamental (behaviour scorecards), é baseado nos mesmos princípios. Este artigo
descreve cada um dos estágios do processo, discutindo as
considerações que necessitam ser feitas em cada etapa.
Agrupamento de variáveis
Variáveis que podem estar incluídas em um scorecard
devem ser agrupadas em faixas de baixa qualidade. Isso é feito por
três razões principais:
Estabilidade de modelo
Variáveis consistem em valores chamados atributos, que
podem ser categorizados, de forma que algumas características podem
conter poucas observações para a modelagem. Se essas categorias
de atributos não forem devidamente agrupadas, elas podem causar
instabilidade em um modelo. A regra prática geral é manter
agrupamento com representatividade de 3% a 15% da população.
Podem existir boas razões e alguns casos para divergir disso,
por exemplo: se apenas 2% da população possui uma análise julgamental,
recomenda-se mantê-los separados, pois esse grupo exibe de forma
inerente um comportamento bastante diferente de um grupo sem nenhuma
informação de análise prévia. Também é importante considerar que o
número de grupos para uma variável não deve ser maior que dez.
Poder de previsão O agrupamento de
atributos com poder de previsão similares otimizará o poder de
previsão total da variável. O poder preditivo de uma variável
refere-se à habilidade das informações em diferenciar “bons” e “maus”
pagadores e pode ser medida de forma objetiva para cada característica.
Tendências lógicas
Finalmente, as variáveis devem exibir uma tendência lógica.
Variáveis com muitos atributos como “idade do solicitante” podem mostrar
algumas reviravoltas dentro de uma tendência, e o agrupamento em classes
com comportamento semelhante também corrige tais anomalias.
Criação do modelo O próximo estágio da criação
do modelo é selecionar o conjunto inicial de variáveis a serem incluídas no
scorecard. Muitas técnicas de modelagem utilizam uma abordagem de passos
(stepwise), nos quais variáveis são priorizadas e consideradas para o scorecard
em diferentes níveis. Geralmente há um número grande de variáveis, e é prudente
agrupá-las em categorias diferentes, tais como dados de crédito positivos e
negativos e variáveis da proposta. Elas podem ser categorizadas, ainda, pela
significância de cada variável. Essas diferentes categorias de variáveis podem
ser modeladas com graus diferentes de prioridade utilizando a abordagem de passos.
Após uma série de repetições, as variáveis mais previsíveis se tornarão claras
e a combinação ótima para o modelo será selecionada. Além do poder preditivo
de cada variável, também é importante considerar seu equilíbrio no modelo,
as considerações operacionais de uso de cada uma, assim como as condições
e aplicação de negócio do modelo. A razão para essa abordagem detalhada
é assegurar que o scorecard não dependa excessivamente de um número pequeno
de variáveis e seja um modelo forte, robusto e equilibrado.
Validação do scorecard Para
garantir que o modelo é representativo e não influenciado pelo conjunto
de dados usado, ele é validado utilizando a regra 80-20. Isso significa
que o scorecard é construído com base em 80% da população, e os 20%
remanescentes são usados para validar o modelo. O scorecard estará validado
se as amostras de 80% e 20% tiverem distribuições de score similar para contas
boas e ruins e uma série de testes estatísticos sejam consistentes, por exemplo,
o teste de KS. O impacto de negócios do modelo também deve ser avaliado.
Isso é feito ao comparar as taxas de aceitação e as taxas de maus para cada
grupo de variáveis contra o processo de decisão anterior. Se a validação não
for satisfatória, será necessário realizar investigações adicionais para
determinar a razão para tal, e realizar ajustes no modelo
(ex. reclassificação das variáveis) para garantir um scorecard válido.
Depois de um modelo ser criado, é aconselhável fazer uma validação em
outra janela temporal (out-of-time) utilizando dados mais recentes.
Isso é feito para assegurar que o scorecard funcione como o esperado
ao longo de períodos diversos.
Escrito por Cezanne Gentle, Scoring
Analystic, Experian Decision Analytics
|