Proceso de desarrollo de scorecards – construcción y prueba de un modelo
Este es el cuarto artículo de la serie relativa a scorecards. El enfoque sobre la construcción de un modelo se basa en los mismos principios, ya sea para un modelo de solicitud o un modelo de comportamiento. Este artículo describe cada una de las etapas, y discute las consideraciones que necesitan hacerse en cada punto.
Agrupación de variables
Las variables que podrían incluirse en una scorecard deben estar agrupadas en bandas gruesas. Esto se hace por tres razones principales:
• Estabilidad del modelo
Las variables consisten en muchos valores llamados atributos y algunos de estos atributos pueden estar poblados con sólo unos pocos registros, si es que están poblados. Si estos atributos no están agrupados pueden causar inestabilidad dentro de un modelo. La regla general a aplicar es agrupar por lo menos el 3% y generalmente no más del 15% de la población. En algunos casos puede haber buenas razones para apartarse de esto, como por ejemplo: Si sólo el 2% de la población tienen juicios, se los agruparía juntos, ya que este grupo inherentemente exhibe comportamiento muy diferente del de un grupo sin información sobre juicios. También es importante tener en cuenta que el número de grupos para una variable normalmente no debe ser mayor de 10.
• Fuerza predictiva
El agrupamiento de atributos similares con fuerzas predictivas similares optimizará la fuerza predictiva general de la variable. La fuerza de una variable se refiere a la capacidad de los datos de diferenciar entre re-pagadores ‘buenos’ y ‘malos’ y puede medirse observando la fuerza de la característica.
• Tendencias lógicas
Finalmente, las variables deben mostrar una tendencia lógica. Las variables con muchos atributos como ‘edad del solicitante’ pueden exhibir algunas anomalías dentro de la tendencia al mirar los valores crudos de los atributos; dichas inversiones de tendencia pueden corregirse agrupando los atributos.
Construcción del modelo
La próxima etapa de la construcción del modelo es seleccionar el juego de variables inicial a incluir en la scorecard. Muchas técnicas de modelado utilizan un enfoque escalonado en el que se priorizan y consideran variables para la scorecard a diferentes niveles. Existen típicamente un gran número de variables y por lo tanto es prudente agrupar las variables en diferentes categorías tales como datos de buró positivos y negativos, y variables de solicitud. Estas se pueden también categorizar más por la fuerza de la variable. Estas categorías de variables diferentes pueden ser modeladas con diferentes grados de prioridad usando el enfoque escalonado. Luego de una serie de iteraciones las variables más predictivas se harán claras y podrá seleccionarse la combinación óptima para el modelo. Además del valor predictivo de las variables, es importante también considerar el equilibrio de las variables en el modelo y las consideraciones operativas de usar cada variable, como así también los requisitos de negocio y la intención del modelo. La razón de este enfoque detallado es asegurar que la scorecard no depende demasiado de un pequeño número de variables y constituye un modelo fuerte, robusto y equilibrado.
Validación de la scorecard
Para verificar si el modelo es representativo y no está desviado por el juego de datos utilizado, se lo valida usando la regla 80-20. Esto significa que la scorecard está construida sobre el 80% de la población y el 20% restante se usa para validar el modelo. Una scorecard queda validada si las muestras del 80% y del 20% tienen distribuciones de score similares para cuentas buenas y malas y se cumplen un cierto número de pruebas estadísticas, por ejemplo, el test KS. Debe evaluarse también el impacto de negocio del modelo. Esto se logra comparando los índices de aceptación y los índices de malos para cada grupo de las variables con los del proceso de decisión previo. Por ejemplo, el índice de aceptación debe aumentar a medida que baja el índice de malos para la variable ‘edad del solicitante'. Si la scorecard no queda validada, debe efectuarse una investigación ulterior para determinar la razón y deben hacerse cambios apropiados para asegurar una scorecard válida.
Una vez construido un modelo es aconsejable llevar a cabo una validación fuera del tiempo usando datos más recientes. Esto se hace para asegurar que la scorecard trabaja como es de esperar sobre una muestra de un período diferente.
Lea Credinews el próximo mes para mayor información sobre deducción del índice de rechazo.
Autor: Cezanne Gentle, Analista de Scoring, Experian Decision Analytics.
|