Revista Tecnologia de Crédito

Revista Tecnologia de Crédito

O Impacto da Amostragem Desproporcional sobre os Modelos de Credit Scoring
Edição 71

1. Contextualização
Conforme já é de conhecimento corrente nos bastidores do desenvolvimento de modelos de credit scoring, os dados são o insumo mais fundamental para modelos robustos e eficientes. A despeito disso, as bases de dados disponíveis no Brasil ainda apresentam elementos críticos no processo de modelagem — seja pela restrição no número de variáveis ou na qualidade da composição. E isso se deve, em boa medida, às dificuldades no estabelecimento de procedimentos adequados, ao custo envolvido e também à falta de cultura no negócio.

O Brasil, no entanto, tem avançado bastante no sentido de consolidar bases maiores e mais completas — o próprio projeto do Cadastro Positivo aponta nesta direção. Os últimos 20 anos, de modo especial, têm mostrado ganhos de escala em termos de qualidade e tamanho das bases de dados, muito em função da tecnologia de alto padrão que está se consolidando.

Grandes bases de dados, porém, não significam necessariamente grande volume de informação. “More data but not more information”, conforme aponta GRANGER (1998, p. 12). Segundo Granger, grandes bases de dados começam a impor novos desafios aos estatísticos. Isso se traduz, inclusive, no questionamento dos próprios princípios assintóticos, que rezam que “... as the amount of data increases so does the amount of information”. De acordo com o autor, muitos destes conceitos irão passar por revisões, para dar conta de manter a confiabilidade das estimativas a partir de bases de dados muito grandes (Mega-Panels e High-Frequency Data).

Além disso, outro problema complementar ao indicado por Granger, e que tem relação mais direta com modelos de escolha binária, é aquele da desproporcionalidade entre os resultados observados na variável dependente (explicada). No caso dos modelos de credit scoring, trata-se da desproporcionalidade entre o número de observações de indivíduos “maus” e indivíduos “bons”.

Este problema é tratado de forma objetiva por DONKERS, FRANSES e VERHOEF (2003), CRAMER, FRANSES e SLAGTER (1999), ANDERSON (2007) e MADDALA (1999). De acordo com CRAMER et al. (1999), quando o profissional se depara com um conjunto de dados desproporcionalmente distribuído entre uma categoria e outra (e.g., “bons” e “maus”), ele fica tentado a manter a totalidade daquela categoria menor e amostrar apenas parte da categoria mais representativa. No contexto dos modelos de credit scoring, geralmente1 é o caso de ficar com todos os “maus” — proporcionalmente menos representativos — e fazer uma amostra sobre os “bons”, que são mais numerosos.

Mas, ainda segundo Cramer et al., a parte perigosa desta tentação é a de não fazer as corretas adaptações nos modelos para tratar a amostragem desproporcional. Donkers et al. também fazem este mesmo alerta “... one group may be much smaller than the other, and efficiencies can be gained by oversampling the smaller group. However, in doing so, subsequent analysis models need to be modified …” [grifo nosso] (p. 492).

Este artigo tem como objetivo contribuir com o debate sobre amostragem desproporcional entre os profissionais atuantes principalmente no Brasil. Para tal, apresentamos este assunto à luz da modelagem de credit scoring. A seção seguinte discute o problema mais pormenorizadamente e apresenta aspectos estatísticos relacionados aos modelos estimados com base em amostragens desproporcionais. Já a terceira e última seção apresenta uma breve discussão empírica sobre o assunto.

2. Aspectos Estatísticos da Amostra Desproporcional 
Bases de dados com considerável desproporcionalidade entre as duas categorias da variável dependente binária (variável de escolha) não são, necessariamente, fruto de um problema na geração da base — oriunda de coleta mal executada ou classificação equivocada da variável binária. Em diversas circunstâncias esta é uma situação efetivamente verificada.

Por exemplo, o número de respondentes a pesquisas de marketing via postal é geralmente muito baixo. Assim, quando se está avaliando o perfil dos respondentes, frente aos não-respondentes, fica evidenciada a desproporcionalidade — o que não deixa de ser uma informação por si só. Outro exemplo, em se tratando de modelos de credit scoring, é a modelagem de concessão para linhas de crédito com a inadimplência histórica baixa.

Neste último exemplo, quando estivermos com a amostra para modelagem, e fizermos a classificação dos clientes entre “bons” e “maus”, ficará evidenciado que os “maus” serão em número bem menos representativo. Então, se fará necessário um método adequado de tratamento desta informação para que se identifique o perfil de “mau” e o de “bom” de forma assertiva, mesmo com os primeiros estando em muito menor número.

Em concordância com o que apontam os autores já citados anteriormente, MADDALA (1985) também destaca que a amostragem desproporcional entre as categorias é relativamente recorrente, e por isso merece atenção. CRAMER et al. (1999) e DONKERS et al. (2003) fazem, em seus trabalhos, a apresentação de possíveis alterações na estrutura dos modelos a serem estimados para dar conta da amostragem desproporcional.

Mais precisamente, o que os autores fazem é apresentar alterações na função de máxima verossimilhança (MV). A função deve ser maximizada quando se está estimando os coeficientes dos modelos. Fundamentalmente, um parâmetro γ é inserido para representar a proporção existente na amostra, e posteriormente a função de MV é ajustada para incluir a informação oferecida por este parâmetro. Assim, quando se procede a estimação dos coeficientes, a desproporcionalidade da amostra já está contemplada.

Todos os autores citados neste trabalho demonstram formulações genéricas da função de MV para modelagem em situações de amostragem desproporcional. Porém, a apresentação desta estrutura no presente trabalho, especificamente, pode ser evitada devido ao fato de que os modelos logit (regressão logística) carecem de um pequeno ajuste, e não a mudança na função de MV.

Como a proposta deste artigo é discutir amostragem desproporcional no contexto dos modelos de credit scoring, a regressão logística deve receber maior atenção, pois trata-se do método mais largamente utilizado para estimação dos modelos. Para o caso destes modelos, o único ajuste a ser feito é no termo constante. A demonstração desse fato está baseada na proposta de MADDALA (1999. P. 90-91).

Suponham-se duas categorias distintas y 1  e y 2  , com suas respectivas proporções p e p:
y
1  = 1 – se a observação pertence ao grupo 1 – probabilidade (proporção) p 1
y 2  = 0 – se a observação pertence ao grupo 2 – probabilidade (proporção) p 2
Ou seja, temos duas categorias com suas respectivas proporções amostradas (p 1  e p 2  ). Agora, o modelo logístico a ser especificado ficaria assim: 

 

Se definirmos p = p 2 /p 1 , teremos:

 

Agora, fazendo γ = - log p, que também significa p = e-γ, teremos:  

  

Portanto, utilizando estas duas últimas expressões, pode-se verificar que se a amostra for proporcional — o que implica ter p = 1 e γ = 0 — teremos o modelo logit tradicional. Entretanto, com amostragem desproporcional precisamos implementar a aletração demonstrada acima (γ). Algebricamente, fica claro que é necessário que se some à constante estimada o termo γ = log p 1 - log p 2 .

Esta, portanto, é a alteração necessária para garantir a robustez nas estimações fornecidas pelos modelos logísticos, quando feitas a partir de amostragens desproporcionais. Note que é uma alteração bastante simples, que é feita depois do modelo estimado, i. e., não é necessária qualquer interferência no processo de estimação propriamente dito.

Do ponto de vista dos modelos de credit scoring, o seguinte questionamento pode surgir: dado que o objetivo nos modelos logísticos em scoring é separar “bons” e “maus” a partir da probabilidade de inadimplência estimada, que diferença faz uma alteração no termo constante, para fins desta separação?
Note que o termo constante a ser alterado é o da equação estimada, que tem a seguinte apresentação:

  

A equação (6) é o output obtido quando se estima um modelo de regressão logística, sendo α a constante, X i as variáveis explicativas, β i os coeficientes e µ o termo de erro. Quando esta equação é resolvida para as variáveis explicativas, retorna o que se chama de logit. Depois da correção proposta, se obtém a seguinte equação:

 

O termo de ajuste γ aparece no logit da equação (7), que será posteriormente convertido em probabilidade através da expressão (4). Portanto, quando temos o cálculo da probabilidade de default, verificamos o ajuste incluído tanto no numerador quanto no denominador da expressão.

Depois de algum arranjo algébrico, podemos obter o modelo logístico original com uma pequena alteração no denominador, ao invés de tê-lo no expoente:

 

A expressão (8) é muito similar ao modelo logístico clássico sem ajuste. A única diferença é o termo [1/eγ], que aparece no denominador. Através desta expressão fica mais claro o impacto do ajuste sobre a probabilidade estimada, sem a necessidade de fazer o ajuste na equação do logit, diretamente.

Fica evidente que este impacto é de suavização, dado que este termo está aumentando o valor do denominador da expressão. As medidas de poder discriminatório, como é o caso do Kolmogorov-Smirnov (KS) e da Curva ROC, não se modificam, pois a alteração se aplica a todos os indivíduos uniformemente através do logit. Entretanto, a conversão do logit em probabilidade de default — que irá originar o escore de crédito — varia de forma diferente, respondendo ao ajuste aplicado.

Além deste aspecto estatístico, e apesar da manutenção da estrutura da classificação, o ajuste também desempenha outro papel importante: a garantia da veracidade das probabilidades estimadas. Quando o ajuste não é feito, a probabilidade estimada fica inflada, apontando probabilidades artificialmente altas, em geral. Dadas estas probabilidades equivocadamente elevadas, a diferenciação mais intuitiva a partir dos escores estimados também é impactada.

3. Observação Empírica
Para discutir empiricamente as alterações verificadas nos modelos de regressão logística com amostragem desproporcional, vamos analisar um modelo de aquisição desenvolvido a partir de uma base de dados de uma instituição financeira. Trata-se de uma base consideravelmente grande, porém com um número reduzido de indivíduos classificados como “maus”.

A base original contava com aproximadamente 500.000 observações, sendo que deste total apenas 2% eram “maus”. Assim, dois problemas podem aparecer simultaneamente. O primeiro vem ao encontro do que foi apresentado por GRANGER (1998): muitos dados não significam muita informação. Os “falsos maus” e os “falsos bons”2 podem atrapalhar sobremaneira a estimação de coeficientes robustos. Note que isso não é necessariamente verdade para todas as bases grandes, mas existe uma possibilidade de observação deste fenômeno que depende da estrutura e qualidade das informações.

O outro problema é o da desproporcionalidade, propriamente dita. O fato de os “maus” estarem em número tão menor pode limitar a capacidade do modelo em discriminar os perfis. Na realidade, a desproporcionalidade é mais provável de afetar os modelos quando se verifica ao mesmo tempo o primeiro problema, citado acima. Ou seja, o fato de haver um número muito menor de “maus” pode não ser um entrave se este for um grupo bem comportado3 — e se o grupo de “bons” também o for.

Em geral, a desproporcionalidade no tamanho das categorias — quando significativa — carrega consigo dificuldades de estimação, o que faz com que seja necessário recorrer à amostragem desproporcional para o modelo estimado ter poder discriminatório adequado e ser mais estável.

No caso do modelo de aquisição estimado, optou-se por uma amostragem desproporcional de ambos os lados: amostrou-se 0,1% do total de “bons” e 15% do total de “maus”. Ao final, tínhamos uma amostra de aproximadamente 7.000 observações, sendo 68% de “bons” e 32% de “maus”. Cabe lembrar que a amostragem sobre cada categoria foi feita de forma aleatória4.

O modelo estimado apresentou um KS5 de 28% e uma área sob a curva ROC de 0,69, quando aplicado sobre uma base de teste reservada no início do trabalho. Para modelos de aquisição, estes valores são factíveis – apesar de que patamares mais elevados seriam bem-vindos. Quando ajustamos o termo constante na equação estimada, em função da desproporcionalidade amostral, identificamos que as medidas KS e curva ROC não se alteram em nada, como já era esperado.

Conforme já comentado, não há alteração na estrutura discriminatória do modelo – por isso o KS e a área sob a curva ROC ficam estáticos. Porém, quando se comparam as distribuições das probabilidades de inadimplência (scores) estimadas, a evidência da alteração no patamar das probabilidades sobressai. Notem: comparação nas probabilidades estimadas e não no resultado do logit.

No Gráfico 1 estão plotadas as probabilidades de default para cada indivíduo da base de teste, sendo que estão ordenados, da esquerda para direita, da menor para maior probabilidade de default. A primeira informação, evidenciada pela escala utilizada nos eixos verticais do gráfico, é a diferença de patamar: as probabilidades estimadas sem o ajuste no termo constante da equação estão consideravelmente acima daquelas ajustadas (linhas vermelha e azul, respectivamente). Este resultado vai ao encontro daquilo que demonstramos formalmente nas equações da seção anterior.

Já a outra observação importante, diz respeito ao comportamento comparado das duas linhas. Apesar de que o ajuste é feito no termo constante do logit, quando se analisa o conjunto das probabilidades estimadas, nota-se que os diferenciais entre elas se alteram ao longo da distribuição das probabilidades estimadas. Veja o Gráfico 2.

A diferença absoluta em termos de probabilidade estimada aumenta ao longo das curvas. Para o indivíduo com a menor probabilidade de default estimada, na curva do modelo original se verifica probabilidade de default de 2,7%, enquanto que o modelo ajustado informa 0,1% – diferença de 2,6%. Já para o indivíduo com a probabilidade de default mais alta os valores são os seguintes: 67,0% de probabilidade no modelo original, contra 8,7% no modelo ajustado - diferença de 58,4%.

 

Porém, a diferença relativa diminui ao longo da curva, ou seja, a representatividade do diferencial se torna menor. Para o indivíduo com a menor probabilidade de default, a probabilidade original é 20,8 vezes maior do que a probabilidade ajustada. Já para o pior indivíduo da amostra, este número é de 7,7.

Toda esta análise acaba por demonstrar o que a expressão(8) já sinalizava. Como o ajuste fica definido como uma constante no denominador, conforme os valores se alteram, também a relevância da constante muda.

Portanto, o ajuste da constante nos modelos em situação de amostragem desproporcional apresenta resultado importante. Um aspecto a ser destacado é o fato de o impacto se alterar ao longo da curva: i) absolutamente menor (e relativamente maior) para probabilidades baixas; e, ii) absolutamente maior (e relativamente menor) para probabilidades altas.

Um aspecto digno de destaque é o fato de que as distorções nas probabilidades estimadas em contexto de desproporcionalidade amostral – sem o devido ajuste – podem dificultar a determinação de cut-off’s em credit scoring, podendo inclusive viesar o resultado. Isso, devido ao fato de que estabelecer pontos de corte com probabilidades de inadimplência artificialmente elevadas pode representar uma armadilha para o negócio.

4. Conclusão
Este trabalho procurou debater um pouco a questão do impacto da amostragem desproporcional sobre os modelos de regressão logística. Como estes modelos são amplamente utilizados em credit scoring, tratou-se de demonstrar a importância do ajuste dos modelos estimados com base em amostras desproporcionais para obter estimativas mais precisas da probabilidade de inadimplência.

Demonstrou-se, de modo especial, que o ajuste impede que as estimativas de probabilidades de default – em modelos de regressão logística – fiquem artificialmente infladas. Além disso, dado que a desproporcionalidade da amostra tem impacto diferente de acordo com o nível da probabilidade estimada, é importante fazer o ajuste para garantir robustez e homogeneidade nas estimativas.

5. Notas
1. Ver Anderson (2007).
2. Os “falsos bons” são indivíduos com perfil de “mau”, mas que não estão classificados como tal. Já os “falsos maus” são os indivíduos com perfil de “bom”, mas que não estão classificados assim.
3. Por “bem comportado” entenda-se com baixa taxa de “falsos bons” e “falsos maus”.
4. Amostra aleatória gerada por Bernoulli.
5. A estatística Kolmogorov-Smirnov (KS) representa a maior distância entre as distribuições acumuladas de “bons” e “maus” frente ao score estimado. Esta medida varia entre 0 e 100%, sendo que quanto maior, melhor.

Autor
Ely José de Mattos
é analista de Risco de Crédito do Banco Cooperativo SICREDI S.A. Doutorando em Economia pela Universidade Federal do Rio Grande do Sul (UFRGS). E-mail: ely.mattos@ufrgs.br

Oscar Claudino Galli
is professor da Escola de Administração da Universidade Federal do Rio Grande do Sul (UFRGS). Doutor em Engenharia da Produção.

Bibliografia
ANDERSON, R. The credit scoring toolkit: theory and practice for retail credit risk management and decision automation. Oxford: Oxford University Press, 2007. 731 p.
CRAMER, M., FRANSES, P.H. & SLAGTER, E. Censored regression analysis in large samples with many zero observations. Econometric Institute Research Report 9939/A, Erasmus University, Rotterdam, 1999.
DONKERS, B., FRANSES, P. H. & VERHOEF, P.C. Selective sampling for binary choice models. Journal of Marketing Research, v. XL, p. 492-7 2003.
GRANGER, C. W. Extracting information from mega-panels and high-frequency data. Discussion Paper 98-01, University of California, San Diego, 1998.
MADDALA, G. S. Limited-dependent and qualitative variables in econometrics. New York: Cambridge University Press, 1983. 401 p.


  • 2012 Serasa Experian. Todos os direitos reservados.