Revista Tecnologia de Crédito

Revista Tecnologia de Crédito

Novos Avanços das Metodologias de Credit Scoring
Edição 35

Credit scoring é, em essência, uma ferramenta que permite reconhecer os diferentes grupos que compõem uma população, quando não é possível identificar as características que os separam, mas apenas as correlatas. Essa idéia de distinção entre os grupos de uma população foi introduzida por Fisher (1936), que procurou diferenciar duas variedades de íris pela mensuração do porte das plantas e distinguir a origem de crânios por meio de suas dimensões físicas. David Durand (1941) foi o primeiro a reconhecer que as mesmas técnicas poderiam ser usadas para diferenciar os bons empréstimos dos maus. Seu projeto de pesquisa foi realizado para o National Bureau of Economic Research dos EUA, embora não tenha sido usado para fins preditivos. Nessa época, algumas das companhias financeiras e empresas de vendas por mala direta estavam passando por dificuldades na área de gerenciamento de crédito. Há muitos anos, as decisões quanto a conceder ou não empréstimos, ou remeter ou não as mercadorias vinham sendo feitas por analistas de crédito. Contudo, esses analistas estavam sendo convocados para o serviço militar e havia uma grave falta de pessoas com a experiência necessária. Assim, as empresas fizeram com que os analistas escrevessem as regras de bolso (rules-of-thumb) que usavam para decidir a quem conceder empréstimos. Essas regras foram, então, usadas por pessoas que não dominam o assunto para ajudar na tomada de decisões de crédito — um dos primeiros exemplos de sistemas especialistas. Pouco depois da guerra, algumas pessoas ligaram esses dois casos e perceberam os benefícios que poderiam decorrer do uso de modelos estatísticos em decisões de crédito. A primeira consultoria nessa área foi fundada em San Francisco por Bill Fair e Earl Isaac no início da década de 50 e seus clientes, na época, eram principalmente financeiras, empresas de compras por mala direta e de varejo.

A chegada dos cartões de crédito, no fim dos anos 60, fez com que os bancos e outros emitentes de cartões percebessem a utilidade do credit scoring. O número de pessoas que solicitavam cartões a cada dia exigia (em termos tanto econômicos quanto de mão-de-obra) que a decisão de empréstimo fosse automatizada. Quando essas organizações passaram a usar o credit scoring, perceberam que sua capacidade preditiva era muito maior do que a de qualquer sistema julgamental e que as taxas de inadimplência caíram 50% ou mais. As únicas críticas vieram daqueles que, como Capon (1982), afirmavam “que o empirismo bruto do credit scoring ofende as tradições de nossa sociedade”. Ele acreditava que deveria haver maior dependência no histórico de crédito e ser possível explicar por que razão determinadas características são necessárias para os sistemas de scoring, enquanto outras não. O que garantiu a aceitação total do credit scoring foi a aprovação dos Equal Credit Opportunity Acts (ECOA 1975/1976), nos EUA. Tais leis tornariam ilegal a discriminação da concessão de crédito, a menos que houvesse justificativa estatística para ela. É raro os legisladores proporcionarem emprego no longo prazo para qualquer categoria, com exceção dos advogados, mas, dessa vez, eles fizeram com que a análise de credit scoring se tornasse uma profissão em crescimento pelos 25 anos que se seguiram — e até hoje, pois o número de analistas no Reino Unido dobrou nos últimos quatro anos.

Nos anos 80, o sucesso do credit scoring para cartões de crédito fez com que os bancos passassem a aplicar o scoring a outros produtos, como crédito pessoal e, nos últimos anos, para empréstimos imobiliários e pequenos financiamentos a pessoas jurídicas. Nos anos 90, o crescimento do marketing direto levou ao uso de scorecards para melhorar a taxa de resposta às campanhas. Na verdade, essa foi uma das primeiras aplicações do sistema: nos anos 50, a Sears usou o scoring para determinar para quem enviar seus catálogos (Lewis 1992). O progresso da computação permitiu experimentar outras técnicas de construção de scorecards. Na década de 80, foram introduzidas a regressão logística e a programação linear, os dois principais baluartes dos utilizadores de scorecards de nossos dias. Mais recentemente, foram implementados programas piloto com técnicas de inteligência artificial, tais como sistemas especialistas e redes neurais.

Atualmente, vem sendo dada ênfase a deslocar o objetivo da tentativa de minimizar a probabilidade de inadimplência de um cliente num produto específico para avaliar como a empresa pode maximizar o lucro que pode ganhar com um cliente. Ademais, o conceito original do cálculo aproximado do risco de inadimplência foi ampliado pelos scorecards que estimam resposta (a probabilidade de um cliente reagir positivamente a uma mala direta sobre um novo produto), utilização (a chance de um cliente usar o produto), retenção (a probabilidade de um cliente continuar utilizando o produto após o término do período da oferta introdutória), atrito (a possibilidade de o cliente migrar para outro credor) e gerenciamento de dívida (a chance de sucesso de diversas abordagens à prevenção de inadimplência quando o cliente começar a se tornar delinqüente ).

Neste artigo, trataremos de três metodologias que têm permitido a implementação e o desenvolvimento de projeto piloto de sistemas de scoring nos últimos anos. Além disso, reexaminaremos o uso dos modelos Markov em cadeia, para modelar a dinâmica do comportamento dos clientes, já que eles parecem ser adequados à modelagem tanto de lucros quanto de inadimplência. Em primeiro lugar, contudo, vamos proceder a uma breve revisão das metodologias existentes.

Revisão das Metodologias Existentes

Quais são, então, os métodos usados para concessão de crédito? Originalmente, a abordagem era puramente julgamental.

Analistas de crédito liam o formulário de solicitação e diziam “sim” ou “não”. Suas decisões tendiam a basear-se no conceito de que o que importava eram os 3Cs, os 4Cs ou os 5Cs.

> O caráter da pessoa – a pessoa (ou sua família) é conhecida?

> O Capital – de quanto é o pedido?

> Colateral – quanto de seus próprios recursos está o solicitante disposto a empregar?

> Capacidade – qual a sua capacidade de pagamento? Qual a renda disponível?

> Condições – quais são as condições do mercado?

Hoje, o credit scoring baseia-se em métodos estatísticos ou de pesquisa operacional. As ferramentas estatísticas incluem a análise discri-minante, que é, essencialmente, uma regressão linear, uma variação da regressão logística, e das árvores de classificação, por vezes chamadas de algoritmos de particionamento recursivo. As técnicas de Pesquisa Operacional incluem variações da programação linear. A maioria dos criadores de scorecards usa uma das técnicas ou uma combinação delas. O credit scoring também se presta a diferentes abordagens estatísticas não paramé-tricas e de modelagem por IA. Algumas das técnicas que foram experimentadas nos últimos anos são as redes neurais, os sistemas especialistas, algoritmos genéticos e métodos de proximidade (“vizinho mais próximo”). É interessante observar que tantas abordagens diferentes possam ser dadas ao mesmo problema de classificação. Isso se deve, em parte, ao fato de que o credit scoring sempre se baseou numa abordagem pragmática à questão da concessão de crédito. Se funciona, use! O objetivo é prever quem se tornará inadimplente e não oferecer explicações de por que a inadimplência ocorre ou responder a hipóteses sobre a relação entre inadimplência e outras variáveis econômicas ou sociais.

E como são utilizados os diferentes métodos? Toma-se uma amostra de solicitantes em um período de observação que pode ir de mil a centenas de milhares (o que não é difícil num setor em que as carteiras das empresas freqüentemente incluem dezenas de milhões de clientes). Para cada solicitante da amostra obtêm-se os detalhes do formulário e o histórico de crédito de um determinado período —por exemplo, 12, 18 ou 24 meses. Em seguida, determina-se se o histórico é aceitável, ou seja, se são ou não bons clientes, no qual a definição de mau cliente é geralmente a de alguém que tenha deixado de pagar por três meses consecutivos. Haverá alguns clientes que não poderão ser classificados como bons ou maus porque são clientes recentes ou porque seu histórico não é claro. Normalmente, os clientes “indeterminados” são removidos da amostra.

Um problema é estabelecer o que representa um horizonte de tempo adequado para a previsão de credit scoring — o intervalo entre a solicitação e a classificação como bom ou mau cliente. A regra parece ser de 12 a 18 meses. A análise demonstra que a taxa de inadimplência do cliente de uma organização em função do tempo tem aumentado no início, começando a estabilizar-se, somente, após cerca de 12 meses (ou mais, no caso de empréstimos). Assim, qualquer horizonte mais breve do que esse subestimará a porcentagem de maus clientes e não refletirá de forma plena as características que permitem prever a inadim-plência. Um horizonte de tempo superior a dois anos deixa o sistema vulnerável a deslocamentos da população, na medida em que a distribuição das suas características muda com o tempo e, com isso, a população amostrada pode ser significativamente diferente daquela em relação à qual o sistema de scoring será utilizado. Estamos tratando, essencialmente, de modelos de corte horizontal, ou seja, modelos que ligam dois flashes de uma pessoa em diferentes momentos para produzir modelos estáveis, quando analisados longitudinalmente ao longo do tempo. O horizonte de tempo — o intervalo entre os dois momentos — precisa ser escolhido de maneira tal que os resultados sejam estáveis no tempo.

Outra questão em aberto é em qual proporção bons e maus clientes devem constar da amostra. Ela deve refletir a proporção na população ou deve haver um igual número de bons e maus clientes.

O credit scoring passa, então, a ser um problema de classificação no qual as variáveis de entrada são as respostas dadas no formulário de solicitação e os resultados de uma verificação com um bureau de referências de crédito e a saída do modelo é a divisão entre “bons” e “maus”. O que desejamos é dividir o conjunto A de respostas em dois subconjuntos – xAB, as respostas dadas por aqueles que se revelaram maus, e xAG, as dadas pelos que se revelaram bons. A regra aplicável a novos solicitantes seria, então, aceitar os que pertencem ao conjunto AG; e rejeitar aqueles que estejam no conjunto AB. É preciso, ainda, que haja consistência e continuidade nos conjuntos, de modo que aceitemos o fato de que não seremos capazes de classificar corretamente todos os elementos da amostra. De qualquer maneira, seria impossível obter uma classificação perfeita uma vez que, em alguns casos, um mesmo conjunto de respostas é dado por “bons” e “maus” clientes. O que queremos, contudo, é uma regra que erre o mínimo possível na classificação e, ainda assim, satisfaça um requisito razoável de continuidade.

O método mais simples para o desenvolvimento de tal regra é usar uma função linear de scoring, a qual pode derivar de três fontes diferentes — uma regra de decisão Bayesiana que assuma distribuições normais, uma análise discriminante e uma regressão linear. A primeira dessas abordagens admite que:

> pG seja a proporção dos solicitantes “bons”;

> pB seja a proporção dos solicitantes maus;

> p(x | G) seja a probabilidade de um solicitante “bom” dar as respostas x;

> p(x|B) seja a probabilidade de um solicitante “mau” dar as respostas x;

> p(x) seja a probabilidade de um solicitante dar as respostas x;

> q(G | x) (q(Bôx) seja a probabilidade de que um solicitante com as respostas x seja “bom/“mau”, de modo que:

> L seja a perda por se classificar um “bom” como mau e o rejeitar;

> D seja o dano incorrido por se classificar um “mau” como bom e o aceitar.

A perda prevista será, então:

o que será minimizado quando se admitir que o conjunto de bons seja:

Se as distribuições p(x|G), p(x|B) forem normais multivariadas com médias mG e mB e tiverem covariância comum S, a regra linear será reduzida para AG = {x|w1x1+w2x2+.....+wmxm>c}, na qual w (S -1(mG – mB)), como indicam diversos livros sobre classificação (Lachenbruch, 1975, Hand, 1981). Se as covariâncias das populações de bons e maus forem diferentes, a análise levará a uma função discriminante quadrática. Em muitas situações de classificação, contudo, a regra quadrática parece ser menos robusta do que a linear e o número de casos de emprego em credit scoring é mínimo (Martell, Fitts, 1981).

A regra acima poderia ser descrita como atribuir um score s(x) para cada conjunto de respostas x, ou seja:

Se pudéssemos presumir que a capacidade discriminante para diferenciar entre bons e maus estivesse no score s(x) ao invés de x, então, reduziríamos um problema de m dimensões, representado por p(x|G), p(x|B), para uma só dimensão, correspondente às probabilidades p(s|G), p(s|B). Aí está a força de um sistema de scoring que, ao minimizar a expressão de prejuízo (1), se reduza a identificar o corte ideal para o score, ou seja:

Essa simplificação depende do comportamento monótono da função inversa p(s|G) para garantir um corte ideal singular. É possível usar diversos mapeamentos de score em relação à probabilidade de não-inadimplência para verificar se as condições necessárias estão presentes.

De volta às abordagens genéricas de classificação para separação de dois grupos (os bons e os maus no contexto do credit scoring), Fisher (1936) procurou identificar qual a combinação linear das variáveis que melhor separariam os dois grupos a serem classificados. Ele sugeriu que, se admitirmos que os dois grupos tenham em comum a variância da amostra, uma medida sensata de separação seria:

M = (distância entre a média das amostras dos dois grupos)/(variância da amostra de cada grupo)1/2

Admita-se que as médias da amostra sejam mG e mB para os bons e os maus, respectivamente, e que  seja a matriz comum de covariância da amostra. Se Y=w1X1+w2X2+….wpXp, a distância M de separação correspondente seria:

A diferença em relação a w e a derivada fixada em 0 demonstram que o valor M encontra-se minimizado, quando w  (S -1(mG – mB)). Os coeficientes alcançados são os mesmos que se obtém na regra decisória bayesiana com distribuição normal multivariada, embora não se tenha presumido normalidade. Esse critério é a da melhor separação entre bons e maus, independentemente da distribuição, porque a medida de distância M envolve apenas a média e a variância das distribuições e, conseqüentemente, leva aos mesmos resultados para todas as distribuições que compartilhem das mesmas médias e de igual variância.

A terceira maneira de se chegar à função discriminante linear é definir uma variável Y igual a 1, se o solicitante for bom, e igual a 0, se for mau. A equação de regressão da variável Y sobre as respostas X dadas ao formulário de solicitação resulta num conjunto de ponderações das variáveis preditivas que condiz com o da função discriminante e esta abordagem mostra que a regressão pelos menores quadrados pode ser usada para estimar os parâmetros.

Após a aprovação dos Equal Credit Opportunities Acts, surgiram diversos estudos que criticaram a abordagem por análise discriminante/regressão (Eisenbeis, 1977, 1978). Outros, como Capon (1982), criticaram o desenvolvimento e a im-plementação de sistemas de credit scoring em geral devido ao viés amostral, ao fato de o sistema poder ser submetido a sobreposições e ao fato de não haver continuidade do score — de modo que, após um ano, o score de alguém poderia mudar em diversos pontos. Essas questões foram novamente levantadas na análise produzida por Rosen-berg e Gleit (1994). O empirismo demonstra, contudo, que os sistemas de scoring são muito robustos na maioria das situações reais de crédito, uma questão apresentada por Reichert et al (1983) e reforçada pela experiência (Johnson, 1992).

Uma característica da construção de scorecards, independentemente da técnica usada, é o fato de que a maioria das perguntas dos formulários de solicitação não leva a respostas numéricas, mas a categóricas (Tem telefone? Mora em imóvel próprio, alugado mobiliado, alugado sem mobília, ou com os pais?). Há diversos métodos estatísticos de classificação, quando se trata de dados categóricos (ver Krzanowski, 1975, e Aggarawal, 1990). O credit scoring lida com dados dessa espécie de duas maneiras. Uma é transformar cada resposta possível (atributo) em uma variável binária separada. Assim, o score será a soma das ponderações atribuídas às variáveis binárias de valor 1. O problema dessa abordagem está no fato de que leva a um grande número de variáveis, ainda que o número de perguntas seja pequeno. Mas Showers e Chakrin (1981) desenvolveram por essa via um scorecard muito simples para Bell Systems, no qual as ponderações de todas as respostas tinham valor 1 – de modo que bastava somar o número de respostas corretas para se chegar ao score. Alternativamente, pode-se tentar obter uma variável para cada pergunta, convertendo-se cada resposta numa probabilidade de que tal resposta seja dada pelos bons e pelos maus. Suponhamos que 60% da população seja de bons que possuam telefone, 20% sejam de maus que têm telefone, 10% sejam de bons que não têm telefone e 10% sejam de maus que não têm telefone. A probabilidade de que alguém seja bom se tiver telefone será de 60/20=3:1, ou 3; a de que seja bom se não tiver telefone é de 10/10 =1:1, ou 1. Assim, a variável telefone terá valor 3 para quem tem um telefone e 1 em caso negativo. Uma versão mais sofisticada é adotar o logaritmo dessa razão, a que chamamos ponderação da evidência, algo também utilizado para decidir se uma determinada variável deve ou não constar do scorecard. Tais abordagens garantem que, dadas as variáveis, seus diferentes atributos tenham valores corretos em termos do risco que cada resposta representa.

Figura 1
 

Com efeito, as maneiras de lidar com variáveis categóricas também são aplicadas a variáveis quantitativas, como idade, renda e tempo de residência no endereço atual, por exemplo. Se o risco de inadimplência for mapeado em relação à idade (ver Figura 1) não se obterá uma linha reta (o que implicará em relação linear entre o risco e a idade). Poderíamos imaginar muitos motivos pelos quais o risco de crédito aumenta aos trinta e poucos anos, mas trata-se de um fenômeno comum, qualquer que seja a sua razão. Ao invés de procurar mapear essa curva como uma reta, poderíamos modelá-la como uma curva mais complexa ou, ainda, optar por agrupar os clientes em diversas categorias e tratar a idade como uma variável categórica, o que permitiria perceber a ausência de linearidade. A última abordagem é a que se costuma usar em credit scoring, principalmente, porque agrupamentos dessa espécie já estão sendo construídos para as variáveis categóricas. É aqui que entra a arte do credit scoring — na escolha sensata de categorias. Isso pode ser feito por meio da aplicação de técnicas estatísticas para dividir a variável de maneira tal que o risco de inadimplência seja homogêneo dentro de cada categoria e heterogêneo entre as categorias. Nesse caso, as técnicas de árvore de classificação, que serão discutidas mais adiante, podem ser úteis, mas é importante considerar as mudanças de ciclo de vida ao determinar as categorias. Assim, no caso da idade, poderíamos estabelecer os grupos 18-21, 21-28, 29-36, 37-59, 60+ — em parte para refletir as diferenças estatísticas e, em parte, por que são pontos em que ocorrem mudanças de ciclo de vida. A Figura 2 mostra como as categorias refletem a natureza não linear do risco em função da idade.

Figura 2 
 

A abordagem à discriminação linear pela regressão diz que p, a probabilidade de inadim-plência, está relacionada com as características X1, X2 …Xm por

Aqui ocorre uma falha óbvia. O lado direito da equação poderia assumir qualquer valor entre

- e +, mas o lado esquerdo é uma probabilidade e, portanto, somente pode assumir valores entre 0 e 1. Seria melhor se o lado esquerdo fosse uma função de p que pudesse assumir um espectro maior de valores. Uma tal função é o logaritmo da probabilidade. Tal fato leva a uma abordagem por regressão logística em que adequamos o logaritmo da probabilidade por meio de uma combinação linear das variáveis características, ou seja,

Historicamente, uma das dificuldades da regressão logística é ter de usar a máxima verossimilhança para estimar os pesos wi. Isso exige técnicas de otimização não linear que empreguem procedimentos repetidos para chegar a uma solução e são mais exigentes, em termos computacionais, do que a regressão linear. Mas o avanço da potência dos computadores hoje disponível resolveu o problema e tornou-se o principal método de classificação em credit scoring. Os resultados efetivos da classificação por regressão linear e por regressão logística são muito semelhantes e ambos são sensíveis às correlações entre as variáveis preditivas, de modo que é preciso procurar garantir que não haja variáveis fortemente correlacionadas no conjunto em relação ao qual se calcula a regressão.

A equação (3) traz a implicação de que a regressão logística pode ser vista como uma regressão linear em que a variável dependente é alguma função não linear da probabilidade de “ser bom”. A pontuação do scorecard dada pela equação (3) é

Como vimos anteriormente, se Xi são variáveis binárias, as ponderações wi são simplesmente o score atribuído a cada característica. Se, por outro lado, Xi assumir outros valores normalmente relacionados com o risco de inadimplência do atributo, tal como descrito anteriormente, o score do atributo i será wixi.

Na regressão logística, se definirmos os scores como em (4), o score estará, então, relacionado às probabilidades por s(x) = ln(p(G|x)p(B|x) = ln {(pG /pB) (p(x|G)/p(x|B))}, o que demonstra que a abordagem estima diretamente as probabilidades de informação (p(x|G)/p(x|B)), ao invés de adotar premissas quanto a p(G|x).

A discussão sobre se a quantidade em estimativa seria p(x|G) ou p(G|x) realça o papel desempenhado pela proporção populacional (pG / pB ) na transformação de uma em outra. A proporção poderia ser estimada para a população como um todo, o que, na prática, raramente é feito. Ao contrário, essa estimativa é ocultada na escolha de um score de corte apropriado. Normalmente, a escolha do ponto de corte e, portanto, da proporção populacional, é feita por meio das amostras de manutenção.

Outra regressão não linear é a análise probit sugerida por Grablowsky, Talley et al (1981). Na análise probit, se N(x) é a função de distribuição normal acumulada

então, o objetivo é estimar N-1 (pi) como função linear das características do solicitante para que

Isso equivale a dizer que alguém é “bom”, se seu score estiver acima de um determinado nível, mas ele varia de pessoa para pessoa e apresenta uma distribuição normal.

A programação linear, se utilizada como um método de classificação também resulta num scorecard linear. Suponhamos ter uma amostra de nG “bons” e nB “maus”, e um conjunto de m variáveis preditivas obtidas a partir das respostas dos formulários , de modo que o tomador i tenha os valores das variáveis preditivas (xi1, xi2,…., xim). Desejamos desenvolver um scorecard linear em que todos os “bons” tenham um valor superior ao ponto de corte c e todos os “maus”,um ponto de corte abaixo. Tal fato não pode ser verdadeiro em todos os casos, de modo que introduzimos as variáveis ai, que admitem os possíveis erros — todos de valor positivo ou zero. Se procurarmos identificar as ponderações (w1, w2,…wm) que minimi-zem a soma dos valores absolutos dos erros, terminaremos com o programa linear ao lado:

Outras abordagens permitem minimizar o erro máximo — convertendo a i em a, em cada restrição. Mangasarian (1965) foi o primeiro a reconhecer que a programação linear poderia ser usada para fins de discriminação. A posteriori, substancial literatura sobre o tema foi revista por Joachimsthaler, Stam et al (1990). Embora Nath, Jackson e Jones (1992) tenham concluído que os métodos estatísticos são superiores aos de programação linear, outros concluíram que a PL classifica tão bem quanto as abordagens estatísticas, inclusive Hardy e Adrian (1985), que trataram das solicitações para fins de credit scoring. Recentemente, mais trabalhos foram desenvolvidos sobre o uso de programação total para resolver problemas com diferentes maneiras de se descrever o erro de classificação incorreta (ver Glen, 1997), ou sobre o uso de esquemas híbridos que envolvem tanto programação linear quanto métodos estatísticos (Ziari et al 1997).

As árvores de classificação, ou algoritmos de divisão recursiva (recursive partitioning algorithms – RPA), e os sistemas especialistas não resultam em scorecards que confiram ponderações a cada resposta e as somem. Ao invés, classificam os consumidores em diferentes grupos, sendo cada grupo internamente homogêneo quanto ao risco de inadimplemento e o mais diferente possível dos riscos de inadimplemento dos demais grupos. Árvores de classificação foram desenvolvidas nas áreas de estatística (Breiman et al 1984), inteligência artificial (Safavain e Landgrebe, 1991) e aprendizado de máquinas (Quinlan, 1993). Nas árvores de classificação, dividimos o conjunto de respostas aos formulários de solicitação em dois subconjuntos. Concentrando-nos na resposta a uma pergunta, escolhemos a divisão das respostas possíveis em dois subconjuntos, nos quais a diferença entre os riscos de inadimplência dos dois grupos seja a maior possível. Outros critérios são menos limitados e observam a situação após diversos outros níveis de divisão. Tendo sido encontrada a melhor divisão para uma pergunta específica, repete-se o processo para as demais perguntas. Escolhe-se uma pergunta e a divisão de suas respostas para que maximizem a diferença entre os riscos de inadimplência dos dois subconjuntos resultantes. E repete-se o processo sucessivamente para cada um dos dois subconjuntos. A divisão repetida dos subconjuntos continua até que se tenham grupos tão pequenos que não faça sentido, estatisticamente, dividi-los mais ou até que a melhor divisão possível produza dois novos subgrupos entre os quais a diferença não seja estatisticamente significativa. Quando se termina de dividir a árvore, cada grupo remanescente é classificado como “bom” ou “mau”, dependendo de ser a maioria de seus componentes “boa” ou “má”. A Figura 3 dá um exemplo de árvore .

É preciso “podar” a árvore para se obter uma análise mais robusta para a classificação de outras amostras, ainda que se perca um pouco da precisão original. Há abordagens alternativas para obter uma árvore de classificação robusta, como tirar a média de diversas grandes árvores, mas a “poda” é, de longe, a abordagem mais comum. Mais recentemente, investigou-se árvores oblíquas em que não há uma divisão clara entre os dois ramos que partem de cada nó, mas pode haver alguns elementos em comum.

E há outras abordagens ao credit scoring que foram testadas na década passada, mas que não foram implantadas completamente. Todas levam a sistemas de classificação que não são scorecards lineares. As redes neurais, que podem ser consideradas um tipo de regressão não linear, demonstraram ser uma possível solução para diversos problemas e são muito adequadas às aplicações de credit scoring. Na maioria dos casos, as redes neurais foram aplicadas ao scoring de grandes empresas, no qual há menor disponibilidade de dados do que no caso do scoring de consumidores (ver Altman et al 1994).

Figura 3 
 

Algoritmos genéticos são uma das diversas técnicas de otimização baseadas em analogias biológicas. No contexto do credit scoring, tem-se diversos scorecards que sofrem mutação e se fundem de acordo com sua adequação quando da classificação. Fogerty, Ireson (1993) e Albright (1994) estiveram entre os primeiros a descrever essa abordagem.

E qual seria o melhor método? Cada consultoria sustenta a superioridade de sua abordagem, ao passo que as comparações feitas por acadêmicos são freqüentemente limitadas na medida em que a maioria dos dados relevantes, como relatórios de bureaus de crédito, são por demais sigilosos ou dispendiosos para serem repassados a eles pelos usuários. Assim, seus resultados são de natureza meramente indicativa, mas, de maneira geral, a variação dos erros de classificação dos diferentes métodos costuma ser pequena. A tabela 1 mostra os resultados de cinco comparações. Os valores devem ser confrontados ao longo das linhas, mas não entre elas, porque envolvem medidas diferentes de populações . Cada uma dá a porcentagem corretamente classificada pelos diferentes métodos, quando a mesma proporção populacional é aceita por método. Nas comparações feitas por Henley e por Srinivasan, vencem os RPAs; nos estudos de Boyle e de Yobas, a regressão linear; e nos de Desai, a regressão logística, mas os resultados não são significativos.

A razão desse resultado talvez seja o efeito máximo total originalmente identificado por Lovie e Lovie (1986), há 20 anos. As mudanças significativas das ponderações em torno de um scorecard ideal têm efeito relativamente pequeno sobre seu desempenho. Isso explicaria a relativa semelhança entre os resultados de abordagens muito diferentes à construção de scorecards.

E, se métodos diferentes resultam em níveis aproximadamente semelhantes de precisão classificatória, que método deverá ser usado? Isso é determinado pelas características que os métodos trazem para a construção dos scorecards. As abordagens por regressão permitem a realização de testes estatísticos para identificar a importância de cada uma das variáveis no modelo e determinar se duas variáveis tratam da mesma coisa, proporcionando respostas equivalentes. Assim, essas abordagens permitem eliminar variáveis irrelevantes, o que aumenta a robustez dos scorecards — eles ficam mais “robustos” e, portanto, mais fortes. E os métodos também indicam quais são as variáveis importantes para fins de classificação, ajudando a decidir quais informações poderão entrar em novos scorecards.

Tabela 1
 

A programação linear tem a vantagem de permitir que o criador do scorecard certifique-se de que os scores apresentem as propriedades desejadas pelas organizações de crédito. Por exemplo, o credor poderia querer atingir os jovens e, por isso, desejar que os scores para pessoas com menos de 25 fossem superiores aos dos idosos com mais de 60. Encontrar o melhor scorecard com essa propriedade seria muito difícil para as abordagens estatísticas, mas é bem simples, se for utilizada a programação linear. Da mesma maneira, a PL pode lidar com mais variáveis do que as abordagens por regressão e, assim, tratar facilmente das questões categóricas convertidas em variáveis binárias. As árvores de classificação e as redes neurais são boas para identificar automaticamente relações não lineares entre as variáveis que podem causar erros em scorecards lineares se ficarem ocultas.

A Abordagem pelo Vizinho mais Próximo

O método do vizinho mais próximo é uma abordagem não paramétrica padronizada à questão da classificação que foi inicialmente sugerida por Fix e Hodges (1952). Foi aplicada pela primeira vez no contexto do credit scoring por Chatterjee e Barcun (1970) e, posteriormente, por Henley e Hand (1996). A idéia é escolher uma medida no espaço dos dados das solicitações para medir a distância entre dois solicitantes quaisquer. Então, tendo-se uma amostra de antigos solicitantes como padrão de representação, os novos solicitantes são classificados como “bons” ou “maus”, dependendo da proporção de “bons” e “maus” entre os k solicitantes “mais próximos” da amostra — os “vizinhos mais próximos” do novo solicitante.

Os três parâmetros necessários para utilizar essa abordagem são a medida, o número k de solicitantes que constituem o conjunto de vizinhos mais próximos e a proporção que precise ser “boa” para que o novo solicitante seja considerado “bom”; não sendo atingida tal proporção, o solicitante será considerado “mau”. Contudo, se a perda média por inadimplência for D e a lucratividade média perdida por rejeitar um cliente “bom” for L, então um novo solicitante seria considerado bom apenas se, pelo menos, D/(D+L) dos vizinhos mais próximos fossem “bons”. Esse critério minimizaria a perda prevista, caso a probabilidade de um novo solicitante ser bom fosse uma proporção dos vizinhos que o são.

A escolha da medida é, evidentemente, crucial. Fukanaga e Flick (1984) introduziram uma medida genérica cuja fórmula é,

na qual A(x) é uma matriz p x p definida simétrica positiva. A(x) é chamada de medida local, se depender de x, e de medida global, se for independente de x. A dificuldade encontrada com a medida local está em ela captar características do conjunto de treinamento que não são genericamente apropriadas, de modo que a maioria dos autores se concentra nas medidas globais. O exame mais detalhado da abordagem pelo vizinho mais próximo no contexto do credit scoring foi realizada por Henley e Hand (1996), que se concentraram em medidas que eram misturas da distância euclidiana e da distância na direção que melhor separava “bons” de “maus”. Essa direção é obtida pela função linear discriminante de Fisher, apresentada na Seção 1. Assim, sendo w o vetor p-dimensional que define a direção, dada na equação (1), Henley e Hand sugerem uma medida com a fórmula

na qual l é a matriz de identidade. Os autores relizaram um largo número de experiências para identificar o que poderia ser uma escolha apropriada para d. Da mesma forma, escolhem k, o número ideal de vizinhos mais próximos, por meio de experiências com muitas possibilidades de k. Embora não tenha havido grandes variações dos resultados, a melhor escolha de d ficou na faixa de 1,4 a 1,8. A escolha de k depende, evidentemente, do tamanho da amostra de treinamento e, em alguns casos, trocar k por 1 pode fazer diferença perceptível. De modo geral, contudo, não haverá muita diferença na taxa de “maus” classificados incorretamente para uma taxa fixa de aceitação, na medida que em que k varia numa faixa entre 100 e 1.000 (com uma amostra de treinamento de 3.000). Para evitar escolher um valor local ruim para k, pode-se suavizar o parâmetro optando-se por uma distribuição para ele. Assim, pode haver, para cada ponto, um número diferente de “vizinhos mais próximos”. Mas é possível obter resultados satisfatórios sem que seja preciso recorrer a tal nível de sofisticação.

Os métodos pelo vizinho mais próximo, embora usados no credit scoring com freqüência muito menor do que as abordagens por regressão linear e logística, têm características potencialmente atraentes para a implementação efetiva. Seria fácil atualizar dinamicamente a amostra de treinamento, por meio do acréscimo de novos casos, se soubéssemos identificar quem são os “bons” ou os “maus” e pudéssemos eliminar os casos que estão há mais tempo na amostra. Assim, seria possível superar, em parte, a necessidade de atualizar regularmente o sistema de scoring por causa das mudanças populacionais, embora uma medida d, como há em (5), também precise ser atualizada para que leve em consideração deslocamentos populacionais, o que não seria possível fazer de forma dinâmica. O fato de que determinar se um novo caso é “bom” ou “mau” exige grande volume de cálculo — para verificar quais são seus k vizinhos mais próximos na amostra de treinamento — deixa de ser uma grande preocupação, pois os computadores modernos são capazes de fazer esses cálculos em segundos. Mas, em diversos sentidos, identificar uma boa medida é praticamente equivalente desenvolver um scorecard por regressão. Com isso, muitos usuários contentam-se em estacionar e usar um scorecard tradicional. Como no caso da abordagem pela árvore de decisões, o fato de a técnica pelo vizinho mais próximo não permitir atribuir um score às características de cada solicitante específico priva os usuários de uma âncora que lhes permita entender o que o sistema está fazendo.

Análise de Sobrevivência Aplicada ao Credit Scoring

Os sistemas de credit scoring foram construídos para responder à pergunta sobre qual a probabilidade de um solicitante de crédito tornar-se inadimplente em um determinado horizonte de tempo. Como descreve a seção, toma-se uma amostra de clientes no passado e classifica-se cada um deles como “bom” ou “mau”, dependendo de sua performance em termos de pagamento do principal ao longo de um determinado período de tempo. Um mau desempenho logo antes do fim desse período significa que o cliente será classificado como ‘mau’; um mau desempenho logo após o fim do período é irrelevante e o cliente será classificado como ‘bom’. Essa divisão arbitrária pode levar a sistemas de scoring de robustez duvidosa. Além disso, se quisermos passar do credit scoring para o scoring de lucro, o momento do inadim-plemento do cliente passará a ser importante. Perguntamo-nos não se o cliente se tornará inadimplente, mas quando o fará. Essa é uma pergunta difícil de se responder, mas as ferramentas de análise de sobrevivência a têm abordado ao modelarem a duração de equipamentos, construções e pessoas.

O uso de análise de sobrevivência para responder à pergunta sobre “quando” se tem diversas vantagens em relação ao credit scoring tradicional, como, por exemplo:

i. lidar facilmente com dados censurados, segundo os quais os clientes deixam de ser devedores (por terem liquidado o empréstimo, falecido ou mudado de credor), antes de se tornarem inadimplentes;

ii. evitar a instabilidade causada pela necessidade de escolher um período de tempo determinado para medir o desempenho satisfatório;

iii. estimar o momento da inadimplência é um grande passo no sentido de se calcular a lucratividade de um solicitante;

iv. essas estimativas oferecem uma previsão dos níveis de inadimplência em função do tempo, o que é útil para a formação de provisões para a dívida;

v. a abordagem pode facilitar a incorporação de estimativas de variações do clima econômico no sistema de ‘scoring’.

Narain (1992) foi um dos primeiros a sugerir que a análise de sobrevivência poderia ser aplicada ao credit scoring. Em Banasik et al (1999) há uma comparação da abordagem básica à análise de sobrevivência com scorecards baseados em regressão logística, demonstrando como riscos concorrentes podem ser usados no contexto de credit scoring. Stepanova e Thomas (2001, 2002) levaram as idéias adiante e introduziram ferramentas para a construção de scorecards por análise de sobrevivência, além de inserirem conceitos de análise de sobrevivência no behavioural scoring . Essa seção se baseia nos dois últimos estudos.

Seja T o tempo até que um empréstimo se torne inadimplente; haverá, então, três maneiras comuns de descrever a aleatoriedade de T na análise de sobrevivência:

> função de sobrevivente S(t) = Prob{Tt}, na qual F(t) = 1-S(t) é a função de distribuição;

> função de densidade f(t), na qual Prob{tTt+t} = f(t)t;

> função de risco h(t) = f(t)/S(t) para que

h(t)dt = Prob{{tTt+t|Tt}.

Duas das mais comuns, entre as distribuições de período de vida, são a exponencial negativa, em que o parâmetro l tem S(t) = e-lt, f(t) = le-lt, h(t) = l, e a distribuição Weibull, em que a escala l e a forma k têm:

A primeira não tem efeito de “envelhecimento” no sentido de que a taxa de inadimplência se mantém constante ao longo do tempo; a segunda tem maior chance de inadimplência precoce, se K<1; maior chance de inadimplência tardia, se K>1, e torna-se a distribuição exponencial negativa, se K=1.

Nas técnicas de credit scoring tradicional, admite-se que as características da solicitação afetem a probabilidade de inadimplência. Da mesma forma, na abordagem pela análise de sobrevivência, desejamos modelos que permitam que essas características afetem a probabilidade de o cliente tornar-se inadimplente. Dois modelos vêm sendo preferidos por ligarem variáveis explicativas ao tempo até a inadimplência na análise de sobrevivência — os modelos de risco proporcional e os de vida acelerada. Se x = (x1,….xp) são as características (explicativas) da solicitação, o modelo de vida acelerada assume,

na qual h0 e S0 são funções de linha base, de modo que x pode acelerar ou retardar o ‘envelhecimento’ da conta. O risco proporcional admite

de modo que as variáveis de solicitação x têm efeito multiplicador sobre o risco de linha base. É possível usar uma abordagem paramétrica tanto para os modelos de risco proporcional quanto para os de vida acelerada, admitindo que h0(.) pertença a uma família determinada de distribuições. Acontece que as distribuições exponencial negativa e Weibull são as únicas que servem como modelos tanto de vida acelerada quanto de risco proporcional. A diferença entre os modelos é o fato de que, no risco proporcional, os solicitantes com maior risco de inadimplência num dado momento qualquer continuam a representar o maior risco em qualquer outro momento.

Cox (1972) indicou que, no risco proporcional, é possível estimar as ponderações w, sem que se conheça h0(t), empregando a ordenação dos tempos até a inadimplência e dos tempos censurados. Se ti e xi são os tempos até a inadimplência (ou censurados) e as variáveis de solicitação de cada um dos itens em teste, a probabilidade condicional de que o cliente i se torne inadimplente no momento ti, dado que R(i) são os clientes ainda ativos antes de ti, é dada por:

o que independe de h0.

Há um pequeno problema na aplicação desses conceitos à concessão de crédito. Os dados de inadimplência tendem a ser agregados mensalmente, de modo que o tempo até a inadimplência é discreto e não contínuo, o que leva a diversos ‘elos’ quando há, num só mês, um grande número de clientes que se tornem inadimplentes ou cujos dados sejam censurados por outro motivo qualquer. Mas Breslow (1974) e Effron (1977) sugeriram aproximações simplificadoras.

Os resultados da aplicação do modelo de risco proporcional de Cox a uma amostra de 50.000 empréstimos pessoais concedidos por uma grande instituição financeira britânica constam da Figura 4. Foram usadas duas medidas para o modelo de sobrevivência, baseadas nos dados de solicitação.

I. O desempenho do modelo quanto à estimativa de quais empréstimos se tornariam inadimplentes nos primeiros 12 meses, se comparado a um scorecard por regressão logística nos primeiros 12 meses como definição de ‘mau’.

II. O desempenho do modelo quanto à estimativa, dentre os empréstimos que ainda estivessem sendo pagos após 12 meses, quais se tornariam inadimplentes no segundo período de 12 meses. Isso é novamente comparado com uma regressão logística construída com os sobreviventes em 12 meses, sendo que os sobrevivente que se tornaram inadimplentes no segundo período de 12 meses são definidos como “maus”.

A Figura 4 mostra que, para cada critério, o modelo de risco proporcional é competitivo em relação ao modelo de regressão logística construído com base exclusivamente no critério em questão. O gráfico da esquerda mostra as curvas ROC sob o critério i), acima, e o da direita, a curva ROC sob o critério ii). Isso sugere que, mesmo como medidas de risco de inadimplência num horizonte de tempo fixo, os modelos de risco proporcional são muito competitivos.

Figure 4 
 

A abordagem pela análise de sobrevivência pode ser estendida de diversas maneiras para se aplicar à modelagem da concessão de crédito. Há outros motivos, além da inadimplência, pelos quais um cliente pode ser liquidado antes do prazo originalmente estabelecido — passagem para outro credor, venda do item comprado com o empréstimo ou tomada de outro empréstimo. Todas as possibilidades significam que o credor não proporcionou o lucro pretendido e, por isso, são ‘más’ para o credor. A abordagem pelos riscos concorrentes à análise de sobrevivência nos permite construir modelos de função de sobrevivente separados para cada um dos tipos de risco. Considere-se um caso em que o empréstimo pode se tornar inadimplente, ser pago antecipadamente, ou pago no vencimento e sejam Td e Te a duração da vida do empréstimo até o inadimplemento e o pagamento antecipado. Se Tm for o prazo do empréstimo, o número de meses de pagamento será T = min{Td, Te, Tm}.

Assim como pudemos estimar Td, podemos usar as mesmas técnicas analíticas para estimar Te, o tempo decorrido até o pagamento antecipado. Não é preciso admitir que Td e Te sejam variáveis independentes, mas como os cálculos se complicarão se não o fizermos, geralmente, se admite ser este o caso. Stepanova e Thomas (Stepanova e Thomas, 2002) demonstraram que, para o pagamento antecipado, é preciso segmentar os empréstimos de acordo com seu prazo. A Figura 5 mostra as curvas ROC do pagamento antecipado no primeiro ano e, novamente, no segundo para os que ainda estão sendo pagos após 12 meses. O Gráfico a) é a curva ROC do primeiro critério e refere-se a empréstimos com vencimento entre os meses 12 e 24, e b) é a curva ROC para o segundo critério em relação aos mesmos empréstimos. c) e d) são as curvas ROC desses dois critérios para empréstimos entre 24 e 30 meses e e) e f) são as mesmas curvas ROC para empréstimos com prazos superiores a 3 anos. No último caso, a abordagem pela sobrevivência funciona bem. Um dos resultados interessantes da análise é o fato de que, no que diz respeito aos pagamentos antecipados, pode ser melhor assumir que t seja o número de meses até o fim do prazo do empréstimo, e não o tempo contado desde a concessão do empréstimo. É por isso que a segmentação pelo prazo do empréstimo melhorou tanto os resultados.

Uma das desvantagens da adoção da premissa dos riscos proporcionais está em a classificação relativa dos solicitantes segundo o risco (seja de inadimplência, seja de pagamento antecipado) não variar ao longo do tempo, o que pode ser superado pela introdução de características dependentes do tempo. Suponhamos, assim, que x1=1 se o objetivo do empréstimo fosse refinanciamento e, do contrário, que x­1 = 0. É possível introduzir uma segunda característica x2=x1t. No modelo que usa apenas x1, a ponderação correspondente foi w1= 0,157, de modo que a taxa de risco no momento t para empréstimos de refinanciamento foi e0,157h0(t)=1,17h0(t) e, para os demais empréstimos, a taxa de risco foi h0(t). Quando a análise for refeita com x1 e x2, os coeficientes dos empréstimos com risco proporcional serão de w1=0,32, w2=-0,01. Assim, para empréstimos de refinan-ciamento, a taxa de risco no momento t foi de e0,32-0,01t h0(t), enquanto os demais apresentaram h0(t). Assim, no mês 1, o risco de se ter um empréstimo refinanciado era e0,31=1,36 vez mais elevado do que o de empréstimos para outros fins, ao passo que, após 36 meses, a taxa de risco do refinanciamento foi de e-0,04 = 0,96 da dos demais empréstimos. Assim, interações entre tempo e características nos modelos de risco proporcional aumentam a flexibilidade, permitindo que o efeito de uma característica aumente ou diminua com o envelhecimento do empréstimo.

As técnicas de sobrevivência também podem ser aplicadas no contexto do behavioural scoring , embora seja preciso ter um pouco mais de cautela. Suponhamos que tenham decorrido u períodos desde o início do empréstimo e que b(u) sejam as características comportamentais no período u (podendo incluir características da solicitação), um modelo de risco proporcional poderia dizer que a taxa de risco quanto à inadimplência em mais t períodos de tempo, ou seja, t+u desde o início do empréstimo, seria de ew(u).b(u)h0u(t). Ao fim do próximo período u+1, a taxa comparável de risco seria a de t-1 períodos adiante, ou seja, ew(u+1).b(u+1)h0u+1(t-1). Assim, os coeficientes w(u) precisariam ser estimados separadamente para cada período u, usando apenas os dados do conjunto que tivesse sobrevivido até o período u. E esses coeficientes podem mudar de forma significativa entre um período e o seguinte. Uma forma de suavizar as mudanças seria fazer do behavioural score do período anterior uma das características aplicáveis ao período corrente. Supondo, portanto, que x = (x1…..xp) sejam as características de solicitação e que y(u) = (y(u)1,…..y(u)q), as características comportamentais do período u, define-se uma série de scores comportamentais por s(0) = w.x, na qual ewx h00(t) é a função de risco da taxa de inadimplência no momento 0. No momento 1, a função de risco pelo tempo de agora até o inadimplemento será e definirá s(1) = w0(1)s(0) + w(1)y(1). A repetição do procedimento levará a scores de comportamento no período u, satisfazendo s(u)=w0(u)s(u-1)+w(u).y(u). Detalhes dessa análise podem ser encontrados em Stepanova e Thomas (2001).

Aplicação de Modelos Gráficos e Redes Bayesianas ao Credit Scoring

Recentemente, diversos autores — Sewart e Whitaker (1980), Hand et al (1997), e Cheng et al (1997) — sugeriram mostrar a utilidade de se desenvolver modelos no contexto de credit scoring. Um modelo gráfico de uma situação consiste de uma série de vértices, na qual cada um representa uma variável discreta ou distinta de interesse. Algumas serão as variáveis de solicitação, como as condições de residência ou a idade; outras podem ser variáveis de resultado, como saldo após 12 meses ou número de parcelas atrasadas ou não pagas; outras, ainda, podem ser variáveis exógenas, como as taxas de desemprego e de juros; e algumas podem ser imperceptíveis, como a capacidade de pagamento. Os vértices são ligados por linhas que descrevem a dependência probabilística entre eles. Mais especificamente, a ausência de uma aresta entre dois vértices significa que as duas variáveis em questão sejam condicionalmente independentes, dado o restante das variáveis.

Sejam X, Y e Z o conjunto de variáveis; X é condicionalmente independente de Y dado Z se p for a função de densidade condicional (variável contínua) ou a função probabilística (variável discreta) para que pX|Y,Z(x|y, z) não dependa de y. Eqüivaleria dizer:

PX|Y,Z(x|y, z)=PX|Y(x,z).PY,Z(y,z)

Figure 5

Com essa definição de vértice e linha(ou não-linha), a relação entre as variáveis do modelo pode ser apresentada como um gráfico. Daí vem o nome “modelos gráficos”. A razão pela qual faz sentido representar os resultados sob a forma de um gráfico está em que, se duas variáveis estivessem separadas no gráfico, ou seja, se não fosse possível ir de uma à outra, a não ser por intermédio de uma terceira, então a primeira e a segunda seriam, condicionalmente, independentes dada a terceira. A isso chamamos propriedade global de Markov.

Por exemplo, considerem-se quatro variáveis W, X, Y e Z em que W seja condicionalmente independente de Z, dado (X, Y), e Y seja, condicionalmente, independente de Z, dado (W, X), como encontra-se representado no gráfico abaixo.

Z e W são separados por X, de modo que Z é circunstancialmente independente de W, dado X (e Z também é condicionalmente independente de W, dado apenas Y). A independência marginal é a definição normal de independência e diz que pxy(x, y) = px(x)py(y), como está representado a seguir.

Figure 6

Figure 7 

As variáveis também podem ser agrupadas em conjuntos chamados cliques, se forem adjacentes umas às outras no gráfico e se forem o maior grupo entre os que apresentam esta propriedade. Assim, se acrescentássemos qualquer outra variável, não estaríamos formando um clique. Assim, na Figura 6, {X, Y, W} e {X, Z} são cliques.

Esses modelos gráficos podem ser aplicados ao credit scoring de três maneiras. Primeiro, eles esclarecem a relação entre os fatores que afetam o comportamento dos devedores. Modelam simultaneamente as relações entre as variáveis, sem exigir que qualquer uma seja segregada como variável "resultado". Assim, pode ser mais fácil identificar as subpopulações que apresentem determinadas características comportamentais do que com os métodos tradicionais de credit scoring, até mesmo os baseados em árvores de classificação. Em segundo lugar, os modelos gráficos podem ser usados para prever o risco ou o lucro de cada indivíduo. De acordo com as variáveis de solicitação, é possível usar a relação para prever as demais variáveis, inclusive as desconhecidas, como o risco de inadimplência. Assim, pode ser usado como nos sistemas normais de credit scoring. Finalmente, como a concessão de empréstimos é, na realidade, um processo decisório, com tomada de diferentes decisões em diferentes momentos — a quem enviar mala direta, quem responderá, quem deveremos aceitar, quem usará o cartão após a aceitação, quem mudará para outro credor e quem se tornará inadimplente — é útil para saber quando as informações se tornarão conhecidas e quais os insights que elas proporcionarão. Assim, trata-se de um meio de relacionar as previsões possíveis para o processo de tomada de decisões e, portanto, pode ser usado para garantir que o processo decisório seja corretamente projetado.

O gráfico que liga as variáveis pode ser construído, partindo-se do gráfico completo e perguntando-se que linhas podem ser deixadas de fora, ou partindo-se de um gráfico sem arestas e as acrescentando. Nos dois casos, o que está sendo feita é uma tentativa de comparação entre dois modelos, um com e outro sem a aresta. Esses modelos correspondem a diferentes modelos estatísticos, dependendo de serem todas as variáveis discretas (categóricas), contínuas, ou de haver uma combinação entre variáveis contínuas e discretas. Os modelos de variável discreta correspondem a modelos loglineares e os de variável contínua tornam-se modelos normais multivariados, se admitirmos que as distribuições sejam normais. Nesse caso, a independência condicional cor-responde a zero correlações parciais. Os modelos gráficos mistos foram introduzidos por Lauritzen e Wermuth (1989) e Edwards (1995) desenvolveu um pacote de software chamado MIM para estimar os parâmetros e calcular o gráfico.

Demonstraremos os cálculos do caso discreto, por ser tão comum traduzir variáveis contínuas em categóricas no contexto de credit scoring e behavioural scoring. Suponhamos que haja três variáveis categóricas X, Y e Z, e seja pjkl = P{X=j, Y=k, Z=l}. O modelo loglinear mais genérico define as probabilidades por:

Há uma relação entre a independência das variáveis X e Y, e ser ou não uXY = 0. Se Y é condicionalmente independente de Z, dado X, então, será equivalente a

uklYZ = ujklXYZ = 0.

Se houver N observações na amostra e njkl for o número de observações em que X=j, Y=k, Z=l, esta será uma distribuição multinomial, cuja chance de acontecer é:

e o logaritmo da probabilidade de acontecer é:

Se lPLENO for o logaritmo da máxima verossimilhança, admitindo o modelo completo de (7), e lM for o logaritmo da máxima verossimilhança admitindo algum submodelo M (possivelmente com X condi-cionalmente independente de Y), o desvio G2 será o teste de razão de verossimilhança, de modo que

G2 = 2(lPLENO – lM). No modelo completo, as Estimativas de Máxima Verossimilhança de pjkl são njkl/N. Se forem as estimativas de PM, M1 e forem as contagens esperadas, e , as estimativas correspondentes sob um modelo diferente M2, M1 contido M2, a diferença d será dada por:

Em M2, d é assintoticamente no qual k é a diferença entre os números de parâmetros livres de M2 e M1. A alternativa é utilizar o fato de que G12 é , no qual é a diferença entre os números de parâmetros livres de M1 e MPLENO.

Sewart e Whitaker (Sewart e Whitaker, 1998) deram alguns exemplos do uso dessas técnicas no credit scoring; os modelos que seguem ba-seiam-se neles.

Exemplo:A riqueza está ligada ao risco de inadimplência?

Os 5000 clientes da amostra foram comparados entre si em termos de riqueza (pobres/ricos) e estado de inadimplência (sim/não). A tabela 2 apresenta as distribuições:

Tabela 2 

M1 é o modelo em que a riqueza e o status de inadimplência são independentes, de modo que a taxa independente de inadimplência é de 2,4% (120/5000) e a taxa de pobres é de 50,2% (2.510/5.000). Os valores esperados para cada uma das quatro células são:

2449,76 (2510 x 4880/5000), 60,24 (2510 x 120/5000),

2430,24 (2490 x 4880/5000), 59,76 (2490 x 120/5000).

M2 é o modelo no qual a riqueza e a inadimplência estão ligadas e os números esperados são, evidentemente, os reais. Nele há apenas um parâmetro a mais (uxy). Assim,

d = 2 (2450 ln (2450/2449,76) + 60 ln (60/60,24) + 2430 ln (2430/2430,24) + 60 ln (60/59,76)) = 0,002

x20.95= 0,0039 para 1 grau de liberdade, o que sugere que o modelo M2 não representa melhora significativa em relação a M1. Assim, a riqueza e a taxa de inadimplência são marginalmente independentes.

Exemplo:A riqueza e a utilização estão ligadas ao risco de inadimplência?

(a independência marginal não implica em independência condicional)

O uso do cartão de crédito feito pelos 5.000 do exemplo acima é, agora, acrescentado para se obter a Tabela 3.

Tabela 3

Comparemos M2 (o gráfico completo que relaciona a utilização, a riqueza e a inadimplência) com M1 (o gráfico em que a inadimplência e a utilização são dependentes, a utilização e a riqueza são dependentes, mas a inadimplência e a riqueza são condicionalmente independentes, sendo que, originalmente, eram marginalmente independentes). Novamente, em M2 com o gráfico completo, os números esperados em cada célula são os números efetivos do caso. Para M1, usamos o fato de que estimar alguém como usuário leve seja 0,4844 (pesado = 0,5156) e as estimativas de probabilidades condicionais sejam p (inadimplência|leve) = 12/2.422, p (inadimplência|pesada) = 108/2.578, (pobre|leve) = 2.220/2.422 e (pobre|pesada) = 290/2.578. Isso leva às seguintes estimativas para os valores das células em M1:

Tabela 4

Há dois graus de liberdade a mais entre M1 e M2, ou seja, uxy e uxyz, de modo que a diferença de desvio tem distribuição x2 com dois graus de liberdade. Nesse caso,

d= 2{2210 ln(2210/2209) + 10ln(10/11) + 200ln(200/201) + 2 ln(2/1) + 240ln(240/277,85) + 50ln(50/12,15) + 2230ln(2230/2192,15) + 58ln(58/95,85)} = 90,5

O valor de significância de 95% para a distribuição x2 com dois graus de liberdade é 0,103, o que é enormemente superior e demonstra que o modelo M2 é significativamente melhor do que o M1.

Figura 8 

Até aqui, tratamos de modelos gráficos em que as linhas não têm direção, por representarem a dependência condicional entre variáveis. Um gráfico sem direção representa as distribuições conjuntas, mas também é possível definir uma distribuição conjunta por meio de uma seqüência de probabilidades condicionais. Se adotarmos essa abordagem, será possível atribuir uma direção a cada arco do gráfico para representar a maneira como se realizam as condições. E também é possível definir formalmente um gráfico dirigido, estabelecendo que, se (X1,…..Xn) for um conjunto de variáveis ordenadas:

Para i < j, traça-se uma seta de Xi a Xj, a menos que px |x ...x (xj|xj-1,....x1) seja independente de X, ou seja, Xj seja condicionalmente independente de Xi, dado {X1,….. Xi-1, Xi+1,….. Xj-1}.

Modelos gráficos dirigidos como esse são também chamados de redes bayesianas, porque foram introduzidos para tratar de sistemas especialistas probabilísticos em que se dê ênfase ao conceito Bayesiano de atualização das próprias crenças (ver Spiegelhalter et al 1993), para um panorama dessa área). Nas redes Bayesianas, se houver um arco dirigido do vértice Xi para o vértice Xj, o vértice i será antecessor direto do nó j. Seja P(j) o conjunto de antecessores de j, ou seja, P(j) = {i|(i, j) é um arco dirigido}. Da mesma forma, S(i) são descendentes (sucessoras diretas) do nó i, de modo que S(i) = {j|(i, j) é um arco dirigido}. Isso nos permite definir todas a variáveis constantes da base de dados que sejam relevantes para prever a variável Xi. Trata-se da classe de Markov que cerca o nó i. Uma classe de Markov de Xi numa rede bayesiana é o subconjunto de nós M(i) = (P(i)união(i)união(S(i))– {i} ou seja, os antecessores, as descendentes e os antecessores das descendentes da variável Xi.

Decorre das definições apresentadas que se p(.|.) for, novamente, uma probabilidade condicional ou uma densidade condicional, podemos demonstrar que:

Chang et al (1997) usaram a idéia da rede bayesiana no contexto de credit scoring da seguinte maneira. Admitiram X0 como a variável descritiva do risco de inadimplência (ou seja, G-bom ou B-mau) e que não tivesse antecessores, mas que as variáveis de solicitação X1,….Xn fossem suas descendentes. Indicaram que, com uma transformação adequada, o score S(X) para alguém com dados de solicitação x é equivalente ao logaritmo da probabilidade de ser bom em relação a ser mau (esta foi a base dos modelos de regressão logística). A aplicação nos dá a seguinte relação:

Chang et al (1997) modificaram a definição de clique para definir cliques em gráficos dirigidos. Definiram um clique sucessor C do nó de desempenho como uma série de nós, sendo pelo menos um dos quais sucessor do nó de desempenho. O conjunto apresenta a propriedade de que todas as descendentes dos nós do clique estejam, elas próprias, dentro do clique, ou seja, S(C) Contido C. Isso significa que temos dois cliques sucessores C1, C2, de modo que

uma vez que não há arcos que vão de um clique para o seguinte. Isso significa que há K cliques sucessoras C1, C2…..Ck na rede,

e

Portanto,

em que

Isso significa que o score divide-se na soma dos scores de seus cliques. Esse resultado é útil na medida em que pode haver num clique menos elementos do que as n variáveis originais, o que facilita o cálculo do score. A estrutura dos cliques também pode proporcionar insights quanto a quais fatores econômicos e comportamentais têm maior influência sobre o score.

Mas, essa decomposição em cliques pode ser menos útil do que se pensou inicialmente. Chang et al (1997) aplicaram seus resultados a uma amostra de 7.000 solicitantes de crédito bancário, com 35 características disponíveis para cada um deles. Partindo de um modelo em que se admitia que cada uma das 35 características dependia da variável de desempenho bom/mau X0, mas era condicionalmente independente de todas as demais, construiu-se uma rede bayesiana para identificar a classe de Markov para X0 e seus cliques sucessores. O resultado foi uma classe com 25 nós (de modo que 10 variáveis foram inteiramente abandonadas), e estes dividiram-se em 11 cliques de um nó, 4 de 2 nós e 2 de 3 nós. Com isso, a rede ficou um pouco mais complicada do que a originalmente adotada.

Os resultados sugerem que será necessário um maior esforço de pesquisa para desenvolver a metodologia de uso de modelos gráficos em credit scoring. Atualmente, quer parecer que, partindo de um gráfico completo, não será possível eliminar muitos arcos, ao passo que, partindo de um gráfico muito esparso, não será possível acrescentar muitos arcos. Evidentemente, contudo, essa abordagem à construção de modelos de scoring de lucros apresenta potencial considerável.

Modelos de Behavioural Scoring Baseados em Cadeias de Markov

Os modelos de comportamento de consumidores baseados em cadeias de Markov representam uma abordagem alternativa ao behavioural scoring e podem, obviamente, ser estendidos para o scoring de lucratividade. Eles foram originalmente sugeridos por Cyert, Davidson e Thompson (1963). Embora haja poucos sistemas comerciais baseados em suas idéias, estendendo-se as idéias dos modelos de cadeia de Markov aos modelos markovianos de processo decisório, é possível construir sistemas de scoring de lucros que ofereçam decisões quanto a limites de crédito baseados em modelos, ao invés de decisões subjetivas como as anteriormente descritas.

Segue um exemplo de um modelo desse tipo. O estado da conta de um cliente é dado pelo trio u= (b,n,i), no qual b é o saldo da conta, n é o número de períodos desde o último pagamento e i descreve outras informações relevantes quaisquer. A decisão a ser tomada é quanto ao limite de crédito, L, em cada estado. Para tanto, é preciso estimar pL(u,u’) — a probabilidade de que a conta passe de u para u’ sob o limite de crédito L. Também é preciso calcular rL (u), o lucro para o credor, se o cliente estiver no estado u e se aplicar o limite de crédito L. Obtém-se pL(u,u’), estimando:

> tL (u,a), a probabilidade de que uma conta no estado u e com o limite de crédito L seja paga no próximo período;

> qL (u,o), a probabilidade de que uma conta no estado u com limite de crédito L faça pedido no próximo período; e

> wL (u,i’), a probabilidade de que uma conta no estado u com limite de crédito L mude suas informações para i’.

Podemos, então, definir as probabilidades de transição por:

pL (b,n,i; b+o-a,0,i’) = tL (u,a)qL (u,o)wL (u,i’),

desde que b+o-a £ L, e a >0.

p L (b,n,i; b-a,0,i’) = tL (u,a) wL (u,i’)( qL (u,0)+ åo.L-b+a qL (u,o)),

em q ue a >0.

pL(b,n,i; b+o,n+1,i’) = tL (u,0)qL (u,o)wL (u,i’),

desde que b+o £ L.

p L (b,n,i; b-a,n+1,i’) = t L (u,0) wL (u,i’)( q L (u,0)+ åo.L-b+a q L (u,o)).

Se admitirmos que uma fração f do preço de compra seja lucro e que o credor liquide os maus créditos após N períodos sem pagamento, o lucro em qualquer período determinado será rL (b,n,i) = f åo qL(s,o) – btL (s,0) d(n-(N-1)) em que d é a função delta com d(x) = 0 se x>0 e d(0) = 1.

Podemos, então, aplicar a abordagem ordinária pela programação dinâmica e demonstrar que Vn (u), o lucro esperado em n períodos dado uma conta no estado u, satisfaz a equação ótima:

Vn (u) = max L { rL (u) + ås’ pL (u,u’)V n-1(u’) }

Sua solução dará o limite de crédito que maximiza o lucro em n períodos.

Aqui se utiliza uma abordagem estatística ortodoxa, na qual os parâmetros da matriz de transição são estimados a partir de dados passados sobre outros clientes. Bierman e Hausman (1970) sugeriram que esses parâmetros poderiam ser estimados de forma bayesiana, crendo que os parâmetros de cada cliente seriam atualizados à luz de seu próprio histórico de pagamentos.

O modelo de cadeia de Markov de comportamento de consumidores depende de duas premissas cruciais. A primeira sugere que o espaço de estado do modelo descreva todas as diferentes situações em que o consumidor possa estar e a segunda prescreve que a dinâmica de seu comportamento subseqüente siga um comportamento mar-koviano. É a segunda premissa, a de que haja um modelo estocástico da dinâmica, que permite a construção de modelos de lucratividade para cada cliente.

Embora os modelos de cadeia Markov não sejam muito usados para construir sistemas de behavioural scoring ou scoring de lucratividade, eles são comuns para a descrição do estado de inadimplência de uma população, podendo ser usados para estimar as perdas por inadimplência esperadas em uma carteira em períodos de tempo futuros, o que os torna úteis na formação de provisões. Alternativamente, a estimativa dos números de inadimplentes em diferentes períodos de tempo pode ser usada para planejar os recursos necessários para os departamentos de cobrança e recuperação.

Os modelos usados atualmente são bastante diretos. Os estados são os diferentes estados de inadimplência – por exemplo, nenhum, um, dois, três, quatro ou mais meses de atraso. As probabilidades de transição, ou taxas de rolagem, são obtidas a partir de dados passados. Tome-se uma amostra de clientes e admita-se que seu desempenho dinâmico seja estacionário. Seja n(i) o número total de clientes/meses no estado i (i=0,1,2,3,4) e seja n(i,j) o número de vezes que os clientes passam do estado i para o j. A estimativa de probabilidade máxima da transição p(i,j) é n(i,j)/n(i). Assim, na tabela 5, se o número superior nos dá o número de transições existentes na amostra, o inferior dá a estimativa de probabilidade máxima de transição.

Tabela 5

A abordagem em questão permite que os dados definam as matrizes transição, mas recomenda-se aplicar algumas restrições. Assim, determinadas transições podem ser consideradas impossíveis, o que introduziria zeros estruturais na matriz, com a vantagem de limitar o número de parâ-metros que exijam estimativa. Na Tabela 5, podemos dizer que as transições 0->2, 0->3, 0->4, 1->3, 1->4 e 2->4 não são possíveis e que 3->1 é tão improvável que pode ser desconsiderada.

Tendo calculado a matriz de probabilidade de transição P e dado p(0) como a distribuição atual da população entre os estados, a distribuição esperada em m períodos de tempo será p(m)= p(0)Pm. Isso precisa ser modificado para admitir atrito — clientes que encerram sua associação com o credor — e a entrada de novos clientes. Assim, é preciso ter cuidado para verificar se o que se está calculando é o estado de delinqüência da coorte que inclui os clientes quando do momento 0 ou o da população atual, a qual pode ser construída somando-se as coorte que se uniram ao credor no mesmo período de tempo.

É preciso ter certeza de que a dinâmica do modelo reflita efetivamente a realidade da dinâmica da população. São quase inexistentes os casos em que a totalidade dos clientes segue o mesmo processo markoviano estacionário. Assim, o problema é definir um conjunto de subpopulações

r Î R e conjuntos de estados Sr, para cada uma delas, r, de modo que o processo seja markoviano para cada subpopulação. Nos modelos de inadimplência, a escolha inicial dos estados envolverá condições ligadas ao número de dias de atraso e condições quanto ao montante em que foi superado o limite, para evitar que sejam levadas em consideração dívidas insignificantes. Num modelo de behavioural scoring , os estados serão bandas da pontuação comportamental.

Como, no behavioural scoring, é difícil separar o processo de segmentação da escolha dos estados de cada segmento, embora a segmentação esteja sendo feita para melhorar a dinâmica do modelo e não sua precisão classificatória. Como o que queremos são processos que se revelem o mais marko-vianos possível, entre as ferramentas mais úteis estão os testes c2 de Markovidade, originalmente sugeridos por Anderson e Goodman (1957). A idéia é comparar a freqüência com que a seqüência de transições de estado a®j®k se dá, se comparada a b®j®k para a totalidade de k. Se o processo for realmente markoviano, essas distribuições serão iguais para todas a escolhas de a e b.

A segmentação em subpopulações é feita por três motivos. É possível usar a intuição e segmentar pelo mix de produtos financeiros que o cliente mantém. Se o credor for o depositário da principal conta corrente do cliente, haverá muito maior disponibilidade de informações para modelar a situação do cliente do que se a conta não estivesse disponível. Por outro lado, as contas hipotecárias têm desempenho diferente do apresentado por empréstimos pessoais e pode ser necessário separar entre si os clientes que mantenham esse tipo de conta. Outro tipo de seg-mentação se dá pela idade da conta. Clientes com um histórico estabelecido em um credor costumam ser mais estáveis do que os que acabaram de abrir linhas de crédito, simplesmente, devido ao fato de que os clientes mais voláteis de sua geração já se terão tornado inadimplentes ou passado para outros credores. O terceiro motivo para segmentar é o próprio comportamento da conta. O que queremos são segmentos que sejam internamente homogêneos no que se refere ao comportamento. Uma divisão que parece funcionar bem nesse sentido é a proporcionada pelo modelo nômade-sedentário. A idéia apareceu pela primeira vez em estudos de mobilidade do trabalho e foi, posteriormente, utilizada em relação ao comportamento de compras dos consumidores. Frydman et al (1985) foram os primeiros a sugerir seu uso no contexto do crédito ao consumidor e a desenvolver estimativas dos parâmetros necessários. No contexto de crédito, os sedentários são aqueles que pagam o total de sua dívida a cada mês e, com isso, se mantêm no mais elevado dos estados “bons”. Os nômades são aqueles que apresentam histórico de pagamentos menos constante, inclusive pagamentos parciais e atrasados. Uma análise detalhada desses conceitos, realizada em relação à base de clientela de um grande banco, sugeriu que a proporção entre os grupos seja de 50:50.

Mas, mesmo com a segmentação, é provável que os modelos criados com base na escolha inicial de estados fiquem longe de ser markovianos. Os valores c2 do teste de markovidade de Anderson-Goodman ficará muito acima da faixa que permite aceitação da hipótese nula. Nesses casos, será necessário verificar a necessidade de definições de estado mais complexas para preservar a markovidade. Mais especificamente define-se uma cadeia markoviana de segunda ordem de maneira tal que o “estado” num dado momento qualquer seja o estado básico atual e o estado básico no período anterior. Assim, aumenta-se consideravelmente o número de estados, mas — nesse ponto — muitas das transições já não são possíveis. Mas é surpreendente a freqüência com que o sistema de estado de segunda ordem se revela quase markoviano. Contudo, se ele ainda não for satisfatório, pode ser necessário que alguns segmentos populacionais migrem para uma cadeia markoviana de terceira ordem, na qual o “estado” seja o estado atual e os dois anteriores apresentados pelo cliente. É muito provável que, assim, se atenda ao requisito de Markovidade, mas a matriz propriamente dita será extremamente esparsa. Se houver N estados básicos originais, apenas 1/N2 dos itens da matriz de transição serão diferentes de zero. Entretanto, para alguns segmentos altamente voláteis tem sido necessário modelar esse nível de complexidade.

Mesmo que se tenha atingido a markovidade por meio da segmentação e da definição cuidadosa de estados, os processos resultantes poderão ser não-estacionários, uma vez que as probabilidades de transição tendem a depender:

> da idade das contas s;

> do período de tempo t;

> de efeitos econômicos externos, como a taxa-base de juros, i.

Assim, se procurarmos estimar a probabilidade de transição pr jk (s,t,i), ou seja, a de que um cliente numa subpopulação r passe do estado j para o k, no período t, quando sua conta tiver a idade s e a taxa-base atual for i. Um modelo adotado foi definir as probabilidades de transição p jk (t,i) para 0 £ t £ T e 0 £ i £ I por meio de:

p jk (t,i) = p0 jk + ajk t + bjk i,

sendo

åk p0 jk = 1; åk a jk = 0; åk b jk = 0; p0 jk ³0 ;

p0 jk + ajk T + bjk i³0

Isso se encaixa bem com a realidade e os sinais de a e b fazem sentido no que se refere aos fatores que afetam a inadimplência. Uma alternativa é definir p jk (t,i) = exp{c jk + ajk t + bjk i}.

Conclusões

Este artigo faz uma revisão de algumas das novas metodologias de sistemas de credit scoring que têm sido sugeridas ou experimentadas em programas piloto. Sempre surgem novas sugestões — como, por exemplo, máquinas de suporte vetorial e modelagem indireta — o que demonstra o vigor do tema, na medida em que ainda vale a pena tentar desenvolver novas abordagens e novas áreas de aplicação.

Referências Bibliográficas

Aggarawal, A. Categorical data analysis, Wiley, New York, 1990.

Albright, H. T. Construction of a polynomial classifier for consumer loan applications using genetic algorithms, Working Paper, Department of Systems Engineering, University of Virginia, 1994.

Altman, E. I. “Financial Ratios, Discriminant Analysis and the prediction of corporate bankruptcy”, Journal of Finance,23, pp. 589-609, 1968.

Anderson, T. W; Goodman, L. A. Statistical Inference about Markov Chains, Ann. Math Statist, pp. 28, 89-109, 1957.

Banasik, J.; Crook, J. N; Thomas L. C. “Not if but when borrowers default”, J. Operational Research Society 50, pp.1.185-1.190, 1999.

Bierman Hausman, W. H. “The credit granting decision”, Management Science 16, pp. 519-532, 1970.

Boyle, M.; Crook, J. N.; Hamilton, R.; Thomas, L. C. “Methods for credit scoring applied to slow payers”, Credit scoring and credit control, Oxford University Press, Oxford, pp. 75-90, 1992.

Breiman, L.; Friedman, J. H.; Olshen, R. A.; Stone, C. J. Classification and regression trees, Wadsworth, Belmont, California, 1984.

Capon, N. “Credit scoring systems: a critical analysis”, J. Marketing 46, pp. 82-91, 1982.

Chang, K. C.; Fung, R.; Lucas, A.; Oliver, R.; Shikaloff. Bayesian Networks applied to credit scoring, Proceedings of Credit scoring and Credit Control V, Credit Research Centre, University of Edinburgh, 1997.

Chatterjee, S.; Barcun, S. A nonparametric approach to credit screening, J. American Statistical Assoc., pp. 65, 150-154, 1970.

Cox, D. R. Regression models and life-tables (with discussion), J. Royal Statistical Society, Series B, pp. 74, 187-220, 1972.

Cyert, R. M.; Davidson, H. J.; Thompson, G. L. “Estimation of allowance for doubtful accounts by Markov chains”, Management Science 8, pp. 287-303, 1962.

Desai, V. S.; Crook, J. N.; Overstreet, G. A. “A comparison of neural networks and linear scoring models in the credit environment”, European J. Operational Res. 95, pp. 24-37, 1996.

Desai, V. S.; Convay, D. G.; Crook, J. N.; Overstreet, G. A. “Credit scoring models in the credit union environment using neural networks and genetic algorithms”, IMA J. Mathematics applied in Business and Industry 8, pp. 323-346, 1997.

Durand, D. Risk elements in consumer instalment financing, National Bureau of Economic Research, New York, 1941.

Edwards, D. Introduction to graphical modelling, Springer-Verlag, New York, 1995.

Eisenbeis, R. A. “Pitfalls in the application of discriminant analysis in business, finance and economics”, J. of Finance 32, pp. 875-900, 1977.

Eisenbeis, R. A. “Problems in applying discriminant analysis in credit scoring models”, in J. Banking and Finance 2, pp. 205-219, 1978.

Fisher, R. A. “The use of multiple measurements in taxonomic problems”, Annals of Eugenics 7, pp.179-188, 1936.

Fix, E.; Hodges, J. Discriminatory analysis, nonparametric discrimination, consistency properties. Report No 4., Project No. 21-49-004, School of Aviation Medicine, Randolph Field, Texas, 1952.

Fogarty, T. C.; Ireson, N. S. “Evolving Bayesian classifiers for credit control”, IMA J. Mathematics Applied in Business and Industry 5, pp. 63-76, 1993.

Frydman, H.; Kallberg, J. G.; Kao, D. L. “Testing the adequacy of Markov chains and Mover-Stayer models as representations of credit behaviour”, in Operations Research 33, pp.1.203-1.214, 1985.

Fukanaga, K.; Flick, T. E. An optimal global nearest neighbour metric, IEEE Trans. Pattern ANAL Mach Intell., PAMI-1, pp. 25-37, 1984.

Hand, D. J. Discrimination and Classification, Wiley, Chichester, 1981.

Hand, D. J.; McConway, K. J.; Stanghellini, E. “Graphic models of applications for credit”, IMA J. Mathematics applied in Business and Industry 8, pp. 143-155, 1997.

Hand, D. J.; Henley, W. E. Statistical classification methods in consumer credit, J. Royal Stat. Soc., Series A, pp. 160, 523-541, 1997.

Hardy, W. E.; Adrian, J. L. A linear programming alternative to discriminant analysis, Abribus 1, pp. 285-292, 1985.

Henley, W. E. Statistical aspects of credit scoring, Ph.D. thesis, Open University, 1995.

Henley, W. E.; Hand, D. J. “A k-NN classifier for assessing consumer credit risk”, in The Statistician 65, pp. 77-95, 1996.

Joachimsthaler, E. A.; Stam, A. “Mathematical programming approaches for the classification problem in two-group discriminant analysis”, in Multivariate Behavioural Research 25, pp. 427-454, 1990.

Johnson, R. W. “Legal, social and economic issues implementing scoring in the US”, in Credit scoring and Credit Control ed L.C.Thomas, J.N.Crook, D.B.Edelman, Oxford University Press, Oxford, pp. 19-32, 1992.

Kryzanowski, W. J. Discrimination and classification using both binary and continuous variables, J. American Statistical Assoc. 70, pp. 782-790, 1975.

Lachenbruch, P. A. Discriminant analysis, Hafner Press, New York, 1975.

Lauritzen, S. L.; Wermuth, N. “Graphical models for association between variables some of which are qualitative and some quantitative”, in Ann. Stat. 17, pp. 51-57, 1989.

Lewis, E. M. An introduction to credit scoring, Athena Press, San Rafael, California, 1992.

Mangasarian, O. L. “Linear and nonlinear separation of patterns by linear programming”, in Operations Research 13, pp. 444-452, 1965.

Martell, T. F.; Fitts, R. L. “A quadratic discriminant analysis of bank credit card user características”, in J. Economics and Banking 33, pp. 153-159, 1981.

Narain, B. Survival analysis and the credit granting decision, in Credit scoring and Credit Control, Oxford University Press, Oxford, pp. 109-122, 1992. .

Nath, R.; Jackson, W. M.; Jones, T. W., “A comparison of the classical and the linear programming approaches to the classification problem in discriminant analysis”, in J. Statistical Computation and Simulation 41, pp. 73-93, 1992.

Quinlan, J. R. C4.5: Programs for Machine Learning, Morgan Kaufman, San Mateo, California, 1993.

Reichert, A. K.; Cho, C. C.; Wagner, G. M. “An examination of the conceptual issues involved in developing credit scoring models”, J. Business and Economic Statistics 1, pp. 101-114, 1983.

Rosenberg, E.; Gleit, A. “Quantitative methods in credit management: a survey”, Operations Research 42, pp. 589-613, 1994.

Safavian, S. R.; Landgrebe, D. A survey of decision tree classifier methodology, IEEE Trans. On Systems, Man and Cybernetics 21, pp. 660-674, 1991.

Sewart, P.; Whittaker, J. “Fitting Graphical Models to credit scoring data”, IMA J. Mathematics in Business and Industry 9, pp. 241-266, 1998.

Showers, J. L.; Chakrin, L. M. “Reducing revenue from residential telephone customers”, in Interfaces 11, pp. 21-31, 1981.

Spiegelhalter, D. J.; Dawid, A. P.; Lauritzen, S. L.; Cowell, R. G. “Bayesian analysis in expert systems”, in Statist Sci. 8, pp. 219-283, 1993.

Srinivasan, V.; Kim, Y. H. “Credit granting: a comparative analysis of classification procedures”, J. of Finance 42, pp. 665-683, 1987.

Stepanova, M.; Thomas, L. C. “PHAB Scores; Proportional hazards analysis Behavioural Scores”, in J. Operational Research Soc. 52, pp. 1.007-1.016, 2001.

Stepanova, M.; Thomas, L. C. “Survival analysis methods for personal loan data”, Operations Research 50, pp. 277-289, 2002.

Yobas, M. B.; Crook, J. N.; Ross, P. “Credit scoring using neural and evolutionary techniques”, Working Paper 97/2, Credit Research Centre, University of Edinburgh, 1997.


Lyn C. Thomas é professor de Management Science da School of Management University of Southampton UK e autor do livro “Credit Scoring and its Applications”.


  • 2012 Serasa Experian. Todos os direitos reservados.