Em artigos anteriores, discutimos diversas questões relacionadas ao desenvolvimento de modelos de risco de crédito, entre elas modelagem de PI (probabilidade de inadimplência) e de PCI (perda em caso de inadimplência), validação, testes de desgaste, tratamento dado a valores ausentes e os prós e contras do uso de redes neurais. Dedicamos pouco tempo ao luxo (e maldição) com que se deparam muitos analistas num mundo repleto de sistemas de gestão de risco da empresa: o excesso de dados. A maioria dos manuais universitários mal toca nesse assunto. E isso é compreensível, já que sua principal preocupação é que o aluno entenda as propriedades estatísticas associadas a cada uma das técnicas de modelagem e as importantes premissas em que se baseiam. Mas, uma vez compreendidas as questões teóricas, o analista terá que lidar com questões práticas que podem ser a chave para o sucesso ou o fracasso de qualquer projeto. E uma das principais dentre elas é o desafio da seleção de variáveis.
O artigo a seguir se divide de acordo com seis abordagens comuns freqüentemente associadas ao problema da seleção de variáveis. Embora a lista não seja exaustiva, deve dar ao leitor uma idéia das questões e de alguns dos prós e contras de cada abordagem.
Métodos de Correlação
Um dos métodos mais diretos de reduzir o número de preditivas em um problema de regressão talvez seja criar alguns critérios de filtragem por regras através de correlações bivariadas e casadas. Na análise de regressão, é preciso ter cuidado para não incluir duas ou mais variáveis preditivas fortemente correlacionadas se quisermos determinar a verdadeira contribuição de cada uma delas para a variável dependente. Se as preditivas estiverem por demais relacionadas entre si, pequenas mudanças dos dados podem redundar em grandes variações dos coeficientes — resultando até mesmo em erros de sinal. Na literatura estatística isso é chamado de multicolinearidade. Uma regra de dedo afirma que a multicolinearidade tende a ser um problema se a correlação aritmética entre duas variáveis for maior do que a existente entre qualquer uma delas e a variável dependente1.
Para usar esse método de redução de variáveis, calculamos a correlação de cada variável preditiva com a outra (correlações casadas) e com a variável dependente (correlações bivariadas). Embora esses cálculos possam ser feitos em segundos por qualquer pacote de software estatístico e apresentados sob a forma de matriz de correlação, talvez seja necessário escrever um programa especial para extrair os membros e filtrá-los por meio de algumas regras pré-estabelecidas. Começamos por estabelecer um limite de correlação casada (digamos, por exemplo, 0,65) e eliminar todas as variáveis que reflitam informações duplicadas.
Na Tabela 1, VAR1 e VAR3 são variáveis preditivas que seriam consideradas por demais colineares (correlação = 0,72) segundo nossa regra de correlação de 0,65. Como não queremos incluir as duas variáveis no modelo, escolhemos apenas aquela com maior correlação com a variável dependente (DEPV). Nesse caso, VAR1 vence, com correlação de 0,23 com a variável dependente (contra a correlação de -0,21 de VAR3). Usando essa técnica, podemos eliminar cada vez mais variáveis antes do estágio de regressão, reduzindo o limite de 0,65 para, por exemplo, 0,55 e assim por diante.
Embora esse procedimento possa ser de fácil implementação, oferece uma visão simplista da seleção de variáveis. Não incorpora testes de significância estatística e trata apenas de um par de variáveis por vez. Em certo ponto é preciso considerar uma abordagem mais multivariada.
Procedimentos de Seleção Automática
Uma das boas coisas que os computadores nos oferecem é a capacidade de automatizar muitos procedimentos que tomariam muito tempo dos analistas. Um desses procedimentos é encontrado na maioria dos pacotes de regressão estatística: a seleção stepwise. Esse procedimento — ou conjunto de procedimentos — enfrenta uma das dificuldades do método de seleção de variáveis por correlação: avaliar correlações aritméticas isoladas e não coletivamente. Na verdade, há muitas variações desse procedimento — seleção avançada, retro-seleção e seleção de melhores subconjuntos, para indicar apenas algumas.
A técnica de seleção avançada começa sem quaisquer variáveis no modelo de regressão. Para cada uma das variáveis preditivas candidatas, o método calcula estatísticas F que refletem a contribuição que a variável traria para o modelo se fosse usada. A técnica de retro-seleção começa calculando as estatísticas F de um modelo com todas as variáveis preditivas. Em seguida, as variáveis são eliminadas uma a uma da regressão, até que todas as variáveis remanescentes tenham estatística F superior a um dado limite de corte. O método stepwise é uma variante da técnica de seleção adiante, que difere porque as variáveis que já se encontram no modelo não permanecem nele necessariamente. Como no método de seleção avançada, as variáveis são acrescentadas uma a uma com base na estatística F. Uma vez acrescentada uma variável, o método stepwise avalia as variáveis presentes no modelo e remove quaisquer que não atinjam o critério de corte. Na prática, o analista pode colocar centenas, ou até milhares, de variáveis nesses procedimentos de regressão stepwise, deixando que o software produza um conjunto mais exíguo de variáveis aprovadas.
Embora esses procedimentos existam há décadas, há um considerável número de oponentes na literatura2. Alguns dos comentários negativos a respeito dessas técnicas de seleção de variáveis são:
• Os valores de R2 são artificialmente elevados;
• A seleção de variáveis é fortemente dependente das correlações entre as preditivas;
• Os erros-padrão dos coeficientes de regressão são artificialmente baixos;
• Evita a necessidade de teoria fundamental ou bom entendimento dos dados;
• Quanto maior o número de variáveis candidatas, maior a interferência a que o modelo final pode estar sujeito.
Dentre essas objeções, duas são especialmente dignas de nota. Em primeiro lugar, um excesso de correlação entre as variáveis preditivas pode levar a um conjunto final abaixo do ideal. Assim, uma solução parcial para esse problema é fazer uma filtragem casada (como vimos anteriormente) das correlações casadas elevadas antes de usar técnicas de seleção stepwise. Muitas vezes, usar um limite de corte de 0,75 ou mais ajuda. Os econometristas, que se concentram na construção de modelos estatísticos a partir de tendências econômicas, enfatizam a necessidade de compreender adequadamente os dados e os comportamentos teóricos em que se apóiam. Por exemplo, se o preço do produto for uma das variáveis explicativa da receita de vendas, então o sinal do coeficiente deve ser negativo. Usar um procedimento de seleção automática pode, freqüentemente, conferir ao analista uma falsa sensação de segurança a respeito da aceitabilidade do modelo. Mas, bem usadas, essas técnicas podem ajudar o analista a atingir os prazos de seus projetos.
Principais Componentes
Como vimos, lidar com o problema da correlação entre um enorme número de variáveis potencialmente preditivas é o principal obstáculo à seleção de variáveis. Uma técnica concebida para lidar com essa questão vem sendo usada há anos por pesquisadores e analistas dos campos da psicologia e das ciências sociais — a análise de componentes principais (ACP)3. A diferença entre essa técnica e a análise de regressão é que a primeira não envolve variável dependente. A ACP examina apenas as variáveis preditivas que pretendemos introduzir no arcabouço de regressão. O objetivo da análise de principais componentes é identificar um conjunto reduzido de dimensões (fatores) que melhor explique a estrutura de correlações dos dados, admitindo que haja sobreposição substancial. Por exemplo, se tivermos 500 variáveis em potencial que refletem dados de diversos relatórios financeiros, então as dimensões reduzidas podem representar um pequeno número de fatores, como lucratividade, porte, idade, setor etc. A idéia é usar essas informações de duas maneiras: a) como ferramenta exploratória para melhor entender os dados ou b) usar esses fatores (principais componentes) de alguma maneira direta na regressão.
A análise de principais componentes analisa as candidatas a variáveis preditivas e as “descorrelaciona” por meio de uma série de transformações lineares. O processo cria o primeiro fator, selecionando um conjunto de pesos da estrutura de correlação entre todas as variáveis originais, através de transformações lineares que expliquem o maior nível de variação dos dados (espaço preditivo). Em seguida, é criado um conjunto de pesos que explique o segundo maior nível de variação dos dados — com a condição de ausência de correlação com o primeiro conjunto. Assim, se tivermos 100 variáveis originais a APC criaria 1090 fatores que, somados, explicariam 100% da variação do espaço preditivo. Uma vez concluído o processo, uma das práticas é abandonar os fatores de maior ordem, que contribuem pouco para a variância explicada em geral (resultado da colinearidade ou de duplicidade de informações). Se começarmos com 100 variáveis, não raro descobrimos que apenas os primeiros cinco ou dez fatores (componentes principais) são necessários para explicar 95% do total do conteúdo informacional dos dados.
Como já vimos, a APC não procura analisar uma variável “dependente”, como seria o caso em uma regressão. Uma maneira de fornecer esse elo necessário seria usar os próprios componentes principais (fatores) resultantes como variáveis preditivas. A vantagem dessa abordagem está em que os componentes principais, por sua própria natureza, não estão correlacionados. Isso pode ser feito de duas maneiras. Primeiro, poderíamos inserir todos os fatores numa regressão stepwise e deixar o algoritmo reduzir o conjunto de candidatas. Mas ainda haverá questões estatísticas quanto a essa técnica de redução de variáveis. Alternativamente, poderíamos abandonar os fatores que contribuem pouco para a variância explicada total, como já vimos. Nesse caso, acabaríamos com um conjunto muito menor de fatores potencialmente preditivos. Outra vantagem é que esse processo pode ser concluído muito rapidamente com softwares como SAS®, SPSS®, ou muitos outros pacotes estatísticos.
Mas há um problema. Durante o processo de transformação linear, a variável dependente não foi considerada. Assim, o processo pode eliminar involuntariamente dimensões fatoriais que poderiam trazer uma contribuição importante para explicar a variável preditiva. Essa desvantagem, juntamente com o fato de que é difícil explicar o que significam os valores dos principais componentes, resulta em que essa técnica não é tão usada no setor de crédito quando em outros campos.
Agrupamento de Variáveis
Embora a APC tradicional não tenha conseguido se firmar na área de risco, uma de suas variantes tem ganhado popularidade nos últimos anos — o agrupamento de variáveis4. Ao lidar com centenas ou milhares de variáveis candidatas a um modelo de regressão, o agrupamento de variáveis procura identificar um conjunto de agrupamentos de variáveis cujos membros se assemelhem aos demais do mesmo agrupamento e difiram dos encontrados nos demais agrupamentos (Figura 1).
O software SAS oferece um procedimento chamado PROC FASTCLUS para realizar esse tipo
de análise5. Com uma enorme variedade de opções e configurações disponíveis para permitir que o usuário faça o ajuste fino da análise, um procedimento de agrupamento de variáveis pode ser realizado e usado como ferramenta para recomendar candidatas em potencial para o modelo de regressão.
Quando temos acesso a muitos dados, podemos nos ver às voltas com mais de 1.500 variáveis de crédito. Com tão vasto espaço preditivo, é quase certo que haja problemas de multicolinearidade. Então, que variáveis seriam as melhores candidatas para a regressão? Dada a estrutura de correlações dos dados, um procedimento de agrupamento de variáveis poderia 1) proporcionar uma estimativa informada do número de agrupamentos e 2) indicar que variáveis escolher dentre as de cada agrupamento. A Figura 2 ilustra com um exemplo extraído do software SAS.
A Figura 2 mostra que foram recomendados quatro agrupamentos de variáveis. O agrupamento 1 tem quatro membros — VAR7, VAR8, VAR11 e VAR19. Deste grupo, estamos interessados na variável mais correlacionada com
“seu próprio agrupamento” (VAR8, 0,9383) e menos correlacionada com o agrupamento mais próximo (VAR19, 0,0005). Observe que a medida estatística apresentada na última coluna da Figura 2, “1-R**2 ratio”, combina essas informações numa só medida que pode ser usada para selecionar a melhor candidata de acordo com os dois critérios. Para os fins de regressão, o analista poderia escolher em cada agrupamento a variável com o menor índice para ser usada como candidata a variável preditiva no modelo. Nesse exemplo, VAR8, VAR9, VAR12 e VAR16 seriam as recomendadas. Se houver necessidade de mais variáveis, o analista poderia tomar duas variáveis de cada agrupamento — as duas de menor índice. Mas quaisquer variáveis selecionadas durante o processo que não façam sentido intuitivo devem ser descartadas.
As vantagens dessa metodologia são:
• Velocidade do cálculo;
• Não há necessidade de interpretação — ou seja, não são usados os principais componentes propriamente ditos;
• O número de agrupamentos pode ser determinado automaticamente;
• Questões de elevada correlação são tratadas automaticamente.
Mínimos Quadrados Parciais
O último dos métodos de cálculo discutidos nesse artigo é um procedimento matemático criado por Herman Wold na década de 1960 e aprimorado por diversas pessoas nos anos 80 e 90, inclusive pelo próprio Wold. Em essência, o procedimento, conhecido como, mínimos quadrados parciais (MQP), começa onde termina a análise de principais componentes, ao mesmo tempo levando em conta mudanças da variável dependente e tentando extrair os fatores que representem a máxima correlação singular dos atributos preditivos6. Isso é freqüentemente descrito como um procedimento supervisionado de redução da dimensionalidade dos dados por causa da ligação necessária com a variável dependente. Do ponto de vista histórico, a técnica tem sido usada em aplicações industriais como análise quimiométrica, onde o analista muitas vezes defronta-se com mais atributos explicatórios do que dados observados. Com o rápido avanço do software e da tecnologia computacional nos últimos 10 anos, esse tipo de análise está começando a chegar a outros campos, como o de pesquisa de mercado7, risco de crédito e previsão econométrica.
O algoritmo original dos mínimos quadrados parciais envolvia cálculos que abrangiam diversas variáveis dependentes e um sem-número de atributos preditivos em potencial. As contribuições de Jong8 e a implementação no software SAS (SIMPLS) aumentaram a eficiência do método, limitando-o a uma só variável dependente. A Figura 3 mostra como a técnica produz um equilíbrio, considerando a variação do espaço preditivo (ver “Efeitos do Modelo”) e da variável visada (“Variáveis Dependentes”).
A Figura 3 é um exemplo hipotético em que temos cinco variáveis representadas por cinco fatores de MQP. Observe que quatro dos fatores explicam 87% da variação do espaço preditivo, mas apenas 61,9 da variação da variável dependente. Ao contrário da APC
clássica, o MQP fornece um elo com a variável dependente, o que o faz potencialmente mais útil no desenvolvimento de modelos de risco ou de marketing. Embora a formulação acima representada do SAS use uma abordagem por regressão linear, foram desenvolvidas técnicas em outros pacotes de software para realizar o mesmo procedimento com regressão logística. Se for aceitável usar os fatores transformados em vez das variáveis originais, será preciso decidir com quantos fatores ficar. A recomendação da maioria da literatura é usar o desempenho do modelo, em um processo de validação cruzada (amostra de reserva) para tomar essa decisão. Isso pode ser calculado automaticamente em pacotes como o SAS, fazendo com que o processo de seleção seja rápido.
Se a decisão for a de não usar os fatores de MQP diretamente na regressão, mas, sim, usar as variáveis preditivas em sua forma original, empregar o critério IVP (Importância da Variável para a Projeção) pode ser um meio promissor de obter recomendações para seleção de variáveis9. Preditivas com baixos coeficientes de regressão de MQP (em termos absolutos) contribuirão pouco para a previsão. Enquanto esses coeficientes representam a importância de cada preditiva para a previsão apenas da variável dependente, a IVP representa o valor de cada preditiva para a adequação do modelo de MQP tanto às preditivas quanto ao resultado. Se uma preditiva tiver coeficiente relativamente baixo (em valor absoluto) e baixo valor de IVP, será forte candidata à eliminação. WOLD (1994) considerou um valor inferior a 0,8 “baixo” para a IVP. Assim, o analista poderia selecionar um subconjunto das variáveis originais para a regressão com base no critério de IVP. Partindo de simulações Monte Carlo, o procedimento MQP demonstrou resultados promissores, embora ainda precise de muita pesquisa.
Um resultado surpreendente é o de que a regressão por mínimos quadrados parciais localmente ponderada oferece os melhores resultados médios, com desempenho superior até mesmo ao da análise fatorial, que, teoricamente, é a mais atraente das nossas técnicas candidatas10.
Finalmente, surgiram nos últimos anos alguns trabalhos interessantes com análise de sensibilidade de MQP como alternativa para seleção de variáveis11. Com a introdução de uma variável aleatória num procedimento iterado, é possível estabelecer um processo de filtragem que permite selecionar as variáveis que demonstrem maior sensibilidade relativa. Nesse contexto, a sensibilidade é definida como a variação absoluta máxima da previsão de MQP quando cada atributo é variado em relação a sua faixa amostral, mantidas constantes todas as demais variáveis em seus valores médios ou medianos.
Últimas Observações
Com os recentes avanços da computação, os analistas contam com diversos métodos de seleção de um conjunto de variáveis candidatas a partir de um espaço preditivo muito grande, para uso numa análise de regressão. Esses métodos vão dos simples aos complexos, da análise de correlações básicas à determinação da estrutura da matriz de correlação como um todo. O procedimento automático de seleção de variáveis mais freqüentemente utilizado talvez seja a regressão stepwise. Infelizmente, essa técnica está cheia de armadilhas reiteradamente documentadas na literatura estatística e que podem levar a modelos preditivos potencialmente inferiores ao desejável. Outras técnicas, como o agrupamento de variáveis, oferecem abordagens agradáveis baseadas em variantes da análise de principais componentes. Técnicas mais avançadas como a dos mínimos quadrados parciais, combinam as vantagens dos principais componentes com a análise de regressão, oferecendo ao analista uma ferramenta em potencial para substituir ou complementar seu método atual de seleção de variáveis. Embora não tenha sido discutida aqui, uma abordagem Bayesiana à seleção de variáveis pode ser o próximo passo na tecnologia de seleção de variáveis12, mas, como o MQP, esse método também precisa ser mais desenvolvido e implementado na estrutura de software adequada.
Referências
1.PINDYCK, Robert S. e RUBINFELD, Daniel L. Econometric Models and Econometric Forecasts. 2a edição, 1981, McGraw-Hill, Inc.
2.THOMPSON, B. Significance, effect sizes, stepwise methods, and other issues: Strong arguments move the field. Journal of Experimental Education., 70, 80-93.
3.HAIR, Anderson, TATHAM e BLACK. Multivariate Data Analysis, Quarta Edição, Prentice Hall, Inc. 1995.
4.SIDDIQI, Nadeem. Credit Risk Scorecards — Developing and Implementing Intelligent Credit Scoring. 2006. John Wiley & Sons, Inc.
5.NELSON, Bryan D. Variable Reduction for Modeling Using PROC VARCLUS. Fingerhut Companies Incorporated, Minnetonka, MN.
6.TOBIAS, Randall D. An Introduction to Least Minimum Squares Regression. SAS Institute., Cary, NC.
7.GRABER, Stephanie, CZELLAR, Sandor e DENIS, Jean-Emile. Using Least Minimum Squares Regression in Marketing Research. University of Geneva, Dezembro de 2002.
8.DE JONG, S. An alternative approach to least minimum squares regression. Chemometrics and Intelligent Laboratory Systems, 18, 251-263.
9.CHONG, IL-Gyo & JUN, Chi-Hyuck. Performance of Some Variable Selection Methods When Multicollinearity is Present. Dezembro de 2004. Department of Industrial Engineering, Pohang University of Science and Technology.
10.SCHAAL, Stefan, SETHU, Vijayakumar e ATKESON, Christopher. Local Dimensionality Reduction. Advances in Neural Information Processing Systems 10. Cambridge, MA: MIT Press.
11.ARCINIEGAS, Fabio A. e EMBRECHTS, Mark J. Selecting Regressors with Least Minimum Squares Sensitivity Analysis: An Application to Currency Crises’ Real Effects. Latin American and Caribbean Economic Conference, 11 de Outubro de 2002, Madri, Espanha.
12.GERLACH, R., BIRD, R. e HALL, A. A Bayesian Approach to Variable Selection in Logistic Regression with Application to Predicting Earnings Directed from Accounting Information. School of Finance and Economics, University of Technology, Sydney, Austrália.
SAS é marca registrada do SAS Institute Inc. nos Estados Unidos e outros países.
SPSS é marca registrada da SPSS Inc.
©Jeffrey S. Morrison é gerente sênior da TransUnion, LLC em Atlanta, Geórgia, onde lidera a função de Pesquisa e Desenvolvimento de análises. A TransUnion, LLC constrói soluções de modelagem para aplicações de risco de crédito e marketing, além de oferecer seus produtos centrais de credit bureau. Jeffrey publicou mais de 25 artigos em periódicos do setor nos últimos 20 anos e foi palestrante em diversas conferências sobre previsão em todos os Estados Unidos. Jeffrey ganhou recentemente o prêmio de “Melhor Série” do RMA Journal por seus artigos sobre análise e sobre o Novo Acordo de Capital da Basiléia.Os contatos com Morrison podem ser feitos no endereço m_jeffer@bellsouth.net