13 de julho de 2021

REGRESSÃO, FACEBOOK E A CAMBRIDGE ANALYTICA


O jornal Guardian descobriu que, com o financiamento da SCL, uma empresa criada por Alex coletou dados do Facebook e respostas de questionários de 200.000 cidadãos americanos. E isso representa apenas o número de pessoas que eles entrevistaram diretamente. Como a forma com que a plataforma do Facebook operava na época permitia o acesso às “curtidas” dos amigos das pessoas que se voluntariaram para o estudo e que consentiram o acesso aos dados de seus amigos, a SCL tinha no total dados de mais de 30 milhões de pessoas. Esse era um conjunto de dados imenso que fazia, potencialmente, um retrato da personalidade política de muitos americanos. O CEO da Cambridge Analytica, Alexander Nix, (...) explicou como, em vez de selecionar pessoas com base em raça, gênero ou formação socioeconômica, sua companhia conseguia “prever a personalidade de cada um dos adultos nos Estados Unidos da América.” A eleitores bastante conscienciosos e neuróticos poderia ser direcionada a mensagem de que “a segunda emenda era uma apólice de seguros”. Eleitores tradicionais e cordatos seriam informados de como “o direito de portar armas era importante e deveria ser transmitido de pai para filho”. Ele afirmou que conseguia usar “centenas e milhares de pontos de dados individuais em nossas audiências selecionadas para compreender exatamente quais mensagens teriam afinidade com quais audiências” e sugeriu que os métodos que ele havia descrito estavam sendo utilizados na campanha de Trump.

A origem da Cambridge Analytica apresenta todos os ingredientes de uma história de conspiração moderna. Ela envolve Ted Cruz, Donald Trump, 'segurança de dados, psicologia da personalidade, o Facebook, trabalhadores mal pagos do Turco Mecânico, Big Data, acadêmicos da Universidade de Cambridge, o populista de direita 'Steve Bannon, que faz parte da diretoria, o financiador de direita Robert Mercer, que é um dos seus maiores investidores, o ex-conselheiro de segurança nacional Michael Flynn, que já atuou como consultor, e (em uma versão menos confiável desta história) trolls financiados pela Rússia. (...). 

Quando me concentrei nos detalhes dos modelos usados para prever padrões de voto, percebi que um ingrediente importante estava faltando: o algoritmo. Eu queria conferir se as afirmações de Nix sobreviveriam ao escrutínio. Não tenho acesso aos dados coletados por Alex Kogan, (...) mas Michal Kosinski e seus colegas criaram um pacote tutorial que permite a estudantes de psicologia praticar a criação de modelos de regressão em um banco de dados anônimo de 20.000 usuários do Facebook. Eu baixei o pacote e o instalei no meu computador. Apenas 4.744 dos 19.742 usuários do Facebook residentes nos Estados Unidos no banco de dados expressou a preferência por democratas ou republicanos. Destes, 31% eram republicanos. Na ocasião da coleta de dados, entre 2007 e 2012, os democratas se destacavam no Facebook. Usei os dados para ajustar um modelo de regressão com as 50 dimensões do Facebook como input. O resultado do modelo de regressão é a probabilidade de que uma pessoa seja republicana.

Após ajustar o modelo aos dados, o próximo passo é testar sua performance. Uma boa maneira de testar a acurácia de um modelo de regressão é selecionar duas pessoas aleatoriamente, um democrata e um republicano, e pedir ao modelo que preveja qual dos dois é o republicano a partir do seu perfil do Facebook. Esta é uma medida intuitiva de acurácia. Imagine que você encontrasse essas duas pessoas e pudesse fazer-lhes algumas perguntas sobre seus gostos e hobbies, e, a partir das respostas, você tivesse que determinar qual pessoa apoiava qual partido político. Com que frequência você acha que acertaria?

A acurácia de um modelo de regressão baseado nos dados do Facebook é muito boa. Em oito de nove tentativas o modelo de regressão identificou corretamente as visões políticas do usuário do Facebook. O principal grupo de curtidas que identifica um democrata inclui o casal Barak e Michelle Obama, a Rádio Pública Nacional, TED Talks, Harry Potter, a página da internet I Fucking Love Science e shows de variedades atuais liberais como The Colbert Report e The Daily Show. Os republicanos curtem George W. Bush, a bíblia, música country e acampar. Não é nenhuma surpresa que os democratas curtam os Obama e The Colbert Report ou que muitos republicanos curtam George W. Bush e a bíblia. Então, eu tentei ver se conseguia quebrar o modelo de regressão retirando algumas das “curtidas” óbvias do modelo e executar uma nova regressão. Para meu espanto, o modelo continuou funcionando com 85% de acurácia, com apenas uma ligeira redução em performance. Agora ele utilizava combinações de curtidas para determinar as filiações políticas. Por exemplo, alguém que curta Lady Gaga, Starbucks e música country se encaixa mais provavelmente como republicano, mas um fã de Lady Gaga que também gosta de Alicia Keys e Harry Potter se encaixa mais provavelmente como um democracia. É aí que a compreensão multidimensional, obtida com a utilização de muitas “curtidas”, produz resultados inesperados e úteis.

Este tipo de informação poderia ser bastante útil para um partido político. Em vez de os democratas direcionarem sua campanha apenas para a média liberal tradicional, eles poderiam se dedicar a obter os votos dos fãs de Harry Potter. Os republicanos poderiam alvejar pessoas que bebem café na Starbucks e pessoas que acampam. Os fãs de Lady Gaga deveriam ser tratados com cautela por ambas as partes. Apesar de ser difícil fazer uma comparação direta, a acurácia de um modelo de regressão baseado no Facebook parece vencer os métodos tradicionais. (...)  Mas, antes de nos empolgar, vamos olhar com mais atenção para as limitações. Em primeiro lugar, há uma limitação fundamental nos modelos de regressão. Lembre-se de que o resultado de algoritmos não é binário. (...) Não podemos esperar que um modelo revele suas visões políticas com 100% de certeza. (...) O melhor que os analistas conseguem fazer é usar um modelo de regressão que atribui uma probabilidade sobre você ter uma visão em particular.

Enquanto os modelos de regressão funcionam muito bem para democratas ou republicanos convictos, (...) as predições sobre estes eleitores não são particularmente úteis em uma campanha política. Os votos dos simpatizantes partidários são mais ou menos garantidos, e não é preciso tê-los como alvo. Na verdade, o modelo de regressão que ajustei com os dados do Facebook não revelam nada sobre os 76% das pessoas que não registraram sua fidelidade política. Se, por um lado, os dados nos mostram que os democratas tendem a gostar de Harry Potter, por outro lado, eles não necessariamente nos dizem que outros fãs de Harry Potter gostam dos democratas. Este é o problema clássico inerente a todas as análises estatísticas; de uma possível correlação confusa, sem causa. Uma segunda limitação diz respeito ao número de "curtidas" necessárias para se fazer uma predição. O modelo de regressão só funciona quando uma pessoa deu mais de 50 "curtidas" e, para que esta predição seja realmente confiável, algumas centenas de "curtidas" são necessárias. No conjunto de dados do Facebook, apenas 18% dos usuários "curtiram" mais de 50 páginas. Após a coleta desses dados, o Facebook conseguiu aumentar o número de páginas que seus usuários "curtem", exatamente para que possa melhorar o direcionamento da propaganda. Mas ainda há muitas pessoas, inclusive eu, que não "curtem" muito no Facebook. (...) Não importa quão boa seja uma técnica de regressão, um modelo não consegue funcionar sem dados.

David Sumpter (Dominados Pelos Números; págs: 52, 53, 54, 55 e 56)

Nenhum comentário: