14 de junho de 2019

COMO OS ALGORITMOS NOS CLASSIFICAM


O gigante da mídia social era o melhor lugar para se começar a investigar como os algoritmos nos classificam. Eu precisava começar analisando algo que tinha certeza de que entendia completamente: minha própria vida social. (...) Escolho 32 dos meus amigos no Facebook e analiso suas 15 publicações mais recentes. Classifico cada publicação em uma das 13 categorias mais comuns: família/parceiro, atividades ao ar livre, trabalho, piadas/memes, produtos/propaganda, política/notícias, música/esporte, cinema, animais, amigos, eventos locais, pensamentos/reflexões, ativismo e estilo de vida. Depois construo uma matriz com 32 linhas e 13 colunas numa planilha, na qual eu preencho o número de vezes que meus amigos fizeram um tipo particular de publicação. (...) Um pequeno grupo dos meus amigos se encaixou na categoria de publicar basicamente sobre trabalho, enquanto outros ficaram na categoria das postagens de família. Mas alguns publicaram sobre ambos os tópicos enquanto vários não abordaram muito nenhum dos dois. Cada categoria de publicação pode ser considerada uma dimensão do espaço, sendo que mostrei duas: a primeira dimensão é a de postagens sobre trabalho e a segunda é a sobre família. Mas eu poderia considerar uma terceira dimensão, a de publicações sobre atividades ao ar livre, uma quarta dimensão, a de política/notícias, e assim por diante. Cada um dos meus amigos corresponde a um único ponto deste espaço 13-dimensional. (...).

Pude perceber que, para as pessoas que fazem postagens sobre estilo de vida, como alimentação e viagens, é incomum publicar também sobre política/notícias. Esses dois interesses estão correlacionados negativamente: amigos que compartilharam fotos de um restaurante recém-visitado tenderam a não dar opinião sobre temas atuais. Outros tipos de publicações são correlacionados positivamente: meus amigos que escreveram sobre música, cinema e esporte também tenderam a compartilhar piadas e memes. A comparação de dados em pares começa a nos dar uma noção dos padrões existentes em um conjunto de dados 13-dimensional, mas esta não é uma abordagem particularmente sistemática. (...). Gostaria de ter uma maneira de classificar sistematicamente a intensidade dessas relações: descobrir quais são as mais importantes e quais capturam melhor as diferenças entre meus amigos. Apliquei aos dados dos meus amigos um método conhecido por análise de componentes principais (ACP). O ACP é um método estatístico que rotaciona meu conjunto original de dados 13-dimensional, em que cada categoria de publicação é uma única dimensão, para revelar as relações mais importantes entre as publicações. A primeira componente principal, a relação que faz a correlação mais forte entre os dados, é uma reta que passa, no sentido positivo, pelas dimensões família/parceiro, estilo de vida e amigos, enquanto passa, no sentido negativo, pelas dimensões piadas/memes, política/notícias e trabalho. Essa é a relação mais importante que distingue meus amigos. Alguns gostam de publicar sobre o que têm feito no âmbito pessoal e outros gostam de compartilhar o que acontece no mundo e no trabalho.

A segunda relação mais importante entre os dados distingue trabalho de passatempos e interesses: passando, no sentido positivo, por trabalho e estilo de vida e, no sentido negativo, por música/esporte/cinema, política/notícias e outras publicações sobre cultura. Matematicamente, a segunda componente principal é a reta que está mais próxima dos pontos e que é perpendicular à primeira componente principal. Em 13 dimensões, é difícil visualizar o traçado de retas e a rotação de dados, mas determinar as retas e realizar as rotações são tarefas bastante simples para um computador. (...) O que mais me surpreendeu foi a profundidade com que essa classificação capturou similaridades e diferenças genuínas entre meus amigos. Lembre-se de que não informei ao algoritmo ACP como eu queria categorizar as pessoas. Forneci um conjunto amplo de 13 categorias que o ACP reduziu às duas dimensões mais pertinentes: público versus pessoal e cultura versus local de trabalho. E essas dimensões fazem sentido - as diferenças mais importantes entre meus amigos realmente se enquadram nessas dimensões.

David Sumpter (Dominados Pelos Números; págs: 28, 29, 30, 31, 32 e 34)

Nenhum comentário: