Até onde chega nossa pegada digital? Sabemos do rastro deixado por nossas participações nas redes sociais ou por qualquer conteúdo que publiquemos em algum lugar acessível —ou não tão acessível— da internet. Mas as contribuições que fazemos nesses fóruns estão aí para todo mundo ver. Modulamos seus conteúdos levando em conta uma ideia aproximada de quem os consumirá e a imagem que queremos transmitir. Já as plataformas de mensagens instantâneas, como o WhatsApp, são farinha de outro saco: “Nas mensagens privadas você se revela mais, não só no conteúdo, mas também na forma como usa a linguagem”, explica Timo Koch, pesquisador de departamento de Psicologia da Universidade de Munique (Alemanha).
Depois de analisar um conjunto de mais de 300.000 mensagens do WhatsApp e treinar um algoritmo capaz de reconhecer a idade e gênero de seus autores, Koch e sua equipe advertem que o experimento deixa clara a importância de preservar a privacidade nesses espaços. “A criptografia de ponta a ponta é um importante primeiro passo. Mas além disso precisamos estar bem informados, e que as plataformas sejam transparentes e acrescentem etiquetas quando a informação não estiver cifrada”, propõe o especialista.
As preocupações de Koch e sua equipe foram avivadas pela tendência das redes sociais a favorecerem cada vez mais o uso de espaços de mensagens privadas. “O Facebook está mudando o foco para essas conversas, e provavelmente vai querer usar os dados, então precisamos ter uma conversa sobre como queremos proteger essas mensagens e assegurar que, se forem marcadas como privadas, de fato sejam”.
Quantas mensagens são necessárias para nos identificar? Depende de qual parte do processo estamos considerando. Koch e sua equipe basearam seu algoritmo nos conteúdos do What’s up, Deutschland?, um corpus de 451.938 conversas do WhatsApp cedidas por 495 voluntários alemães. Depois de excluir as interações muito breves e os casos onde não havia informações sobre idade e gênero dos interlocutores, restaram 226 indivíduos, 309.229 mensagens, 1.949.518 palavras. Para fazer as avaliações, usaram ainda menos.
Estudos semelhantes que aproveitavam as redes sociais como fonte dos conteúdos basearam sua análise em grandes amostras de texto com dezenas de milhões de palavras fornecidas por dezenas de milhares de voluntários. Mas se o novo estudo é menos abrangente, ganha na qualidade dos dados e na forma mais íntima como os usuários se expressam nesses ambientes. “O fato de termos um conjunto de dados tão pequeno e nossas previsões funcionarem nos dá uma pista de quanto mais se poderia fazer. Nossos resultados deveriam ser considerados como um mínimo”, afirmam os autores.
Uma vez treinado o algoritmo, basta uma amostra de 1.000 palavras para obter uma classificação de gênero e idade com razoável precisão. Para poder quantificar esta cifra, fizemos uma contagem de palavras numa conversação moderadamente ativa entre duas pessoas: três dias de diálogo deixam como rastro um pouco mais de 1.000 palavras. Apesar de tudo, os pesquisadores reconhecem que com uma base de dados maior o potencial da análise seria muito superior. “Se pensarmos em análise de personalidade ou outras características necessitaríamos mais informação, porque há diferenças mais sutis”, observa Koch. “Quando você tem um bom modelo, fazer uma predição é questão de segundos.”
Diz-me quem és, e te direi como zapeias
Esta identificação é possível porque nossa maneira de nos expressarmos no WhatsApp segue padrões demográficos. De acordo com os conteúdos do What’s up, Deutschland?, os usuários mais jovens usam mais emoticons e se expressam em primeira pessoa com mais frequência. Essa característica, já observada no estudo de conteúdos publicados em outras plataformas, parece confirmar que nos tornamos menos individualistas com a idade.
No que diz respeito ao gênero, Koch e sua equipe encontraram um uso maior e mais variado dos emojis por parte das mulheres, que também recorrem mais aos pronomes da primeira pessoa do singular. No caso dos homens, destaca-se o uso de uma linguagem mais coloquial e maior frequência das referências ao consumo de álcool.
Koch não descarta que tenham ocorrido pequenas evoluções no modo como nos expressamos nesses ambientes. Não por acaso, os conteúdos do conjunto de dados usados no seu estudo foram compilados entre novembro de 2014 e janeiro de 2015. Formatos como os stickers, incorporados em 2018 —embora já estivessem em outros aplicativos, como o Line— ou o acesso direto aos gifs poderiam ter introduzido certas variações.
Mas acessar um corpus mais amplo e atualizado não é fácil, ao menos do entorno acadêmico. “Uma grande empresa tecnológica tem acesso a muitos mais dados”, aponta. Fontes de informação mais ricas e recentes permitiriam, por exemplo, fazer análises mais complexas da personalidade dos usuários ou estudar como varia o modo como nos abrimos através das mensagens privadas, em contraste com o que compartilhamos nas redes sociais, em diferentes culturas e contextos nacionais.
Outra limitação que se dá fora dos países falantes de inglês é o idioma. O predomínio do inglês no desenvolvimento dos sistemas de processamento da linguagem implica que a maioria das ferramentas disponíveis está nessa língua. “Tivemos que treinar nossos próprios modelos. Cada idioma é diferente e tem seus próprios sinais”, diz Koch.
Vistas as orelhas do lobo, deveríamos medir mais a sinceridade das conversas que mantemos em aplicativos de mensagens privadas? Para Koch, atualmente isso depende de quanto peso demos à privacidade em contraste com a comodidade. “Há algumas boas alternativas, como o Signal, que também é criptografado e não tem por trás de si uma corporação que tenha interesse em lucrar com a informação”, comenta.
EL PAÍS