O milagre de Shannon

Algo que você deveria saber, que as propagandas dirigidas (os famigerados ads) já sabem, e provavelmente os governos também já estão sabendo: você é mais fácil de identificar do que você pensa. Online e offline, mas principalmente online.

Por mais cuidado que você tome em não revelar informações privadas, que um humano ou uma máquina associaria diretamente à sua pessoa, provavelmente você emite sinais mais que suficientes para ser identificado.

Quando eu digo "identificado", quero dizer que alguém do outro lado da mesa sabe que você é uma pessoa única no mundo, distinta das demais. Não necessariamente sabe seu nome, seu endereço ou seu CPF. Até porque há leis e regulamentos proibindo a coleção e divulgação da chamada "PII" (Personally Identifiable Information).

Do ponto de vista das propagandas de Internet, você é só um número. Mas isto é o suficiente. "Os caras" sabem o suficiente sobre esse número para enviar propagandas e ofertar produtos. Considere que, se um Mercado Livre da vida consegue fazer isso, entidades maiores como bancos, planos de saúde e governo conseguem fazer muito mais.

O mecanismo

Talvez você já tenha jogado em algum site no estilo Akinator. Basicamente, ele faz algumas perguntas simples ("sim/não"), e com base nelas consegue adivinhar um personagem, um animal, ou uma palavra. Alguns são meio "burros", outros são surpreendentemente eficazes.

A cada pergunta sim/não que você responde, você "entrega" um bit de informação. Se responder 10 perguntas, forneceu 10 bits de informação sobre o item que o site está tentando adivinhar. 10 bits correspondem a 2¹⁰ ou 1024 combinações possíveis. Se o conjunto de objetos (por exemplo, animais) tiver mil elementos, em tese as 10 perguntas são mais que suficientes para "adivinhar", ou seja, identificar cada elemento.

As perguntas não precisam ser necessariamente espertas ou perspicazes. Podem ser bobas, e quanto mais bobas forem, mais divertido fica o jogo, porque fica parecendo mágica o site adivinhar o personagem em que você estava pensando mediante perguntas tão fracas.

O importante é que as perguntas possuam uma entropia de Shannon suficiente, para que "n" perguntas produzam um grande número de bits de identificação. Idealmente "n", embora isto seja difícil. Sempre haverá perdas.

Por exemplo, se para identificar uma pessoa eu pergunto se ela a) é vegana, b) come queijo e c) bebe leite, essas três perguntas não produzem 3 bits de identificação, porque um vegano não come queijo nem bebe leite, então as combinações 111, 110 e 101 não existem. Restam cinco combinações 000, 001, 011, 010, 100, que equivalem a 2.3 bits.

Se, em vez de perguntar se a pessoa é vegana, eu perguntasse se ela come carne, a entropia seria maior, porque aí as 8 combinações voltam a ser possíveis. E ainda consigo deduzir com razoável certeza quem é vegano, quem é macrobiótico, quem é carnívoro inverterado, etc.

Seguindo neste raciocínio, se o mundo tem 8 bilhões de habitantes, é possível identificar qualquer um deles com apenas 33 bits, e portanto com 33 perguntas no estilo sim/não, desde que bem colocadas. É difícil extrair 33 bits de entropia de 33 perguntas, então que sejam 100, ou 200. Ainda é um mecanismo surpreendentemente poderoso, identificar você entre bilhões com apenas uma centena de perguntas aparentemente despropositadas.

E é assim que o pessoal do outro lado da Internet te identifica: utilizando centenas, quiçá milhares de sinais, individualmente bobos e despropositados, mas que em conjunto possuem entropia mais que suficiente para detectar os indivíduos.

Alguns desses sinais:

Endereço de IP, que também entrega provedor e localização, de forma imprecisa, mas já são vários bits de entropia aqui.
Endereços de IP. Todo dia você conecta-se à Internet do trabalho e da sua casa. E também à sua operadora de celular. Quantas pessoas no mundo usam essa mesma combinação de provedores e localizações aproximadas? Não muitas.
Configurações de browser: tamanho de tela, versão do aparelho, versão do sistema operacional.
Wi-Fi a que está conectado. (Aí também pediu, né? Conectar a um Wi-Fi de loja e exigir privacidade...)
Horários de atividade, fuso horário.

As big techs negam, mas podem estar usando meios ainda mais insidiosos. Todo mundo tem uma história para contar sobre conversar com o cônjuge a respeito de um certo produto, e em seguida começar a ver propaganda daquele produto no celular e na TV.

Se forem pegas no flagra, vão alegar que só transmitem um identificador opaco ligado ao seu tom de voz, que não é imediatamente associável e seu nome e seu CPF... mas, novamente, ajudam e muito a identificá-lo.

Nem sempre essa identificação funciona 100%. A todo mundo já foi oferecida alguma propaganda de algo que está totalmente fora do nosso alcance ou do nosso interesse. (E também já foi oferecida propaganda de algo que lhe interessa, mas aí a patroa olhou por cima do seu ombro e você teve de botar a culpa no "Sistema". Deus tá vendo, viu?)

Isso acontece, mas não nega a eficiência geral do esquema, que é mandar propagandas com 90% de acurácia, em vez de 0,1% de acurácia como seria o caso de outdoors e propagandas de rádio. E também serve como negação plausível para quem levanta questões de privacidade. Se as propagandas erram, é "prova" que a identificação do consumidor não seria capaz de revelar nome e endereço, certo?

Considerando o estado da arte, eu não duvidaria que na verdade "os caras" detectam você com 100% de precisão, mas estão inserindo alguns erros de propósito, só para tranquilizar.