Moderação de conteúdo antecede a IA em décadas — todo fórum online desde a Usenet teve alguém decidindo o que fica e o que sai. O que mudou foi a escala. O Facebook processa mais de um bilhão de posts por dia. O YouTube recebe 500 horas de vídeo a cada minuto. TikTok, X, Reddit e toda outra plataforma com conteúdo gerado por usuários enfrentam a mesma matemática: o volume de conteúdo é fisicamente impossível para humanos revisarem integralmente. Classificadores de IA se tornaram necessários não porque são bons no trabalho, mas porque a alternativa — nenhuma moderação — é pior. A chegada da IA generativa agravou o problema. Ferramentas que tornam trivial produzir texto, imagens e vídeo em escala também tornam trivial produzir conteúdo nocivo em escala. Agora você precisa de IA para moderar conteúdo que a própria IA gerou.
A maioria dos sistemas de moderação em produção usa uma abordagem em camadas. A primeira camada são classificadores automatizados: modelos de machine learning treinados para sinalizar conteúdo em categorias como discurso de ódio, violência, nudez, spam e automutilação. Esses classificadores processam tudo e operam em milissegundos. A segunda camada é correspondência de hash, onde conteúdo nocivo conhecido (particularmente material de abuso sexual infantil) é comparado com bancos de dados como o do NCMEC usando hashing perceptual — sendo o PhotoDNA o mais amplamente implantado. A terceira camada é revisão humana, onde conteúdo sinalizado vai para moderadores humanos que tomam decisões finais sobre casos ambíguos. Grandes plataformas como Meta e Google empregam dezenas de milhares de revisores humanos, muitos através de empresas terceirizadas em países como Quênia, Filipinas e Índia. As condições de trabalho e o impacto psicológico sobre esses revisores foram extensivamente documentados e continuam sendo uma séria preocupação ética na indústria.
O desafio mais difícil na moderação de conteúdo é o contexto. A frase "vou te matar" é uma ameaça de morte numa conversa e brincadeira amigável em outra. Uma imagem médica de um ferimento é conteúdo educacional num fórum de saúde e violência gráfica numa plataforma de interesse geral. Sátira, ironia e sarcasmo rotineiramente enganam classificadores que performam bem em exemplos diretos. Moderação multilíngue adiciona outra dimensão: a maioria dos classificadores de IA performa melhor em inglês e se degrada significativamente em outros idiomas, o que significa que plataformas frequentemente são menos capazes de moderar conteúdo nas regiões onde as consequências são mais graves. Durante o genocídio em Myanmar, os sistemas de moderação do Facebook falharam catastroficamente com discurso de ódio em birmanês, uma falha que a própria empresa reconheceu depois. A lição é que a qualidade da moderação é tão boa quanto seu idioma de pior desempenho, não o melhor.
IA generativa cria novos desafios de moderação para os quais sistemas existentes não foram projetados. Imagens geradas por IA podem produzir CSAM inédito sem usar fotografias reais, o que significa que bancos de dados de correspondência de hash são inúteis contra elas. Texto sintético pode ser adaptado para evadir filtros de palavras-chave e padrões de classificadores porque o gerador pode iterar até que a saída passe. Clonagem de voz possibilita personificação em escala. E o puro volume de conteúdo gerado por IA — texto, imagens, vídeo — ameaça sobrecarregar pipelines de moderação que já operavam no limite. No lado defensivo, LLMs estão sendo cada vez mais usados como ferramentas de moderação: a abordagem Constitutional AI da Anthropic, o endpoint de moderação da OpenAI e o Llama Guard da Meta são exemplos de uso de modelos de linguagem para avaliar conteúdo com mais nuance que classificadores tradicionais. Esses moderadores baseados em LLM lidam melhor com contexto, mas são mais caros de rodar e introduzem seus próprios viéses.
Toda decisão de moderação é um trade-off entre dois tipos de erro. Moderação excessiva silencia fala legítima, afetando desproporcionalmente comunidades marginalizadas, dissidência política e discussões sobre tópicos sensíveis mas importantes como saúde sexual ou política de drogas. Moderação insuficiente permite danos reais: campanhas de assédio, pipelines de radicalização, fraude e distribuição de conteúdo ilegal. Nenhum sistema acerta esse equilíbrio para todos, e o equilíbrio "certo" depende de valores culturais que variam por país, comunidade e indivíduo. Plataformas operando globalmente devem tomar essas decisões em centenas de jurisdições com padrões legais diferentes, e as decisões que tomam — frequentemente codificadas em dados de treinamento de classificadores e configurações de limiar — têm mais impacto prático na liberdade de expressão do que a maioria das leis. As pessoas construindo esses sistemas estão, quer tenham pretendido ou não, tomando decisões editoriais e éticas em escala civilizacional.