Quando a incerteza condena: os limites estatísticos do Enamed

Suponhamos que o único problema da formação médica no Brasil fosse a qualidade das escolas. Ainda assim, restaria uma pergunta decisiva: o instrumento criado para medi-la é suficientemente preciso para sustentar sanções severas?

O Exame Nacional de Avaliação da Formação Médica (Enamed) foi apresentado, em 2025, como uma régua objetiva. Mas toda régua estatística tem margem de erro. No caso desse exame, há três fontes independentes de incerteza que não foram devidamente consideradas na classificação de alunos e cursos.

Assine gratuitamente a newsletter Últimas Notícias do JOTA e receba as principais notícias jurídicas e políticas do dia no seu email

Primeiro, a nota individual. O exame utiliza Teoria de Resposta ao Item (TRI) com modelo de Rasch. Como toda estimativa, a proficiência carrega erro padrão. A classificação entre “proficiente” e “não proficiente” foi feita com base apenas na nota pontual, como se fosse exata.

Considere um aluno com nota 58, num corte fixado em 60. A margem de erro pode situá-lo entre aproximadamente 52 e 68 pontos. O instrumento não consegue afirmar com segurança de que lado ele está. Simulações indicam que a chamada “zona cinzenta” – em que a probabilidade de erro supera 5% – abrange mais de 45% dos estudantes. Um aluno com proficiência verdadeira de 58 tem 32% de chance de ser classificado como proficiente. Outro com 62 tem a mesma probabilidade de ser rotulado como não proficiente. Não são exceções; são efeitos do método.

A segunda fonte surge ao agregar essas classificações ao nível do curso. O Percentual de Concluintes Proficientes (PCP) transforma estimativas incertas em proporções que definem conceitos de 1 a 5. Num curso com 30 alunos e PCP verdadeiro em torno de 50%, o intervalo de confiança vai de 33% a 67%. Isso atravessa três faixas de conceito. A metodologia não ajusta as faixas ao tamanho do curso. Um curso com 20 alunos recebe o mesmo tratamento que um com 200, embora o erro padrão seja mais de três vezes maior.

Simulações mostram o impacto prático: ao retirar aleatoriamente 10% dos alunos em mil rodadas, cerca de 1 em cada 6 cursos — 55 dos 350 avaliados — mudou de conceito em pelo menos 20% das vezes. Em 21 deles, a probabilidade de mudança ficou entre 40% e 50%, próxima à de lançar uma moeda. Quando se incorpora também a incerteza das notas individuais, o número de cursos com alta instabilidade sobe para 97 (28% dos 350). Desses, 23 poderiam subir de conceito e mais de uma dezena deixaria de sofrer sanções.

A terceira incerteza está no próprio ponto de corte. O método Angoff, aplicado por 20 juízes (com exclusão de dois outliers), estimou média de 57,9% com desvio padrão de 3,68%. Na escala do Enamed, isso implica que o corte de 60 poderia, com legitimidade técnica, situar-se entre 58,4 e 61,6. Essa variabilidade não foi propagada às classificações finais.

Imagine um curso com 10 alunos, mínimo para conceito. Um único estudante que altere seu status pode mudar o PCP em 10 pontos percentuais e redefinir a faixa de sanção. Essa sensibilidade não é característica desejável em sistema classificatório com consequências graves.

Exigir rigor não significa defender a inação. Existem cursos ruins. Mas, justamente por isso, o método deve minimizar falsos positivos e falsos negativos. Sanções que envolvem fechamento de vagas, suspensão de financiamento estudantil e danos reputacionais exigem confiabilidade proporcional à severidade das consequências.

Inscreva-se no canal de notícias do JOTA no WhatsApp e fique por dentro das principais discussões do país!

A literatura oferece alternativas: bandas de decisão, zonas de monitoramento, reincidência de resultados insuficientes antes de sanções definitivas, transparência dos erros padrão condicionais próximos ao corte. Um período de transição formativa permitiria calibrar o instrumento antes de usá-lo como ferramenta punitiva.

Não se trata de desqualificar o exame, mas de exigir que ele esteja à altura das decisões que produz. Quando a consequência é fechar cursos, suspender financiamento estudantil e marcar reputações, a margem de erro deixa de ser detalhe técnico e passa a ser questão de justiça. Antes de punir, é preciso ter certeza. E hoje essa certeza simplesmente não existe.

Fonte