BRASÍLIA, DF, E SÃO PAULO, SP (FOLHAPRESS) - Análise estatística da Folha de S.Paulo, considerando os resultados dos 69 milhões de participantes do Enem entre 2009 e 2019, mostra que um conjunto de 41 perguntas não conseguiu testar o conhecimento dos candidatos de maneira eficiente. Apesar disso, essas questões não receberam críticas de políticos ou de autoridades.

São itens que falharam na discriminação dos melhores candidatos e representam 2% do total utilizado nas aplicações do exame. Em alguns casos, acertar essas perguntas não influenciou a nota final -isso ocorreu sem qualquer divulgação.

Por outro lado, a análise corrobora a robustez da imensa maioria de questões do exame para medir o conhecimento, o que esvazia o discurso de críticos de que o exame seria ideológico e ineficiente.

Para justificar o desejo de alterações no Enem, o presidente Jair Bolsonaro (sem partido) e sua equipe têm feito críticas recorrentes a questões que seriam supostamente ideológicas, sem validade para medir o conhecimento técnico. Mas, como mostrou a Folha no domingo (21), as questões que causaram polêmica foram, sim, eficientes em testar o conhecimento.

Já as questões que não são eficientes não foram citadas por Bolsonaro ou por seus apoiadores como sendo polêmicas.

A partir de análise dos microdados do exame, divulgados de forma anonimizada pelo Inep (órgão responsável pelo Enem), a reportagem testou o desempenho de 1.928 questões, segundo quatro critérios estabelecidos na literatura científica da área. Foram avaliadas todas as edições de 2009 a 2019.

Além da capacidade de discriminar participantes que dominam o conhecimento avaliado, foram levados em conta a relação entre o acerto no determinado item e nos demais, a chance de participantes de menor proficiência acertarem mais que alunos melhores e, por fim, se o item se comporta de acordo com o modelo da TRI (Teoria da Resposta ao Item) de três parâmetros adotado pelo Enem para a correção das provas.

Foram identificadas 30 questões claramente inadequadas, que não se comportavam como era esperado pelo modelo. São questões em que, por exemplo, alunos medianos vão melhor que candidatos com maior nota, ou que a chance de acertar é inversamente proporcional à proficiência do aluno —veja algumas delas aqui e teste seu desempenho.

Dessas 30, 21 não tiveram relevância para a nota final do candidato.

Há ainda outras 11 que, embora inicialmente não tenham sido classificadas como inadequadas, também apresentaram alguns problemas e não tiveram impacto na pontuação do participante que acertou.

Para chegar a essa conclusão, a reportagem analisou as notas de grupos de alunos que acertaram exatamente as mesmas questões, com exceção daquela avaliada. Ainda assim, a nota foi a mesma —acertar aquele item não gerou acréscimo na pontuação final.

Questionado, o Inep não respondeu. Não é possível saber, portanto, se esses 32 itens foram inutilizados a partir de intervenção de técnicos ou pelo próprio algoritmo. Também não é possível ter certeza se os itens foram pré-testados, como requer o modelo TRI, adotado na prova.

A calibragem psicométrica das questões é parte essencial para que o exame cumpra a missão de avaliar efetivamente as habilidades dos participantes e consiga diferenciá-los pelas notas. Essa exigência do modelo TRI teria funcionado com uma trava para o atendimento à pressão do governo Bolsonaro de eliminar questões consideradas de esquerda na edição 2021.

Segundo servidores do Inep (Instituto Nacional de Estudos e Pesquisas Educacionais) ouvidos pela Folha, nem sequer há questões prontas e calibradas para fazer trocas de mais itens, como pressionou o governo. O Enem 2021 começou no último domingo (21) e segue no próximo (28).

O conteúdo do primeiro dia foi considerado equilibrado por professores, fugindo ao que seria "a cara do governo" Bolsonaro, nas palavras do presidente. Apesar disso, não houve pelo terceiro ano consecutivo itens sobre a ditadura militar (1964-1985), período elogiado pelo presidente.

Segundo especialistas, pode ser considerada uma boa pergunta aquela que consegue discriminar os participantes de acordo com o nível de conhecimento, ou seja, alunos que dominam o tema vão melhor que aqueles com pouco aprendizado na área.

Perguntas mal elaboradas podem tirar a atenção e tempo precioso dos estudantes para resolução do exame. Os participantes têm um tempo médio de 3 minutos para resolver cada questão.

Teoricamente, elas poderiam desbalancear a nota dos candidatos, uma vez que o sistema de correção considera a dificuldade da questão, como a chance de o estudante acertá-la de acordo com seu nível de desempenho e a probabilidade de acertar ao acaso, por chute.

Assim, também teoricamente, o cálculo da proficiência dos candidatos poderia ser impactado. Não há informações que indiquem esse efeito, no entanto.

Especialista em avaliação e TRI, o professor Tufi Machado Soares, da UFJF (Universidade Federal de Juiz de Fora) explica que a precisão da medida expressa pela nota tem ligação com a coerência das respostas dos candidatos.

"O modelo estabelece uma função que associa probabilidade de acerto com nível de proficiência do participante. Na medida em que o aluno vai respondendo com coerência, essa função vai dar a informação bem comportada", diz. "Se não há essa coerência, vai refletir em uma estimativa com um erro de medida grande".

No Enem de 2019, por exemplo, a questão 122 da prova azul de ciências da natureza teve mais acertos dos candidatos com desempenho mediano do que entre aqueles com melhor nota. A chance de acerto da pergunta diminui na medida em que a proficiência do participante aumenta.

O item não teve peso na nota final, apesar de não ter havido qualquer divulgação sobre isso. A pergunta tratou de substâncias químicas de um sabonete.

Esse foi um caso de pergunta que tinha um grau de dificuldade elevado e que requeria conhecimento muito específico, com poucos acertos. Quem marcou a resposta certa, contudo, não tirou nota maior por isso.

Outro item, o 38 de ciências da natureza, também representou maior dificuldade para os melhores alunos.Nesse caso, quanto pior o aluno, maior era a chance de acertar a questão. É um comportamento exatamente oposto ao que é esperado pelo modelo do Enem.

O desafio era identificar qual seria o movimento de carrinhos com velas e ventiladores.

Para o professor de física Marcelo Faleiros, do Cursinho da Poli, a questão pode ter causado confusão para bons alunos por causa do formato da vela da ilustração que acompanhou a pergunta. "O que desafia na questão é ter a percepção não só das leis de Newton, mas também da geometria da figura da vela", diz. "Por isso a situação que o carro ficaria parado foi a resposta de muitos alunos bons. Mas o carro não fica parado por causa da possiblidade de o vento bater mais de uma vez na vela, que não é plana".

A análise, das edições entre 2009 e 2019, deixou de fora duas questões anuladas oficialmente, além dos blocos de língua estrangeira.

Reportagem da Folha de S.Paulo de fevereiro mostrou que as perguntas de inglês são as que bons estudantes de escola pública erram de maneira mais desproporcional em relação a seu desempenho na prova.

METODOLOGIA

A reportagem, feita a partir dos microdados do Enem, se baseia em um modelo estatístico que estima a chance de um candidato acertar uma questão dada a sua proficiência na prova.

Para isso, foram calculados três parâmetros. São eles: parâmetro de discriminação (mede se a questão consegue diferenciar os candidatos de acordo com o nível de conhecimento naquele tema), parâmetro de dificuldade (indica o nível de dificuldade daquela questão) e parâmetro de acerto casual (estima a chance do candidato acertar porque chutou).

Eles fazem parte da metodologia que o Inep utiliza para corrigir e dar nota aos candidatos. O órgão, contudo, não forneceu o valor dos parâmetros que são utilizados, e foi feito um cálculo próprio.