Desafios e estratégias: integração da avaliação e certificação de língua adicional no contexto brasileiro*
- gladysquevedo3
- 3 de jun. de 2024
- 12 min de leitura
*Palestra proferida de forma online durante o Encontro Nacional da Rede ANDIFES IsF, em 01/12/2023.
De acordo com o dicionário Longman online, uma certificação é “um documento oficial que afirma que alguém está autorizado a realizar um determinado trabalho, que algo é de boa qualidade, etc”. Hoje, quando falo em integração de avaliação e certificação no contexto brasileiro, na verdade estou falando em inserir um exame padronizado, de larga escala e de alta relevância em nosso sistema educacional.
Só para lembrar, o termo larga escala refere-se ao fato de que tal exame é aplicado a milhares, às vezes milhões, de pessoas ao mesmo tempo, enquanto o termo alta relevância refere-se ao papel decisivo que esse exame desempenha na vida das pessoas, pois seus resultados são usados para tomar decisões importantes como mudar de emprego, mudar de cidade ou de país, ou iniciar um curso de graduação ou pós-graduação.

A utilização de exames padronizados ou testes formais não é algo novo. Segundo o professor Barry O’Sullivan (2012), tal utilização começou na China há cerca de 1.500 anos, quando o chamado Exame Imperial (Keju) foi introduzido pela Dinastia Sui, que durou de 581 a 618.
Os exames baseavam-se em textos de Confúcio e tinham como objetivo selecionar as pessoas mais adequadas para ocupar cargos burocráticos no governo. Qualquer pessoa podia se candidatar ao exame, independentemente da sua posição social. O exame serviu ao seu propósito, mas, segundo o professor O’Sullivan, fez com que o sistema educacional chinês “se concentrasse apenas em preparar as pessoas para passar no teste” (O’Sullivan, 2012, p. 9).
Esta poderosa influência dos exames no sistema educativo ficou conhecida como “ensino voltado para o teste” (Madaus, 1988) e tal prática tem sido uma preocupação há décadas. Ela também é conhecida por outros termos, como instrução orientada por mensuração (Popham, 1987), validade de efeito retroativo (Morrow, 1991), alinhamento curricular (Shepard, 1993), efeito retroativo (Alderson & Wall, 1993), impacto (Hawkey, 2006; Taylor & Weir, 2009) e consequências sociais ou mesmo políticas (McNamara & Roever, 2006; Scaramucci, 2011; Tsagari & Cheng, 2016).
As tirinhas a seguir ilustram, de forma bem humorada, essa preocupação.


Alguns autores fazem uma distinção entre impacto e efeito retroativo, mas aqui utilizo ambos os termos como sinônimos.
Num artigo seminal publicado em 1993, os professores Charles Alderson e Dianne Wall, da Universidade de Lancaster, no Reino Unido, apresentaram 15 possíveis hipóteses sobre o efeito retroativo:
(1) Um teste influenciará o ensino. Hipótese mais geral que implica a próxima.
(2) Um teste influenciará a aprendizagem. Agora, se distinguirmos conteúdo e metodologia, temos...
(3) Um teste influenciará o que os professores ensinam; e
(4) Um teste influenciará a forma como os professores ensinam;
e, portanto, por extensão de (2) acima:
(5) Um teste influenciará o que os alunos aprendem; e
(6) Um teste influenciará a forma como os alunos aprendem.
Na sequência, as hipóteses tornam-se mais precisas em termos de ritmo e ordem em que o ensino e a aprendizagem acontecem:
(7) Um teste influenciará o ritmo e a sequência do ensino; e
(8) Um teste influenciará o volume e a sequência de aprendizagem.
E também há hipóteses para a qualidade e a quantidade ou volume do ensino e da aprendizagem:
(9) Um teste influenciará o grau e a profundidade do ensino; e
(10) Um teste influenciará o grau e a profundidade da aprendizagem.
Há que se levar em conta também as atitudes e os comportamentos de professores e alunos, então...
(11) Um teste influenciará as atitudes em relação ao conteúdo, método, etc. de ensino e aprendizagem.
As hipóteses a seguir concentram-se na natureza dos exames e na utilização dos resultados:
(12) Testes que tenham consequências importantes causarão efeito retroativo;
e inversamente
(13) Testes que não tenham consequências importantes não causarão efeito retroativo.
Também podemos levantar a hipótese de que...
(14) Os testes terão efeito negativo sobre todos os alunos e professores.
Mas as pessoas são diferentes, então também podemos pensar que...
(15) Os testes causarão efeito retroativo para alguns alunos e alguns professores, mas não para outros.
(Alderson & Wall, 1993, p. 120-121)
Após a leitura dessas hipóteses, fica claro que o efeito retroativo é um fenômeno altamente complexo. Afeta diferentes partes interessadas de diferentes maneiras, pois pode ser positivo, negativo ou mesmo nenhum, dependendo da parte interessada.

Tomemos como exemplo o Exame Nacional do Ensino Médio brasileiro (ENEM), que é utilizado desde 2005 como vestibular para instituições de ensino superior públicas e privadas. Esse exame se concentra nas diversas disciplinas ensinadas no ensino médio e possui 5 itens de leitura em inglês e 5 em espanhol.
Existem muitos estudos de mestrado e doutorado no Brasil que investigaram o impacto do ENEM em diferentes aspectos do sistema educacional. Contudo, no que diz respeito às línguas inglesa e espanhola, não foi realizado nenhum estudo em âmbito nacional que comprovasse a real existência do efeito retroativo e suas características no nosso contexto.
Sem querer generalizar, a partir da minha experiência com professores de língua inglesa e de língua espanhola, diria que o que chama a atenção é que os professores, inspirados pelo exame, passaram a incorporar em suas aulas diversos gêneros discursivos como desenhos animados e poemas, retirados de diversas fontes.
Como consequência, a multimodalidade e os multiletramentos têm estado cada vez mais presentes nas salas de aula de língua inglesa no país. Isso poderia ser classificado como um impacto ou efeito retroativo positivo no trabalho de um bom número de professores brasileiros dessas línguas, mas certamente não em todos eles!
Porém, se observarmos o impacto do ENEM na sociedade brasileira, veremos que ele tem sido amplamente utilizado pelas escolas para fins de marketing, dependendo de sua posição no ranking das melhores escolas, ou seja, aquelas que conseguiram ter alunos aceitos em universidades renomadas, principalmente públicas.
A competição para obter uma classificação elevada é intensa e acaba promovendo a cultura do ensino para o teste mencionada acima, fazendo com que os professores se concentrem nos temas mais comuns favorecidos pelo exame. Além disso, há também toda uma indústria de cursos preparatórios para o exame, o que teoricamente não seria necessário pelo fato de o próprio ensino médio ser o preparatório!
Essas imagens mostram algumas das coisas que vemos por aí: anúncios de cursos preparatórios, os temas mais comuns, classificação das melhores escolas, comparações entre escolas públicas e privadas etc.
Poderíamos classificar isso como um efeito retroativo negativo para os alunos, pois está sendo dada mais importância à aprovação no exame do que ao aprendizado em si, mas como efeito retroativo positivo para as escolas que têm boa classificação, pois elas aumentam sua reputação e atraem mais alunos e mais lucro!
Como se vê, o efeito retroativo é, na verdade, um fenômeno multidimensional.
Segundo o professor Yoshinori Watanabe (2004), da Universidade de Akita, no Japão, o efeito retroativo apresenta cinco dimensões:
1. intencionalidade: que se refere ao fato de o impacto do exame ser intencional ou não;
2. especificidade: que se refere ao impacto ser geral, independentemente do conteúdo ou das competências, ou específico a um ou alguns aspectos do processo de ensino e aprendizagem;
3. intensidade: isto é, se o impacto é forte, ou seja, afeta muito as pessoas e a sala de aula, ou fraco, ou seja, afeta parcialmente o trabalho em sala de aula ou os alunos;
4. extensão: que se refere à duração do impacto por muito ou pouco tempo
5. valor ou direção: que se refere ao fato de o impacto ser benéfico ou não para os agentes envolvidos e para o processo de ensino e aprendizagem, ou seja, se o impacto é positivo, negativo ou mesmo neutro, como mencionado.
Há mais uma dimensão, muito importante, proposta em 2001 pela professora Elana Shohamy, da Universidade de TelAviv, em Israel, que é a dominação e o poder. Através dessa perspectiva, entendemos que exames ou certificações podem abrir portas para muitos, mas também podem funcionar como barreiras para muitos.
Nas palavras de Shohamy,
os testes são ferramentas poderosas na educação e na sociedade, que podem levar a consequências indesejadas que precisam ser examinadas e avaliadas. É o poder dos testes, especialmente os de alta relevância, que faz com que os candidatos e os sistemas educativos mudem os seus comportamentos e estratégias educativas à medida que se esforçam para ter sucesso nos testes, dado o seu impacto prejudicial. (Shohamy, 2017, p. 441)
Esse é provavelmente o maior desafio a ser enfrentado quando pensamos em inserir um exame padronizado num sistema educacional: analisar cuidadosamente as possíveis consequências intencionais e não intencionais desse exame para todos os interessados envolvidos.
É provável que um exame muito bem elaborado tenha maior probabilidade de causar um efeito positivo no ensino e na aprendizagem, mas não há garantia alguma, principalmente se considerarmos um país grande e diverso como o Brasil. Não se trata apenas de ensinar o conteúdo certo, e trabalhar com os alunos a leitura, a escrita, a fala e a audição de uma língua e torcer para que o melhor aconteça. Estamos lidando com pessoas; estamos lidando com vidas!
Citando novamente a professora Elana Shohamy, ela diz que
(…) o ato de aplicar testes não é neutro. Pelo contrário, é tanto um produto como um agente de agendas culturais, sociais, políticas, educacionais e ideológicas que moldam as vidas dos participantes individuais, professores e alunos. (Shohamy, 1998, p. 332)
Portanto, qualquer pessoa envolvida com avaliação na área de línguas adicionais deve ter em mente que tem a responsabilidade de tomar decisões que sejam justas do ponto de vista social e justas do ponto de vista interno ao instrumento utilizado.
McNamara e Ryan (2011) utilizam o termo fairness (que traduzo aqui livremente como justiça interna) para se referir ao que é interno ao exame, ou seja, sua elaboração, a construção de seus itens, a seleção do material, etc. O termo justice (justiça) é utilizado para se referir ao que é externo ao exame, ou seja, aos contextos em que o exame pode ser utilizado.
Assim, apenas disponibilizar ou tornar o exame acessível não é suficiente se não mudarmos aspectos específicos do sistema educacional para proporcionar aos alunos e seus professores condições para atingir os padrões exigidos. E por falar em padrões, muitas vezes, esses padrões são internacionais.
Cito McNamara, Knoch & Fan (2019, p. 1), da Universidade de Melbourne, na Austrália, quando eles dizem que “[um] dos papéis mais significativos dos exames de línguas estrangeiras atualmente é como parte da internacionalização da educação”.
Esses exames são utilizados para seleção e admissão em milhares de instituições de ensino superior em todo o mundo e, mais uma vez, vemos os exames de línguas desempenhando um papel de controle, de gatekeepers. Os candidatos que tiveram a sorte de ter acesso a um bom ensino da língua adicional certamente terão sucesso. Os outros, bem, que pena, mas o padrão é muito alto para eles, não é mesmo?!
Então qual é a solução, ou melhor, qual é a estratégia a ser adotada para que mais estudantes possam atingir padrões internacionais? Bem, a estratégia é fazer investimentos sábios na formação de professores de línguas e no letramento em avaliação dos professores.
O professor Glenn Fulcher (2012, p. 125), da Universidade de Leicester, no Reino Unido, oferece uma definição prática muito completa de letramento em avaliação de línguas:
Os conhecimentos, as habilidades e capacidades necessárias para elaborar, desenvolver, manter ou avaliar testes padronizados de larga escala e/ou testes desenvolvidos para a sala de aula, familiaridade com os processos avaliativos, e consciência dos princípios e conceitos que guiam e subjazem a prática, incluindo ética e códigos de prática. A habilidade de situar conhecimentos, habilidades, processos, princípios e conceitos em contextos históricos, sociais, políticos e filosóficos mais amplos a fim de compreender por que as práticas se desenvolveram como tal, e avaliar o papel e o impacto da avaliação/dos testes na sociedade, nas instituições e nos indivíduos.
Como podemos ver, letramento em avaliação não é apenas para professores. Todos os agentes do sistema educativo devem ter algum grau de letramento em avaliação, dependendo do seu papel no sistema.
Há, no entanto, outro motivo de preocupação relacionado com as certificações: a relevância e a qualidade da informação que o exame fornece sobre os alunos. Em outras palavras, o exame deve comprovar que os alunos são capazes de lidar com as tarefas comunicativas que enfrentarão na universidade.
Citando McNamara, Knoch & Fan (2019, p. 2),
“[se] as tarefas que são solicitadas aos candidatos não conseguem representar adequadamente o que lhes será exigido no ambiente universitário, quer por exigirem demais, quer por exigirem muito pouco, então os resultados dos testes podem ser enganosos.”
Portanto, é preciso pensar muito cuidadosamente sobre isso. Se uma certificação for inserida em nosso sistema educacional, temos que ter clareza sobre qual concepção de linguagem está subjacente a essa certificação.
Atualmente, considerando a globalização, a intensa mobilidade humana e a comunicação internacional, o conceito de uso da língua, alinhado com uma abordagem orientada para a ação (Piccardo & North, 2019), que está enraizado num paradigma construtivista, e não apenas no conhecimento da língua, que é tipicamente alinhado com as teorias estruturalistas, parece ser o mais útil para todos, porque realmente precisamos de pessoas que sejam capazes de se comunicar, de falar e escrever em língua adicional. Isso nos leva a refletir sobre o significado do termo proficiência.
A professora Matilde Scaramucci, da Universidade Estadual de Campinas (2000), afirma que a palavra proficiência é usada de forma técnica e não técnica. O uso não técnico, embora implique conhecimento, domínio e habilidades, se apoia em julgamentos impressionistas e holísticos, sem análises sistemáticas baseadas em critérios. Isso acontece, por exemplo, quando você vê alguém conversando em italiano em uma festa e pensa Uau! Esse cara é proficiente em italiano! Nesse momento, vc pensa nos extremos: ou alguém é proficiente ou não.
O uso técnico, embora implique também conhecimento, domínio e habilidades, dependeria de níveis de proficiência baseados na finalidade da situação em que a língua está sendo utilizada. Assim, podemos estabelecer critérios e uma nota de corte para o nível mínimo a ser alcançado para que alguém seja considerado proficiente naquele nível naquela situação ou contexto específico. A proficiência então é entendida como um continuum. É um conceito relativo, não um conceito absoluto. Afinal, ninguém é 100% proficiente em todas as competências em todos os contextos!
Podemos também nos referir a quadros de referência como o Quadro Europeu Comum de Referência para as Línguas – QECR (Conselho da Europa, 2001; 2020), que possui tradução em diversas línguas. Contudo, devemos ter em mente que esse é um quadro de referência e não um documento prescritivo. Como escreveram North & Goodier (2022), os descritores do QECR apresentam a descrição de perfis, não o nivelamento. Isso significa que temos de analisar criteriosamente se esse perfil se aplica ou não ao nosso próprio contexto educativo.
Nesse sentido, idealmente, essa certificação para ser integrada à avaliação em nosso contexto precisaria ter uma dupla função: precisaria ser um teste de rendimento, cujos resultados me diriam o que os alunos aprenderam na escola (seus conhecimentos anteriores), e ao mesmo tempo precisaria ser um teste de proficiência, cujos resultados me diriam se os alunos conseguem usar a língua adicional em situações futuras.
Há mais um aspecto importante que eu gostaria de mencionar antes de terminar: os professores.
Falando sobre o contexto brasileiro, o nível de proficiência em língua adicional dos nossos professores varia muito. Uma certificação específica para professores de língua adicional deveria então ser considerada como parte dessa integração, afinal, ao melhorar a própria proficiência, eles conseguiriam proporcionar um ensino melhor aos alunos. Porém, a certificação de professores é um assunto controverso no Brasil e deve ser discutida e analisada com muito cuidado.
Para finalizar, reconheço que a integração da avaliação e certificação de língua adicional no contexto brasileiro apresenta sérios desafios e requer estratégias diferentes. É impossível passar por todos eles em uma palestra tão curta, por isso destaco os seguintes:
Desafios | Estratégias |
1. Considerar o impacto ou o efeito retroativo potencial nos diferentes agentes educacionais (professores, alunos, famílias, escola, autoridades educacionais…) | • Estabelecer o objetivo da certificação com base em documentos nacionais, contextos e pesquisas sobre as necessidades dos alunos • Elaboração cuidadosa do exame • Estudo minucioso de todas as dimensões do efeito retroativo • Coleta sistemática de dados de diferentes contextos e agentes interessadas • Uso sistemático dos resultados para retroalimentação no sistema educacional para melhorias e ajustes |
2. Agentes | Investimento sábio em programas de letramento em avaliação (de línguas), incluindo professores em formação inicial (componente de avaliação de línguas em cursos de formação de professores) |
3. Professores | Investimento sábio no desenvolvimento da proficiência linguística nos professores de línguas adicionais |
4. Sociedade em geral | Campanhas para enfatizar a importância da certificação e seus muitos propósitos |
Para terminar:
Avaliações e exames são ferramentas como um martelo, uma chave de fenda ou até mesmo uma faca. Essas ferramentas não são boas nem ruins. Depende do uso que fazemos delas. É exatamente a mesma coisa com relação à avaliação e aos exames.
Referências:
Alderson, J. C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14, 115–129. https://doi.org/10.1093/applin/14.2.115
Council of Europe. (2001). Common European Framework of Reference for Languages: learning, teaching, assessment. Strasbourg: Council of Europe Publishing.
Council of Europe. (2020). Common European Framework of Reference for Languages: Learning, teaching, assessment – Companion volume. Strasbourg: Council of Europe Publishing.
Fulcher, G. (2012). Assessment literacy for the language classroom. Language Assessment Quarterly, 9(2), p. 113-132. https://doi.org/10.1080/15434303.2011.642041
Hawkey, R. (2006). Impact theory and practice: Studies of the IELTS test and Progetto Lingue 2000. Cambridge: Cambridge University Press.
Madaus, G. F. (1988).The Influence of testing on the curriculum. In: Tanner, L. N. (Ed.). Critical Issues in Curriculum. Chicago, IL: The National Society for the Study of Education, p. 83-121.
McNamara, T., & Roever, C. (2006). Language testing: the social dimension. Oxford: Blackwell.
McNamara, T., & Ryan, K. (2011). Fairness versus justice in language testing: the place of English literacy in the Australian citizenship test. Language Assessment Quarterly, 8(2), p. 161-178. https://doi.org/10.1080/15434303.2011.565438
McNamara, T., Knoch, U., & Fan, J. (2019). Fairness, justice, and language assessment: the role of measurement. Oxford: Oxford University Press.
Morrow, K. (1991) Evaluating communicative tests. In: Anivan, S. (Ed.) Current developments in language testing. Singapore: Regional Language Centre, p. 111-118.
North, B., & Goodie, T. (2022). The CEFR/CV: a tool for teaching and learning. Available at: https://rm.coe.int/0900001680788b18. Access: 20 Oct. 2023.
O’Sullivan, B. (2012). A brief history of language testing. In: Coombe, C.; Davidson, P.; O’Sullivan, B.; & Stoynoff, S.. (Eds.). The Cambridge guide to second language assessment. Cambridge: Cambridge University Press, p. 9-19.
Piccardo, E., & North, B. (2019). The action-oriented approach: a dynamic vision of language education. Bristol: Multilingual Matters.
Popham, W. J. (1987). The merits of measurement-driven instruction. Phi Delta Kappan, 68(9), p. 679-682.
Scaramucci, M. V. R. (2000). Proficiência em LE: considerações terminológicas e conceituais. Trabalhos em Linguística Aplicada, 36, p. 11-22. Available at: https://periodicos.sbu.unicamp.br/ojs/index.php/tla/article/view/8639310. Access: 22 Oct. 2023.
Scaramucci, M. V. R. (2011) Validade e conseqüências sociais das avaliações em contextos de ensino de línguas. Lingvarvm arena, 2, p. 103 – 120.
Shepard, L. A. (1993). The place of testing reform in educational reform: a reply to Cizek. Educational Researcher, 22(4), p. 10-14.
Shohamy, E. (1998). Critical Language Testing and Beyond. Studies in educational evaluation, 24(4), p. 331–345. https://doi.org/10.1016/S0191-491X(98)00020-0
Shohamy, E. (2001). The Power of Tests: A Critical Perspective on the Uses of Language Tests. Oxon: Routledge.
Shohamy, E. (2017). Critical Language Testing. In: Shohamy, E., Or, I., May, S. (Eds). Language Testing and Assessment. Encyclopedia of Language and Education. Springer, Cham, p. 441–454.
Taylor, L., & Weir, C. (2009). Language Testing Matters: Investigating the wider social and educational impact of assessment. Studies in Language Assessment. Cambridge University Press.
Tsagari, D., & Cheng, L. (2016). Washback, Impact, and Consequences Revisited. In: Shohamy, E., Or, I., May, S. (Eds) Language Testing and Assessment. Encyclopedia of Language and Education. Springer, Cham. https://doi.org/10.1007/978-3-319-02326-7_24-1
Watanabe, Y. (2004). Methodology in washback studies. In: Cheng, L.; Watanabe, Y. & Curtis, A. (Ed.). Washback in language testing: research contexts and methods. Mahwah, NJ: Erlbaum, p. 19-36.
Comments