La Mejoredu y el retroceso de la evaluación educativa en México

La educación obligatoria en México ha mostrado un crecimiento muy importante, sin embargo, presenta niveles de cobertura y eficiencia terminal muy desiguales entre los distintos niveles educativos, así como bajos resultados de aprendizaje que, además, son muy inequitativos entre las distintas regiones del país. Lo anterior está asociado principalmente a las condiciones de pobreza del contexto social y de la oferta educativa, lo que provoca que las diferencias entre los aprendizajes de estudiantes con menores y mayores recursos económicos equivalgan a varios grados escolares.

Para que el sistema educativo nacional (SEN) se convierta en una institución que logre que todas y todos en México —independientemente de su condición económica y étnica— puedan crecer intelectualmente y contar con las mismas oportunidades para realizarse como seres humanos, se requiere mejorar significativamente la calidad y equidad de los servicios educativos que se ofrecen en el país. Lo que a su vez demanda que se conozcan con precisión las características del SEN, así como los resultados que logran en las distintas poblaciones estudiantiles; ello sólo se puede obtener a través de sistemas robustos de evaluación educativa.

Ilustración: Patricio Betteo

La evaluación de resultados educativos en México

Sin menospreciar los esfuerzos realizados por la Secretaría de Educación Pública (SEP), en nuestra opinión, el proyecto más importante del país para evaluar al SEN fue la creación del Instituto Nacional para la Evaluación de la Educación (INEE); organismo constitucionalmente autónomo que nació para contribuir a la mejora de la educación a través de información válida, pertinente y oportuna sobre los componentes, procesos y resultados del SEN, para poder cumplir con el propósito de “contar verdades” (como diría Mario Palma, refiriéndose al Inegi). No obstante, la alta calidad de los estudios del INEE, los elevados estándares técnicos de sus evaluaciones y los cientos de informes generados a lo largo de su existencia, en 2019, el gobierno actual desapareció al Instituto.

Para reemplazar al INEE, se creó la Comisión Nacional para la Mejora Continua de la Educación (Mejoredu), institución dependiente de la SEP, que conservó una parte de las funciones del extinto INEE, entre ellas, las de “realizar estudios, investigaciones especializadas y evaluaciones diagnósticas, formativas e integrales del SEN […] así como la de generar y difundir información que contribuya a la mejora continua de la educación. Para cumplir con su función, en 2021, la Mejoredu anunció un proyecto denominado Evaluación diagnóstica, formativa e integral (EDFI), que pretendía superar las limitaciones de las evaluaciones estandarizadas y su vinculación con los procesos educativos. Dicha evaluación se dirigió a estudiantes que cursaran del segundo grado de primaria al tercero de secundaria y su participación fue de carácter voluntario.

Por tratarse de una institución eminentemente técnica, su principal responsabilidad debió ser la caracterización conceptual, técnica y metodológica de esta “nueva evaluación”. La segunda responsabilidad era definir todas las etapas del proceso evaluativo y comunicar en qué consistiría la información que devolvería a la sociedad. Desafortunadamente, ambas se atendieron a la ligera y, en vez de realizar una evaluación que superara en calidad a las que tanto criticaba, el EDFI utilizó mecanismos de aplicación, análisis y devolución de resultados que se encuentran bastante alejados de los estándares científicos y de las buenas prácticas aceptadas por la comunidad académica a nivel mundial (ejemplos: Adkins, 1960; Chávez y Saade, 2009; Linacrem, 2017; Martínez y Juárez, 2020). Además de que incumple con lo que se indica en la Constitución para este tipo de estudios.

A pesar de que los lineamientos de Mejoredu reconocen que evaluar es una actividad eminentemente técnica, y de que es necesario realizar estimaciones válidas y confiables, en la documentación del EDFI nunca se mencionan los conceptos de validez y confiabilidad ni se alude a ellos; lo que hace suponer que los instrumentos utilizados y los resultados generados carecen de estos dos atributos indispensables de cualquier evaluación de gran escala. Ello nos hace recordar que una cosa es evaluar y otra, muy distinta, es evaluar bien. Esto aplica especialmente en el área de la educación: ni todas las pruebas sirven para evaluar a los estudiantes, ni todas las preguntas sirven para valorar si una alumna o un alumno domina una habilidad, conocimiento, destreza o competencia.

Desatendiendo sus propios lineamientos, la Mejoredu califica a los estudiantes con base en su porcentaje de aciertos, una forma primitiva de calificar pruebas que se utilizaba hace setenta años y que es reconocida ampliamente en la literatura por sus sesgos técnicos y sus limitaciones para poder obtener estimaciones válidas y comparables en el tiempo y entre grupos, permitiendo cometer errores e incluso alterar los resultados artificialmente.

Además, no explica cómo interpretar los resultados ni tampoco justifica la forma en que se establecieron, de manera arbitraria, lo que denominan “niveles de atención”, afirmando que los estudiantes que obtienen, al menos, 60 % de aciertos son de “prioridad baja”; como si la materia, el grado escolar, la dificultad de la prueba y las características de los alumnos fueran irrelevantes, y abriendo la posibilidad de engañar a la población, pues bastaría con diseñar exámenes más fáciles el siguiente ciclo escolar para concluir que hubo mejoras educativas debido a los programas de gobierno.

En su modelo de evaluación, Mejoredu argumentó: “…las y los docentes cuestionan los esquemas de aplicación masivos y a distancia por las dificultades de coordinación que implican y la insuficiencia de sus capacidades tecnológicas”. No obstante, en sus propias evaluaciones se contó con cuatro modalidades de aplicación: 1) cuadernillos y hojas de respuesta impresas, 2) cuadernillo proyectado en una pantalla y hojas de respuesta impresas, 3) aplicación por computadora en el aula y 4) administración en línea. En las primeras dos alternativas, las escuelas debían financiar las impresiones, implementar las evaluaciones y capturar manualmente las respuestas de los estudiantes; en las otras opciones, el éxito de la aplicación dependía directamente de la infraestructura y el equipamiento escolar. En todos los casos, la evaluación fue administrada por los propios docentes, con base en sus posibilidades y en circunstancias sumamente adversas y disímiles, provocando, una vez más, que las escuelas de mayor marginación administraran las evaluaciones en las peores condiciones, lo que se tradujo directamente en un sesgo importante de los resultados obtenidos.

La incapacidad de planear adecuadamente los procesos de evaluación y la ampliación descontrolada de la ventana de tiempo para aplicar las evaluaciones tuvieron enormes consecuencias en la calidad de los datos recolectados, pues no todos los estudiantes tuvieron las mismas oportunidades de participar, ni condiciones similares para responder a las evaluaciones. Por ejemplo, se permitió que en algunas escuelas se seleccionara intencionalmente a los alumnos y que en otras fuera posible brindarles ayuda durante la aplicación, además de que en múltiples casos los resultados no pudieron ser reportados por falta de capacitación docente y de asistencia técnica, así como por fallas en los procesos digitales.

Entonces, lejos de resolver los problemas señalados, la falta de claridad, comunicación y liderazgo para definir y explicar qué y cómo debían implementarse las evaluaciones provocó que los involucrados tuvieran que revisar, valorar y gestionar los mecanismos de aplicación de las pruebas y sus posteriores procesos de captura de datos, reporte y seguimiento, generando un gran número de complicaciones para quienes participaron en este ejercicio evaluativo. Dichas dificultades ocasionaron que el periodo de aplicación, establecido inicialmente del 5 al 15 de septiembre de 2022, se extendiera varias veces hasta concluir formalmente el 6 de noviembre de 2022. La falta de orden y la escasa supervisión durante la administración de las pruebas merma la confianza en los resultados, lo que en cualquier estudio serio resultaría inaceptable porque elimina las posibilidades de realizar estimaciones imparciales e imposibilita su comparabilidad en prácticamente todas las escalas y estratos.1

Informe de resultados

Conscientes de las limitaciones operativas e instrumentales de la nueva evaluación, así como de la falta de claridad y rigor para estimar los niveles de aprendizaje de los estudiantes y sus implicaciones para devolver los resultados, el informe señaló:

Aunque el tamaño de la muestra empleado se calculó para dar resultados con una precisión específica a nivel estatal y por tipo de servicio-sostenimiento en las entidades, las precisiones finales son dependientes de la participación obtenida. Desde luego, esto no es una mera casualidad, pues en el Artículo 27 de los Lineamientos para la evaluación diagnóstica se estableció que: … en ningún caso se podrán realizar comparaciones entre escuelas, alumnos y entidades federativas.

Con esta declaración, es evidente que, desde entonces, se pretendía evadir las responsabilidades institucionales heredadas. No es fácil deducir si esta decisión fue para evitar problemas futuros relacionados con las carencias técnicas del estudio, las implicaciones de los magros resultados educativos que podrían haberse hallado mediante una evaluación seria, los compromisos políticos de “no evaluar”, o un simple y profundo desdén por las técnicas y los conocimientos científicos y la responsabilidad de las instituciones públicas por hacer las cosas de la mejor manera posible.

Conclusiones

La evaluación del aprendizaje a gran escala se considera mundialmente como un instrumento indispensable para conocer la calidad de la educación de un sistema educativo, para identificar áreas de oportunidad de mejora y para rendir cuentas a la sociedad en la materia. Para lograr estos propósitos, se parte de la premisa fundamental de que los procesos de evaluación deben diseñarse y realizarse con altos estándares de calidad para que sus resultados sean válidos, confiables y se entreguen de manera oportuna. De no cumplirse con esta premisa, las evaluaciones resultan una pérdida de tiempo y de dinero, como ha sido el caso de la evaluación diagnóstica realizada por la Mejoredu en 2022.

Esencialmente, la calidad de un estudio evaluativo depende de dos características de quienes lo realizan: su capacidad técnica y su compromiso ético por hacerlo bien. Independientemente de los argumentos a favor o en contra de implementar evaluaciones estandarizadas a gran escala y de comparar sus resultados, como institución del Estado, la Mejoredu ha acumulado una profunda deuda educativa, social, técnica, discursiva y ética con la sociedad mexicana, pues ha utilizado los recursos públicos para cumplir con el despropósito de superar los rasgos más criticados de las evaluaciones previas que continuamente denuesta, para luego terminar incumpliendo con lo señalado en su modelo.

De haber existido una verdadera convicción y compromiso ético con sus promesas y críticas, Mejoredu debería haber comunicado, en cada oportunidad, que no habría posibilidad de comparar sus resultados ni entre entidades federativas ni a lo largo de los años. Aceptando con valentía que no habría evidencias disponibles sobre la validez y confiabilidad de los resultados de la evaluación diagnóstica, algo escandaloso en cualquier otro país, pero que en México —acostumbrados a múltiples calamidades educativas y científicas— podría haber sido comprendido y aceptado con la debida resignación, evitando crear falsas expectativas en los interesados, que han extrapolado los resultados de esta evaluación, haciendo inferencias falsas y sosteniendo argumentos ficticios sobre su utilidad.

En este sentido, en su propio boletín de difusión, Mejoredu opinó recientemente sobre sí misma:

Con la publicación del nuevo Modelo de evaluación diagnóstica formativa e integral se instauró un cambio conceptual que busca insertar gradualmente a la evaluación en los procesos educativos: aprendizaje, práctica docente y condiciones y procesos escolares, poniendo énfasis en la retroalimentación, fundamental para poner los resultados de las evaluaciones al servicio de la mejora continua de la educación.

Además, considera que cumple con los seis objetivos prioritarios de su Programa Institucional 2020-2024.

Sin embargo, el complaciente autorrelato se estrella estrepitosamente con la realidad. La evaluación diagnóstica no cumplió con los propósitos establecidos por la Mejoredu, tampoco representa a la población estudiantil que se propuso evaluar para conocer sus aprendizajes, ni colocó a la evaluación al servicio del SEN. En vez de alejarse de una evaluación estandarizada, comenzando por los aspectos criticados con tesón —con los que es fácil coincidir— los imitaron pobremente replicando sus aspectos más negativos, sacrificando en el camino los modestos aportes que una evaluación bien diseñada, planeada y ejecutada, brindaba en el pasado a la sociedad mexicana. Además, a pesar de que los datos no son comparables ni trazables en el tiempo, persiste una enorme opacidad metodológica y falta de acceso a la documentación básica que subyace el estudio, así como a los datos recolectados.

En suma, la Mejoredu deja una gran deuda al sector educativo y a la sociedad en su conjunto. No sólo no ha evaluado lo suficiente en tiempo y forma, sino que lo poco que ha hecho lo ha hecho mal. La evaluación anunciada terminó en un ejercicio demagógico que acompaña y profundiza el oscurantismo educativo en el que ha caído el país. La evaluación diagnóstica representa un retroceso de la evaluación educativa en México no menor a setenta años. Por ello concluimos que la única forma de medir y evaluar el aprendizaje de los estudiantes es hacerlo bien, cumpliendo con los altos estándares de calidad documentados por la comunidad científica internacional.

Desgraciadamente, la Mejoredu no pudo asumir la gran responsabilidad de convertirse en un referente educativo a nivel nacional, capaz de generar información válida, confiable y útil para mejorar el SEN. Sus deficiencias técnicas y sus comunicados anodinos le dan mayores argumentos al presidente de la República para que cumpla con la amenaza de desaparecerla.

 

Harvey Spencer Sánchez Restrepo
Presidente ejecutivo de la Agencia Latinoamericana de Evaluación y Política Pública

Eduardo Backhoff Escudero
Presidente del Consejo Directivo de Métrica Educativa, A.C.


1 Ver: Hanna, V., “PISA 2022 Technical Standards and guidelines”, OCDE, 2020; Britton y coautores, “Large-Scale Assessments in Science Education”, Handbook of Research on Science Education, Routledge, 2007


2 comentarios en “La Mejoredu y el retroceso de la evaluación educativa en México

  1. Lamentablemente tienen razón en un 90% de la información. Pero las áreas técnicas hicieron notar que desde que se implementaría la ED desde directores generales a titular hicieron caso omiso de la parte técnica. Más aún la prueba esta al 100% dada en la web con sus respuestas. Y el esfuerzo de jefes de proyecto, subdirectores y algunos directores fue desestimado sin más. Ojalá este tipo de criticas no fuera generalizada y si focalizada en los culpables de las tomas de decisiones, sobre todo por que el Dr. Backhoff trabajo con muchas de estas personas y sabe que no les gusta hacer mal su trabajo.

Comentarios cerrados