Cruce de las pruebas nacionales Saber 11 y Saber Pro en Antioquia, Colombia: una aproximación desde la regresión geográficamente ponderada (GWR)

Comparing the National Saber 11 and Saber Pro Exams in Antioquia, Colombia: An Approach from Geographically Weighted Regression (GWR)

Comparação das provas nacionais Saber 11 e Saber Pro em Antioquia, Colômbia: uma aproximação desde a regressão geograficamente ponderada (GWR)

Publicado
2018-01-01

Hasta donde sabemos, Colombia parece ser el único país en el mundo donde se puede evaluar exactamente a los mismos estudiantes que tomaron las pruebas estándar del Estado al terminar la secundaria y luego en una institución de educación superior (IES). Se caracteriza el desempeño de los resultados de los 1,806 estudiantes que tomaron la prueba Saber 11 para los años 2005 y 2006 y luego la prueba Saber Pro 2009-2010. Nuestro estudio se limita a aquellos estudiantes que se graduaron de un colegio y una IES en el departamento de Antioquia. El desempeño en la muestra es ligeramente inferior a la del universo en ambas pruebas. Se llevó a cabo una regresión exploratoria en ArcGis, la regresión de mínimos cuadrados y la regresión geográficamente ponderada (GWR). Se encontró una asociación positiva entre los puntajes de las dos pruebas. Paralelamente, los hijos de padre pensionado o que se encuentra estudiando obtienen mayores puntajes en la prueba Saber Pro, en comparación con los hijos de padre asalariado. Sorprendentemente, hay una relación negativa entre la pensión de los colegios y los puntajes en la prueba Saber Pro. Los estudiantes que asistieron a una IES en Rionegro obtuvieron mayores puntajes en esta prueba en comparación con las IES de otros municipios antioqueños. Se concluye que la GWR contribuye ligeramente a medir el carácter espacial de los datos de estas dos pruebas en el caso de Antioquia. 

Palabras clave: Antioquia, quality of education, secondary education, higher education, geographically weighted regression (en)
Palabras clave: Antioquia, calidad de la educación, educación media, educación superior, regresión geográficamente ponderada (es)
Palabras clave: Antioquia, qualidade da educação, educação média, educação superior, regressão geograficamente ponderada (pt)
La descarga de datos todavía no está disponible.
Mayerlin Castro Ávila, Universidad Pedagógica y Tecnológica de Colombia

Matemática. Fundación Itedris. Tunja, Colombia.

Jorge Ruiz Linares, Universidad Pedagógica y Tecnológica de Colombia

Posdoctorado en Geografía. Profesor asociado Escuela de Ciencias Sociales, Facultad de Educación, Universidad Pedagógica y Tecnológica de Colombia. Tunja, Colombia.

Fabían Guzmán Patiño, Pontifica Universidad Javeriana

Ingeniero Topográfico y estudiante Maestría.

Castro Ávila, M., Ruiz Linares, J., & Guzmán Patiño, F. (2018). Cruce de las pruebas nacionales Saber 11 y Saber Pro en Antioquia, Colombia: una aproximación desde la regresión geográficamente ponderada (GWR). Revista Colombiana De Educación, (74), 63-79. https://doi.org/10.17227/rce.num74-6898

Banco Mundial. (2009). La calidad de la educación en Colombia: un análisis y algunas opciones para un programa de política. Bogotá: autor. 

Banco Mundial. (2012). Reviews of national policies for education: Tertiary education in Colombia 2012. Washington: World Bank. 

Barrera-Osorio, F.; Maldonado, D. y Rodríguez, C. (2012). Calidad de la Educación Básica y Media en Colombia: diagnóstico y propuestas. Bogotá: Universidad de los Andes, Centro de Estudios de Desarrollo Económico, Documentos cede, n.o 41. 

Breusch, T. S. y Pagan, A. R. (1979). A simple test for heteroskedasticity and random coefficient variation. Econometrica, 47(5), 1287-1294. 

Brunsdon, C. F.; Fotheringham A. S. y Charlton, M. E. (1996). Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28(4), 281-298. 

Camacho, A.; Messina, J. y Uribe, J. P. (2016). The Expansion of higher education in Colombia: Bad students or bad programs? Washington: Interamerican Development Bank, Department of Research and Chief Economist. Discussion Paper IDB-DP-452. Recuperado de http://www.iadb.org

Charlton, M. y Fotheringham, A. S. (2009). Geographically weighted regression white paper. National Centre for Geocomputation. National University of Ireland, Maynooth. 

Faguet, J. P. y Sánchez, F. (2008). Decentralization’s Effects on Educational Outcomes in Bolivia and Colombia. World Development, 36, 1294-1316. Doi: 10.1016/j.worlddev.2007.06.021. 

Fortin, M. J.; James, P. M. A.; MacKenziea, A.; Melles, S. J. y Rayfield, B. (2012). Spatial statistics, spatial regression, and graph theory in ecology. Spatial Statistics, 1, 100-109. 

Fotheringham, A. S. Brunsdon, C. y Charlton, M. (2000). Quantitative geography perspectives on spatial data analysis. Londres: Sage. 

Fotheringham, A.; Brunsdon, C. y Charlton, M. (2002). Geographically weighted regression: The analysis of spatially varying relationships. Bognor: John Wiley & Sons. 

Gaviria, A. y Barrientos, J. H. (2001). Determinantes de la calidad de la educación en Colombia. Archivos de Economía, 159

Gelfand, A. E.; Diggle, P. J.; Fuentes, M. y Guttorp, P. (2010). Handbook of spatial statistics. Boca Raton, FL: CRCPress. 

Gómez, S. C. (2016). Educational achievement at schools: Assessing the effect of the civil conflict using a pseudo-panel of schools. International Journal of Educational Development, 49, 91-106. 

Griffith, D. A. (1987). Spatial autocorrelation: a primer. Washington: Association of American Geographers: Resource Publications in Geography. 

Guhl, A. (2005). ¿Qué tan nacional es la Universidad Nacional de Colombia? Bogotá: Universidad Nacional de Colombia, Serie Documentos de Trabajo n.o 7. https://geodacenter.asu.edu/software/downloads/gwr_downloads 

Hinderer, K. A.; Dibartolo, M. C. y Walsh, C. M. (2014). Hesi Admission Assessment (A 2) examination scores, program progression, and nclex-rn success in baccalaureate nursing: An exploratory study of dependable academic indicators of success. Journal of Professional Nursing, 30(5), 436-442. 

International Bureau of Education-Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura. (2017). A resource pack for gender-responsive stem Education. Ginebra: IBE-Unesco. 

Kobrin, J.; Sinharay, S.; Haberman, S. y Chajewski, M. (2011). An investigation of the fit of linear regression models to data from an SAT R validity study. College Board Research Report 2011-3. Recuperado de http://www.ets.org/Media/Research/pdf/RR-11-19.pdf 

Loaiza, O. L. e Hincapié, D. (2016). Un estudio de las brechas municipales en calidad educativa en Colombia: 2000-2012. Ensayos sobre Política Económica, 34, 3-20. http://dx.doi.org/10.1016/j.espe.2016.01.0010120-4483

Mee, C. L. y Hallenbeck, V. J. (2015). Selecting standardized tests in nursing education. Journal of Professional Nursing, 31(6), 493-497. 

Melguizo, T.; Sánchez, F. y Velasco, T. (2016). Credit for low-income students and access to and academic performance in higher education in Colombia: A regression discontinuity approach. World Development, 80, 61-77. Doi: 10.1016/j.worlddev.2015.11.018. 

Melo, L. A., Ramos, J. E. y Hernández, P. O. (2014). La Educación Superior en Colombia: situación actual y análisis de eficiencia. Borradores de Economía, 808. Recuperado de www.academia.edu 

Moran, P. A. P. (1950). Notes on continuous stochastic phenomena. Biometrika, 37(1), 17-23. 

Nakaya T. (2009). GWR4: Windows Application for Geographically Weighted Regression Modelling. Kyoto: Department of Geography, Ritsumeikan University. 

Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura, Unesco. (2017). A guide for ensuring inclusion and equity in education. París: autor. 

Rodríguez, C.; Sánchez, F. & Armenta, A. (2010). Do interventions at school level improve educational outcomes? Evidence from a rural program in Colombia. World Development, 38, 3, 415-428. Doi: 10.1016/j.worlddev.2009.10.002. 

Rosenshein, L. y Rose, B. (2013). Spatial statistics best practices. San Diego, CA: ESRL International User Conference. Recuperado de http://video.esri.com/watch/2959/spatial-statistics-best-practices. 

Saavedra, J. E. (2012). Resource constraints and educational attainment in developing countries: Colombia 1945-2005. Journal of Development Economics. 99, 80-91. Doi: 10.1016/j.jdeveco.2011.09.006. 

Tobler, W. (1970). A computer movie simulating urban growth in the Detroit area. Economic Geography, 46, 234-240. 

Waller, L. A. (2014). Putting spatial statistics (back) on the map. Spatial Statistics, 9, 4-19. 

Zoghbi, A. C.; Rocha, F. y Mattos, E. (2013). Education production efficiency: Evidence from Brazilian universities. Economic Modelling, 31, 94-103. 

Zwick, R. (2010). Admissions testing. International Encyclopedia of Education (3.a ed.). Oxford: Elsevier.

Recibido: 7 de febrero de 2017; Aceptado: 27 de febrero de 2017

Resumen

Hasta donde sabemos, Colombia parece ser el único país en el mundo donde se puede evaluar exactamente a los mismos estudiantes que tomaron las pruebas estándar del Estado al terminar la secundaria y luego en una institución de educación superior (IES). Se caracteriza el desempeño de los resultados de los 1,806 estudiantes que tomaron la prueba Saber 11 para los años 2005 y 2006 y luego la prueba Saber Pro 2009-2010. Nuestro estudio se limita a aquellos estudiantes que se graduaron de un colegio y una IES en el departamento de Antioquia. El desempeño en la muestra es ligeramente inferior a la del universo en ambas pruebas. Se llevó a cabo una regresión exploratoria en ArcGis, la regresión de mínimos cuadrados y la regresión geográficamente ponderada (GWR). Se encontró una asociación positiva entre los puntajes de las dos pruebas. Paralelamente, los hijos de padre pensionado o que se encuentra estudiando obtienen mayores puntajes en la prueba Saber Pro, en comparación con los hijos de padre asalariado. Sorprendentemente, hay una relación negativa entre la pensión de los colegios y los puntajes en la prueba Saber Pro. Los estudiantes que asistieron a una IES en Rionegro obtuvieron mayores puntajes en esta prueba en comparación con las IES de otros municipios antioqueños. Se concluye que la GWR contribuye ligeramente a medir el carácter espacial de los datos de estas dos pruebas en el caso de Antioquia.

Palabras clave:

Antioquia, calidad de la educación, educación media, educación superior, regresión geográficamente ponderada.

Abstract

As far as we know, Colombia is the only country in the world where you can evaluate the exact same students who took the standardized state examination during their last year of high school and then at a higher education institution (HEI). We describe the performance of the 1806 students who took the Saber 11 test in 2005-2006, and then the Saber Pro test in 2009-2010. Our study is limited to students who graduated from high school and from a HEI in the Department of Antioquia. Performance in the sample is slightly lower than that of the universe in both tests. We ran an exploratory regression in Arcgis, the least-squares regression, and the geographically weighted regression (GWR). We found a positive association between the scores of the two tests. At the same time, the children of retired parents or who are studying obtain higher scores than those of wage-earning parents. Surprisingly, there is a negative relation between school tuition and the Saber Pro scores. Students who attended a HEI in Rionegro obtained higher scores in this test compared to HEI from other municipalities in Antioquia. We concluded that GWR contributes slightly to measuring the spatial nature of the two tests in the case of Antioquia.

Keywords:

Antioquia, quality of education, secondary education, higher education, geographically weighted regression.

Resumo

Até onde é sabido, Colômbia parece ser o único país no mundo onde é possível avaliar exatamente os mesmos estudantes que prestaram as provas standard do Estado ao concluir a média e após em uma instituição de educação superior (IES). Será descrito o desempenho dos resultados dos 1,806 estudantes que prestaram a prova Saber 11 nos anos 2005 e 2006, e posteriormente, a prova Saber Pro 2009-2010. Este estudo limita-se a esses estudantes que concluíram seus estudos no departamento de Antioquia. O desempenho na amostra é ligeiramente inferior ao desempenho geral nas duas provas. Foi elaborada uma regressão exploratória em Arcgis, a regressão de mínimos quadrados e a regressão geograficamente ponderada (GWR). Evidenciou-se uma associação positiva entre as pontuações das duas provas. Paralelamente, os filhos de pais aposentados ou que ainda estão estudando obtém maiores pontuações na prova Saber Pro, em comparação com os filhos de pais assalariados. Surpreendentemente, existe uma relação negativa entre o custo das escolas e as pontuações obtidas na prova Saber Pro. Os estudantes de uma IES em Rionegro obtiveram uma pontuação maior nesta prova em comparação com as IES de outros municípios de Antioquia. Em conclusão, a GWR contribui parcialmente na medição do caráter espacial dos dados das provas no caso de Antioquia.

Palavras-chave:

Antioquia, qualidade da educação, educação média, educação superior, regressão geograficamente ponderada.

Introducción

El objetivo número cuatro de la Agenda de Desarrollo Sustentable 2030, adoptada por las Naciones Unidas en el 2015, subraya la importancia de una educación inclusiva y de calidad (Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura, UNESCO, 2017). Para lograr desarrollarse sustentablemente, los países requieren de profesionales en tecnología, matemáticas, ciencias e ingeniería; no obstante, en el 2013 menos de una de cada tres mujeres en el mundo optaba por esta avenida científica (International Bureau of Education [IBE]-Unesco, 2017). Colombia no es una excepción.

A pesar de los avances en cobertura en los planteles oficiales, asociados a la descentralización de las finanzas (Faguet y Sánchez, 2008), el Banco Mundial (2009) cree que en el país es necesario aumentar la calidad y equidad de la educación. Desde hace lustros se había evidenciado que la diferencia entre la riqueza de departamentos, y dentro de estos el diferencial urbano/rural, se asocia a las tasas de logro y finalización de la educación secundaria (Gaviria y Barrientos, 2001). Incluso el sector rural colombiano se ha catalogado en un círculo de pobreza, entre otros, por no contar con acceso a la educación (Rodríguez, Sánchez y Armenta, 2010).

En este orden de ideas, no se puede desconocer que el conflicto armado contribuyó a comprometer la educación nacional (Gómez, 2016). Algunos municipios colombianos viven en unas burbujas de paz; no es extraño entonces que haya una amplia evidencia que soporte que el acceso a las universidades en el país presenta enormes disparidades socioeconómicas y por región (Melguizo, Sánchez y Velasco, 2016) e incluso a nivel municipal (Loaiza e Hincapié, 2016).

Saavedra (2012) subraya que pocos gobiernos han podido aumentar simultáneamente la cobertura y la calidad en educación. La evidencia sugiere que la rápida expansión de programas profesionales en Colombia deterioró su calidad (Barrera-Osorio, Maldonado y Rodríguez, 2012; Camacho, Messina y Uribe, 2016). Lo anterior se explica, ya que los exámenes de Estado estándar, como las pruebas Saber, permiten una evaluación de los avances en la calidad de la educación y permiten documentar diferenciales socioeconómicos y espaciales.

El presente estudio se justifica ya que después de la revisión de la literatura académica y consulta con expertos, no encontramos trabajos acerca del cruce de las bases de datos de las pruebas Saber 11 y Saber Pro de los mismos estudiantes, esto es, su desempeño en la secundaria y luego al finalizar los estudios profesionales.

Las pruebas Saber no solo permiten la evaluación de la calidad en la educación, también ofrecen la posibilidad de ajustar la política educativa tanto en instituciones públicas como privadas. Según el Banco Mundial (2012), estas dos pruebas usadas conjuntamente pueden hacer de Colombia un líder en la evaluación del valor agregado de la educación superior. Luego de una revisión de la literatura y consulta con expertos, este parece ser el único país del mundo donde es posible vincular exactamente a los mismos estudiantes que tomaron las pruebas estándar de Estado al finalizar la secundaria y la educación de pregrado. En Brasil hay una prueba de Estado, la Enade, pero para el primer y último año de la universidad, y se usa para evaluar desempeño (Zoghbi, Rocha y Mattos, 2013). En los Estados Unidos se puede hacer una evaluación similar a la brasileña, pero exclusivamente para el caso de la enfermería. Hinderer, Dibartolo y Walsh (2014) subrayan que los programas de enfermería desean aceptar a los mejores postulantes y los evalúan con un examen antes de la admisión y otro al haberse registrado profesionalmente. Inclusive para el examen de enfermería, llamado National Council Licensure Examination (NCLEX)© hay varias pruebas estándar previas, sin que exista mucha literatura que ayude a los docentes en esas escuelas de enfermería a preparar a sus alumnos para aprobar la prueba nacional (Mee y Hallenbeck, 2015).

La estadística, en particular la estadística espacial, puede ayudar en la interpretación de datos en las pruebas estándar, por una muy sencilla razón: el lugar importa. Los análisis de datos locales cobran importancia en comparación con los análisis globales debido a que las estadísticas en la gran mayoría de las disciplinas presentan sesgos espaciales. Es así como un elemento central en el pensamiento espacial es el reconocimiento de que el resultado de una variable cambia dependiendo del lugar donde se mida; esto además permite la explicación espacial de dicha variación (Waller, 2014). Hay muchos ejemplos entre las ciencias sociales y exactas que presentan dicho comportamiento de variabilidad espacial. Por ejemplo, el ingreso per cápita o la precipitación promedio anual varían mucho a lo largo y ancho de la geografía colombiana. Un dato nacional de estos indicadores sería muy pobre y de ninguna utilidad; incluso su validez a nivel departamental es cuestionable. ¿De qué nos sirve saber que la precipitación anual promedio en Boyacá es de 1384 mm cuando se sabe que en el municipio de Santa María es un orden de magnitud mayor que en Tasco? Resulta paradójico que mientras no se aceptan los estadísticos promedio, hay una tendencia a aceptar los modelos de regresión globales (Fotheringham, Brunsdon y Charlton, 2002).

Adicionalmente, desde hace décadas en la estadística, en especial a partir de la creación de los modelos de regresión para explicar mediante variables explicativas o independientes una variable dependiente, se ha omitido la espacialidad de los datos, incluso si esta existe. Como lo subrayan Gelfand, Diggle, Fuentes y Guttorp (2010), por muchos años la estadística espacial trabajó en la periferia de la corriente principal estadística.

No contemplar la espacialidad de los datos sin duda lleva a sacar conclusiones erradas de un análisis de regresión y emergen problemas de especificación en los modelos cuando la dependencia espacial está presente en los datos. Es una práctica común formular complejos modelos econométricos a espaldas del ámbito espacial y suponer que el modelo es robusto en toda el área de estudio.

Uno de los supuestos básicos de la estadística tradicional es que se asume que los datos son independientes. No obstante, si hay autocorrelación espacial, o temporal, se compromete el modelo (Griffith, 1987). En este orden de ideas, el estadístico de Moran (Moran's I), es la prueba que mide si los datos exhiben autocorrelación espacial (Moran, 1950).

He aquí la importancia de técnicas estadísticas como la regresión geográficamente ponderada (GWR), que tiene su génesis a mediados de los años noventa del siglo pasado y hace frente a este tipo de problemas. La GWR es un tipo novedoso de regresión que permite una mejor comprensión de los modelos, siempre y cuando se cuente con una variable espacial. La GWR permite abordar los modelos localmente y evaluarlos de cara al modelo global. Además contribuye a desarrollar un análisis de regresión apropiado sobre un conjunto de datos, partiendo esencialmente de la dependencia espacial y asumiendo el carácter local de los datos (Brunsdon, Fotheringham y Charlton, 1996).

La GWR busca principalmente que se puedan observar las variaciones espaciales de los parámetros estimados y con ello saber dónde y de qué magnitud es el efecto de una variable explicativa sobre la dependiente. Se trata de ajustar tantas regresiones como observaciones (unidades espaciales) se consideren en el análisis. Este a su vez es su principal pecado: puede haber tantas ecuaciones en el estudio, que dificulten su análisis. En otras palabras, a diferencia de una ecuación global, se obtienen modelos locales; este es el precio que se paga. Estos modelos se calculan con base en el concepto de decadencia de los datos, toda vez que se da más peso a las observaciones más próximas y menos a las más lejanas. Lo anterior no es otra cosa que la aplicación de la primera ley de geografía (Tobler, 1970): los resultados de mediciones cercanas tienden a ser más parecidas entre estas que las mediciones lejanas. Este concepto es operacionalizado por medio de una función Kernel, que simule el efecto de caída con el aumento de la distancia. En consecuencia, se pueden realizar estimaciones ajustadas a cada observación, aplicando su correspondiente ecuación.

El modelo global se propone como:

Donde

Yi- es la variable dependiente, X k,i es la k-ésima variable explicativa, ß k representan los parámetros a estimar Ɛi y es el error en la ubicación i .

La GWR está dada por la siguiente ecuación:

Donde

y i , es la variable dependiente, xki,, es la k-ésima variable explicativa, Ɛi , es el error en la ubicación i, (u i , v i ) son las coordenadas (x,y) de la i-ésima ubicación y ßk (u i , v i ) son los diversos condicionales sobre la ubicación.

Materiales y métodos

La unidad de análisis del presente estudio se define por aquellos estudiantes que se graduaron de un colegio en Antioquia y además cursaron su carrera profesional en el mismo departamento. Las bases de datos utilizadas fueron descargadas del portal del Instituto Colombiano para la Evaluación de la Educación (ICFES), y comprenden los resultados de las pruebas Saber 11 para los años 2005 y 2006 en ambos semestres, y los resultados de estos mismos estudiantes en las pruebas Saber Pro del año 2009 y segundo semestre del 2010. Es decir, hubo cuatro pruebas Saber 11 y tres pruebas Saber Pro. En estas se está haciendo un seguimiento al mismo estudiante con los resultados de las dos pruebas Saber arriba mencionadas, con una diferencia temporal de entre 10 y 13 semestres. Estas fechas se escogieron porque en el momento de hacer la investigación eran las más recientes disponibles en el portal del ICFES.

Esta muestra no es generalizable por varias razones. En primer lugar, estamos considerando a aquellos estudiantes que fueron exitosos, esto es, que culminaron el bachillerato y la educación superior. No menos importante es el filtro aplicado: se tomaron tan solo aquellos estudiantes que se tardaron 5 a 6,5 años luego de presentar la prueba Saber 11 en presentar la Saber Pro. En segundo lugar, la ventana establecida de 10 a 13 semestres entre ambas pruebas deja por fuera primero a aquellos estudiantes que presentaron la prueba Saber 11 y no presentaron la Prueba Saber Pro y viceversa, o, por el contrario, que presentaron ambas pruebas pero se demoraron menos de cinco o más de seis años y medio entre estas. Otros estudiantes que no se capturan en nuestro estudio son aquellos que se graduaron en algún colegio de Antioquia pero cursan la educación superior fuera de este departamento, o viceversa. Suponemos que estamos recogiendo la mayoría de los mejores estudiantes, es decir, las pruebas Saber 11 y Pro por fuera de nuestra ventana son seguramente inferiores, hipótesis que se prueba líneas abajo. Enseguida se hizo un primer filtro de la base de datos ya que no todas tenían la información de las variables completa y no en todas coincidían las mismas variables. En otras palabras, el fin era obtener una base de datos homogénea, que tuviera las exactamente mismas variables del listado que se presenta a continuación.

Para el caso de las bases de datos de las pruebas Saber 11 se tuvieron en cuenta las siguientes variables:

  1. Edad de presentación de la prueba Saber 11 (edad juliana), obtenida a partir de la fecha de nacimiento del estudiante y la fecha de presentación de la prueba.

  2. Genero del estudiante.

  3. Jornada del colegio.

  4. Calendario del colegio.

  5. Carácter académico del colegio.

  6. Valor mensual que pagó de pensión en el colegio.

  7. Municipio del colegio.

  8. Puntaje de la prueba Saber 11, el cual se calcula de acuerdo a la Resolución 569 de 18 de octubre de 2011 del ICFES.

En el caso de las bases de datos de las pruebas Saber Pro se tuvieron en cuenta las siguientes variables:

  1. Estrato del estudiante.

  2. Estado civil del estudiante.

  3. Edad de presentación de la prueba Saber Pro (edad juliana), obtenida a partir de la fecha de nacimiento del estudiante y la fecha de presentación de la prueba.

  4. Tiempo transcurrido entre la presentación de la prueba Saber 11 y la de la prueba Saber Pro. Esta se obtiene restando la primera edad juliana de la segunda.

  5. Valor anual de la matrícula.

  6. Jornada de la institución.

  7. Sector de la institución.

  8. Carácter académico de la institución.

  9. Puntaje de la prueba Saber Pro. Esta fue la variable dependiente de los modelos.

  10. Nivel educativo más alto alcanzado por la madre.

  11. Nivel educativo más alto alcanzado por el padre.

  12. Ocupación actual de la madre.

  13. Ocupación actual del padre.

  14. Municipio de la institución.

  15. Distancia euclidiana entre la ciudad del colegio donde presentó la prueba Saber 11 y la ciudad sede de la íes donde presentó la prueba Saber Pro.

Las bases de datos estaban dadas en formato Microsoft Access. Se purificaron en ese mismo programa, de tal manera que los datos arrojados por cada variable fueran coherentes, ya que para algunos casos se presentaron valores atípicos; esto es, fuera de lo esperado. Por ejemplo, existían estudiantes que presentaron la prueba Saber 11 con una edad inferior a los 14 años, lo cual es muy improbable; por eso se excluyó a estos estudiantes. Seguidamente los datos se exportaron de Access a Excel para así poder realizar el cruce con la llave común entre ambas pruebas y obtener de cada uno una fila unificada. Adicionalmente, en el programa ArcGis 10.2 se agregaron las coordenadas planas en el Marco Geocéntrico Nacional de Referencia Magna Sirgas, datum oficial de Colombia (www.igac.gov.co), correspondientes a la ciudad donde queda ubicado el colegio y la ÍES. Se calculó, con estos dos puntos, la distancia lineal o euclidiana entre ambas ciudades, siendo cero si asistió a la misma ciudad para la secundaria y la ÍES.

Para el periodo en cuestión, un total de 94180 estudiantes de grado 11 presentaron la prueba Saber 11 en Antioquia y entre 5 y 6,5 años después 33368 estudiantes presentaron la prueba Saber Pro, para una razón de aproximadamente uno a tres (véase la tabla 1). Tan solo 14,4 % de los estudiantes que presentaron la prueba Saber 11 entre el 2005 y 2006 presentaron la prueba Saber Pro entre el 2009 y el 2010. Luego de los diversos filtros aplicados, se obtuvo una base de datos con 1806 estudiantes que habían presentado ambas pruebas en el departamento de Antioquia (véase la tabla 1).

Tabla 1: Universo y muestra luego de todos los filtros aplicados, pruebas Saber 11, 2005 y 2006 y Saber Pro, 2009 y 2010, para Antioquia

Fuente: elaboración propia

Existe una diferencia entre el universo de los que presentaron las dos pruebas Saber Pro, esto es 13 540, y la muestra por el carácter oficial o privado de la íes. Nuestra muestra exhibe una frecuencia relativa ligeramente mayor, de medio punto porcentual aproximadamente, para instituciones privadas (véase la tabla 2).

Tabla 2: Frecuencias absolutas y relativas del universo y muestra respecto del carácter de la ÍES para exactamente los mismos estudiantes que tomaron la prueba Saber 11 en 2005 y 2006 y la prueba Saber Pro en 2009 y 2010 en Antioquia

Fuente: elaboración propia

Se escogió el programa ArcGis 10.2 en lugar del programa de dominio público GWR 4.0 (Nakaya, 2009.) Si bien este último se puede descargar gratuitamente para el sistema operativo Windows (https://geodacenter. asu.edu/software/downloads/gwr_downloads), presenta dos limitaciones. Primero, ArcGIS permite adelantar la regresión exploratoria con seis reglas antes de procesar la GWR, como se verá. Segundo, los archivos de salida en Arccis se pueden cartografiar inmediatamente sin necesidad de pasos intermedios, como lo requiere GWR 4.0.

Se llevó a cabo una evaluación diagnóstica en ArcGIS 10.2 al ejecutar la regresión exploratoria o Exploratory Regression. Esta rutina ejecuta un modelo de mínimos cuadrados con todas las variables independientes. Esto permite evaluar el desempeño de las variables explicativas y llegar a especificar el modelo apropiadamente. Se hizo la regresión exploratoria en ArcGIS 10.2 con todas las variables independientes con el fin de especificar apropiadamente un modelo; el mejor se comparó entre GWR y la regresión global, este último en SPSS. En otras palabras, el objetivo del presente estudio es evaluar si es necesario utilizar un GWR. La rutina GWR calcula miles de posibles combinaciones con una o más variables explicativas. Si no se obtiene un modelo apropiado, esta herramienta indica por qué el modelo no fue satisfactorio. Las seis reglas que se tuvieron en cuenta, siguiendo a Rosenshein y Rose (2013) fueron:

  1. El signo (+/-) de los coeficientes debe ser el esperado. Por ejemplo, el coeficiente de la variable Puntaje Saber 11 debe tener una asociación positiva con la variable dependiente, Puntaje Saber Pro. En otras palabras, los estudiantes que obtuvieron en su Saber 11 buenos puntajes, es más probable que presenten nuevamente buenos puntajes en la prueba Saber Pro.

  2. El modelo en su totalidad, así como cada variable en el modelo, debe ser significativa con un nivel alfa del 5 %.

  3. El índice de inflación de la varianza (variance inflation factor, o VÍF por sus siglas en inglés) mide la severidad de la colinearidad, en otras palabras, la redundancia entre las variables explicativas. Esto significa que evita que dos o más variables expliquen lo mismo. En ese sentido se mide cuánta inflación de la varianza se debe a multicolinearidad; en una regresión de mínimos cuadrados, debe ser inferior a 7,5.

  4. El índice de Moran (SA), que como se mencionó mide autocorrelación espacial, debe apuntar a que los residuales de sub- y sobrepredicciones no deben presentar aglomeraciones. Esto sugeriría que haría falta encontrar al menos otra variable que asegurara que estos residuales son aleatorios.

  5. La prueba de Jarque-Bera (JB) mide si los residuales exhiben una distribución normal. Si SA y JB son significativos, esto es indicativo de falencias atribuibles a los residuales en el modelo.

  6. El R2 ajustado debe ser superior al 50 °%. Este indicador refleja la parsimonia del modelo de cara al número de variables independientes. Adicionalmente se busca reducir el criterio de información de Akaike (AÍC, por sus siglas en inglés). Este último es una medida de la calidad relativa del ajuste del modelo teniendo en cuenta el ajuste y su complejidad. En otras palabras, a un R2 ajustado similar, se prefiere aquel que tenga un más bajo AÍC. Este punto cobra mucha relevancia cuando la salida del programa arroja una docena de modelos que pasaron las pruebas diagnósticas.

Finalmente, los modelos aquí abordados se justifican de frente a que Kobrin, Sinharay, Haberman y Chajewski (2011) encontraron que los modelos lineales son apropiados para las pruebas académicas ya que los modelos más complejos no proporcionaban una mejora significativa.

Resultados

Tan solo un modelo de las miles de combinaciones que hace la regresión exploratoria pasó las seis reglas, con cuatro variables explicativas, a saber: valor de la pensión del colegio, resultado de la prueba Saber 11, carácter del colegio y ocupación del padre. El R2 ajustado es 50,3 %, la prueba de Jarque-Bera (JB) e índice de Moran (SA) son superiores a 0,05 (véase la tabla 1). Esto quiere decir que los residuales que arroja el modelo están normalmente distribuidos y que además no se evidencia la presencia de autocorrelación espacial. La prueba de Koenker (Breusch y Pagan, 1979) N° 74 no resultó significativa al 5 °/o, pero sí al 10 °/o, lo que sugiere que el modelo es marginalmente estacional. La constante como cada una de las variables 72J explicativas son significativas a un nivel alfa del 5 %, y finalmente el índice de inflación de la varianza es inferior a 7,5 (véase la tabla 3).

Tabla 3: Estadísticos del modelo de mínimos cuadrados que pasa la prueba de regresión exploratoria en Arcgis

Fuente: elaboración propia

Nota. Para las variables y coeficientes referirse a la tabla 2. Para las siglas referirse al texto

El modelo global sugiere que hay una relación negativa entre el valor de la pensión y el puntaje de la prueba Saber Pro del estudiante. En otras palabras, cuanto menor el valor de la pensión del colegio, mayor es el puntaje de la prueba Saber Pro. Este resultado es sorprendente pues indicaría un sustancial avance en la calidad de la educación en colegios públicos con más bajas pensiones para los años en que presentaron la prueba Saber 11, esto es, 2005 y 2006. Es posible que aquí también se capturen los buenos estudiantes que se encuentran becados en los distintos colegios y pagan menos pensión o ninguna (véase la tabla 4). Como era de esperarse, existe una relación positiva entre los puntajes de la prueba Saber 11 y Saber Pro, esto es: a mayor puntaje en la prueba Saber 11, mayor puntaje en Saber Pro. Los estudiantes que fueron buenos en el colegio continúan siéndolo en la ÍES (véase la tabla 4). Además, hay una relación negativa entre el carácter académico de esta y el puntaje de la prueba Saber Pro: si se estudia en una universidad, este puntaje es mayor en comparación con otro tipo de ÍES, como lo son por ejemplo: institución académica, escuela tecnológica, o técnica profesional (véase la tabla 4).

Finalmente, existe una relación positiva entre la ocupación del padre y el puntaje de obtenido en la prueba Saber Pro; en ese sentido, los hijos de padres pensionados o que estudian obtienen mayores puntajes en la prueba Saber Pro, en comparación con aquellos cuyos padres son asalariados (véase la tabla 4).

Tabla 4: Coeficientes del modelo global, prueba "t" y significancia obtenidos con mínimos cuadrados con la variable dependiente el puntaje de la prueba Saber Pro y cuatro variables explicativas

Fuente: elaboración propia

Luego de contar con un modelo que pasa las seis pruebas, se procede a ejecutar la GWR para este modelo en ArcGIS utilizando como tipo de modelo gausiano y un Kernel adaptativo gausiano, con la opción de búsqueda de sección de oro (Golden Section Search).

Una forma de generalizar los resultados es mapeando los residuales. Esto permite identificar zonas donde el efecto de ciertas variables es sobresaliente. Según los resultados de GWR al promediar los residuales para diez ciudades antioqueñas, se logra identificar que el municipio de Rionegro exhibe altos residuales estándar, lo que indica que los estudiantes que asisten a ÍES en esa ciudad logran mejores puntajes en la prueba Saber Pro en comparación con los que estudian en ÍES de otros municipios antioqueños, en contraste se identifica que el municipio de Caucasia exhibe bajos residuales estándar, lo cual señala que los estudiantes que asisten a ÍES en dicha cuidad obtienen bajos puntajes en la prueba Saber Pro (véase la figura 1).

Residuales promedio estándar de la GWR, para explicar el puntaje de la prueba Saber Pro (2009 y 2010) en Antioquia.

Figura 1: Residuales promedio estándar de la GWR, para explicar el puntaje de la prueba Saber Pro (2009 y 2010) en Antioquia.

Fuente: elaboración propia.

En la tabla 5 se muestra la comparación del modelo global con el GWR. Se aprecia una leve mejoría en el R2 ajustado y una leve reducción en el AÍC. Esto puede deberse a que el K(BP) no era tan significativo, lo que indicaba un buen desempeño del modelo global en Antioquia (véase la tabla 3).

Tabla 5: Comparación del ajuste del modelo global con el de GWR con exactamente las mismas variables independientes para predecir el puntaje de la prueba Saber Pro en Antioquia

Fuente: elaboración propia

Nuestra hipótesis respecto al diferencial del puntaje Saber 11 y Saber Pro entre el universo y la muestra resultó falsa. Los estudiantes de la muestra exhibieron puntajes más bajos, resultado estadísticamente significativo (véase la tabla 6).

Tabla 6: Comparación de los resultados de la media de la prueba Saber Pro entre el universo y la muestra

**Diferencia de dos medias estadísticamente significativa p < 0.01. Fuente: elaboración propia

Discusión

El uso de la regresión exploratoria es muy atractivo con el fin de lograr un modelo apropiadamente especificado; al fin y al cabo no hay sustituto para el sentido común. En consecuencia, un modelo debe idealmente contener las variables, que en este caso se pueden modificar por política pública o por decisiones de los padres de familia al escoger el colegio de sus hijos. De las cuatro variables en el modelo, tan solo la ocupación del padre no es susceptible de mejorar en gran medida, desde la perspectiva de la política pública, mientras que las otras tres sí lo son. La ocupación del padre sugiere que un padre pensionado o que estudia puede brindar un mayor cuidado parental, lo que parece ser benéfico para la educación superior de los hijos.

Es claro a partir de los resultados obtenidos que las deficiencias y bondades de la educación secundaria se perpetúan en la educación superior. Lastimosamente la evidencia que apunta hacia una pobre calidad de la educación secundaria en Colombia es abrumadora. Es por esto que los estudiantes con bajo desempeño en la secundaria continúan con este comportamiento en las ÍES. En el caso colombiano este hallazgo ya había sido documentado por Melo, Ramos y Hernández (2014). En otras palabras, nuestro estudio apoya la validez predictiva de los exámenes de admisión a la educación superior postulada por Zwick (2010).

La educación primaria y secundaria en Colombia se movió hacia una mayor cobertura y gratuidad. El presente estudio sugiere que los planteles con baja pensión o ninguna pensión exhiben más altos resultados en Saber Pro. Resulta aberrante que el programa "Ser Pilo Paga", instaurado en el 2014, patrocine estudiantes en universidades privadas, cuando se ha hecho un esfuerzo por mejorar la educación en colegios públicos, que claramente en el caso de Antioquia ha arrojado frutos. Por último, la tesis de las ÍES de dudosa calidad se endosa. Estos planteles, en su gruesa mayoría privados, merecen una mayor atención por parte del Ministerio de Educación, ya que ofrecen una menor calidad educativa. Para resumir, y poniéndose en los zapatos de unos padres antioqueños al tomar la decisión de dónde enviar a sus hijos a estudiar luego de la primaria, nuestro estudio sugiere que: a un colegio con baja o ninguna pensión, a una universidad, en vez de otras ÍES, en o cerca de Rionegro.

No se han publicado trabajos hasta la fecha en la literatura académica que crucen las dos pruebas, Saber 11 y Pro, y analicen los resultados. No obstante, de acuerdo con nuestros hallazgos, a diferencia del estudio de Guhl (2005) respecto a la geografía de las admisiones en la Universidad Nacional de Colombia, no hubo diferencial de género significativo en la prueba Saber Pro.

El modelo GWR resultó en una leve mejora en el ajuste del modelo en comparación con el modelo global. Las bondades de utilizar la GWR resultaron leves, excepto en el caso de Rionegro donde los residuales son los más altos. En otras palabras, los resultados de las pruebas Saber Pro parecen estacionales para los estudiantes que asistieron a íes antioqueñas fuera de Rionegro. El estadístico de Koenker K(BP) no resultó significativo al 5 %. Esto quiere decir que el modelo global se desempeña bien en el área de estudio, el departamento de Antioquia. Un K(BP) significativo hubiese resultado en una mejora mayor en el R2 ajustado, toda vez que se trata de un modelo bien especificado pero que, a diferencia de lo aquí encontrado, varía en su desempeño en la zona de estudio. El mapeo de los residuales es una herramienta muy útil para observar la dinámica del modelo. Por esto se mapearon 10 ciudades con los residuales estándar promedio. No obstante, la copiosa cantidad de regresiones arrojada por GWR, una por observación, limita las generalizaciones o predicciones (Fortin, James, MacKenziea, Melles y Rayfield, 2012).

Es importante observar las reglas de modelamiento mencionadas para obtener modelos sin sesgos. En otras palabras, la GWR no es una panacea, por lo que no se recomienda aplicarla sin antes haber hecho una regresión exploratoria en ArcGIS. Una de las ventajas de ArcGIS frente a GWR 4.0 es que en el primero si el modelo es violatorio de las reglas este no se ejecuta, mientras que el segundo sí lo hace. Además, ArcGIS sirve para mapear los coeficientes resultantes, así como los residuales normalizados una vez ejecutada la rutina. GWR 4.0 de dominio público (www.st-andrews.ac.uk/geoinformatics/gwr) no ofrece ni esta opción diagnóstica ni la posibilidad cartográfica. Empero, el programa GWR 4.0 ofrece más libertad en el manejo de los parámetros del modelo GWR frente a Arcgis 10.2. Este último no es apropiado para todos los tipos de datos (Charlton y Fotheringham, 2009), tal es el caso de una variable dicotómica, que no es posible modelar en ArcGis y requeriría un modelo logístico en GWR 4.0. En efecto, GWR 4.0 ofrece modelamiento gaussiano, logístico cuando la variable dependiente es dicotómica.

Adicionalmente, en GWR 4.0 se pueden llevar a cabo modelos semiparamétricos. Lo anterior se logra dejando una o más variables fijas o globales y otras sometidas a coeficientes locales de GWR. En resumen, GWR 4.0 ofrece tres modelos locales y otros tres semiparamétricos, para un total de seis. Mientras que esto es un imposible en ArcGis 10.2. La GWR es una técnica que permite moverse de un análisis global de los datos a un análisis local, por lo cual se obtiene un mayor grado de detalle y exactitud de los datos que se están analizando.

Referencias

  1. Banco Mundial. (2009). La calidad de la educación en Colombia: un análisis y algunas opciones para un programa de política. Bogotá: autor.
  2. Banco Mundial. (2012). Reviews of national policies for education: Tertiary education in Colombia 2012. Washington: World Bank.
  3. Barrera-Osorio, F.; Maldonado, D. y Rodríguez, C. (2012). Calidad de la Educación Básica y Media en Colombia: diagnóstico y propuestas. Bogotá: Universidad de los Andes, Centro de Estudios de Desarrollo Económico, Documentos CEDE, n.° 41.
  4. Breusch, T. S. y Pagan, A. R. (1979). A simple test for heteroskedasticity and random coefficient variation. Econometrica, 47(5), 1287-1294.
  5. Brunsdon, C. F.; Fotheringham A. S. y Charlton, M. E. (1996). Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28(4), 281-298.
  6. Camacho, A.; Messina, J. y Uribe, J. P. (2016). The Expansion of higher education in Colombia: Bad students or bad programs? Washington: Interamerican Development Bank, Department of Research and Chief Economist. Discussion Paper IDB-DP-452. Recuperado de http://www.iadb.org.[Link]
  7. Charlton, M. y Fotheringham, A. S. (2009). Geographically weighted regression white paper. National Centre for Geocomputation. National University of Ireland, Maynooth.
  8. Faguet, J. P. y Sánchez, F. (2008). Decentralization's Effects on Educational Outcomes in Bolivia and Colombia. World Development, 36, 1294-1316. Doi: 10.1016/j.worlddev.2007.06.021.[CrossRef]
  9. Fortin, M. J.; James, P. M. A.; MacKenziea, A.; Melles, S. J. y Rayfield, B. (2012). Spatial statistics, spatial regression, and graph theory in ecology. Spatial Statistics, 1, 100-109.
  10. Fotheringham, A. S. Brunsdon, C. y Charlton, M. (2000). Quantitative geography perspectives on spatial data analysis. Londres: Sage.
  11. Fotheringham, A.; Brunsdon, C. y Charlton, M. (2002). Geographically weighted regression: The analysis of spatially varying relationships. Bognor: John Wiley & Sons.
  12. Gaviria, A. y Barrientos, J. H. (2001). Determinantes de la calidad de la educación en Colombia. Archivos de Economía, 159.
  13. Gelfand, A. E.; Diggle, P. J.; Fuentes, M. y Guttorp, P. (2010). Handbook of spatial statistics. Boca Raton, FL: CRC Press.
  14. Gómez, S. C. (2016). Educational achievement at schools: Assessing the effect of the civil conflict using a pseudo-panel of schools. International Journal of Educational Development, 49, 91-106.
  15. Griffith, D. A. (1987). Spatial autocorrelation: a primer. Washington: Association of American Geographers: Resource Publications in Geography.
  16. Guhl, A. (2005). ¿Qué tan nacional es la Universidad Nacional de Colombia? Bogotá: Universidad Nacional de Colombia, Serie Documentos de Trabajo n.° 7. https://geodacenter.asu.edu/software/downloads/gwr_downloads.[Link]
  17. Hinderer, K. A.; Dibartolo, M. C. y Walsh, C. M. (2014). Hesi Admission Assessment (A 2) examination scores, program progression, and NCLEX-RN success in baccalaureate nursing: An exploratory study of dependable academic indicators of success. Journal of Professional S Nursing, 30(5),436-442.
  18. International Bureau of Education-Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura. (2017). A resource pack forgender-responsive STEM Education. Ginebra: IBE-Unesco.
  19. Kobrin, J.; Sinharay, S.; Haberman, S. y Chajewski, M. (2011). An investigation of the fit of linear regression models to data from an SAT R validity study. College Board Research Report 2011-3. Recuperado de http://www.ets.org/Media/Research/pdf/RR-11-19.pdf.[Link]
  20. Loaiza, O. L. e Hincapié, D. (2016). Un estudio de las brechas municipales en calidad educativa en Colombia: 2000-2012. Ensayos sobre Política Económica, 34, 3-20. http://dx.doi.org/10.1016Zj.espe.2016.01.0010120-4483.[Link]
  21. Mee, C. L. y Hallenbeck, V. J. (2015). Selecting standardized tests in nursing education. Journal of Professional Nursing, 31(6), 493-497.
  22. Melguizo, T.; Sánchez, F. y Velasco, T. (2016). Credit for low-income students and access to and academic performance in higher education in Colombia: A regression discontinuity approach. World Development, 80, 61-77. Doi: 10.1016/j.worlddev.2015.11.018.[CrossRef]
  23. Melo, L. A., Ramos, J. E. y Hernández, P. O. (2014). La Educación Superior en Colombia: situación actual y análisis de eficiencia. Borradores de Economía, 808. Recuperado de http://www.academia.edu.[CrossRef]
  24. Moran, P. A. P. (1950). Notes on continuous stochastic phenomena. Bio-metrika, 37(1), 17-23.
  25. Nakaya T. (2009). GWR4: Windows Application for Geographically Weighted Regression Modelling. Kyoto: Department of Geography, Ritsumei-kan University.
  26. Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura, UNESCO. (2017). A guide for ensuring inclusion and equity in education. París: autor.
  27. Rodríguez, C.; Sánchez, F. & Armenta, A. (2010). Do interventions at school level improve educational outcomes? Evidence from a rural program in Colombia. World Development, 38, 3, 415-428. Doi: 10.1016/j.worlddev.2009.10.002.[CrossRef]
  28. Rosenshein, L. y Rose, B. (2013). Spatial statistics best practices. San Diego, CA: ESRi International User Conference. Recuperado de http://video.esri.com/watch/2959/spatial-statistics-best-practices.[Link]
  29. Saavedra, J. E. (2012). Resource constraints and educational attainment in developing countries: Colombia 1945-2005. Journal of Development Economics. 99, 80-91. Doi: 10.1016/j.jdeveco.2011.09.006.[CrossRef]
  30. Tobler, W. (1970). A computer movie simulating urban growth in the Detroit area. Economic Geography, 46, 234-240.
  31. Waller, L. A. (2014). Putting spatial statistics (back) on the map. Spatial Statistics, 9, 4-19.
  32. Zoghbi, A. C.; Rocha, F. y Mattos, E. (2013). Education production efficiency: Evidence from Brazilian universities. Economic Modelling, 31, 94-103.
  33. Zwick, R. (2010). Admissions testing. International Encyclopedia of Education (3.a ed.). Oxford: Elsevier.
Castro, M., Ruiz, J., y Guzmán, F. (2018). Cruce de las pruebas nacionales Saber 11 y Saber Pro en Antioquia, Colombia: una aproximación desde la regresión geográficamente ponderada (GWR). Revista Colombiana de Educación, (74), 63-79.