Spaces:

Varcthor
/

GeolocalizacionResultadoSimce

Running

App Files Files Community

GeolocalizacionResultadoSimce / src /streamlit_app.py

Varcthor

Update src/streamlit_app.py

9d4a50b verified 3 days ago

raw

history blame contribute delete

20.6 kB

	import streamlit as st
	import pandas as pd
	import folium
	from folium.plugins import MarkerCluster, Search
	from streamlit_folium import st_folium
	import html
	import io
	import numpy as np
	import matplotlib.pyplot as plt
	import seaborn as sns

	# --- Configuración ---
	st.set_page_config(page_title="Puntajes SIMCE 2024 - Centros Escolares", page_icon=":school:", layout="wide")
	st.title(":school: Puntajes SIMCE 2024 - 2do Medio")
	st.markdown("Explora los puntajes SIMCE de los establecimientos educacionales en Chile (Datos del MINEDUC)")

	# --- Diccionarios para mapear valores a descripciones ---
	dependencia_map = {
	1: 'Municipal Corporación',
	2: 'Municipal DAEM',
	3: 'Particular subvencionado',
	4: 'Particular pagado',
	5: 'Corporación de administración delegada',
	6: 'Servicio Local de Educación'
	}

	socioecon_map = {
	1: 'Bajo',
	2: 'Medio Bajo',
	3: 'Medio',
	4: 'Medio Alto',
	5: 'Alto'
	}

	rural_map = {
	1: 'Urbano',
	2: 'Rural'
	}

	# --- Cargar datos ---
	@st.cache_data
	def load_data():
	df = pd.read_csv(
	"src/Data/simce.csv",
	sep=";",
	decimal=",",
	encoding="ISO-8859-1",
	header=0,
	on_bad_lines="skip"
	)

	# Crear columnas con descripciones
	df['dependencia_desc'] = df['dependencia'].map(dependencia_map)
	df['grupo_socioecon_desc'] = df['grupo_socioecon'].map(socioecon_map)
	df['es_rural_desc'] = df['es_rural'].map(rural_map)

	return df

	# Cargar datos
	df = load_data()

	# --- Filtros ---
	st.subheader("Filtros de Búsqueda")
	col1, col2, col3, col4 = st.columns(4)
	regiones = ["(Todas)"] + sorted(df["nombre_region"].dropna().unique().tolist())
	ruralidades = ["(Todas)"] + sorted(df["es_rural_desc"].dropna().unique().tolist())
	dependencias = ["(Todas)"] + sorted(df["dependencia_desc"].dropna().unique().tolist())
	socioecons = ["(Todas)"] + sorted(df["grupo_socioecon_desc"].dropna().unique().tolist())

	with col1:
	sel_region = st.selectbox("Región", regiones, index=0, help="Selecciona una región para filtrar los establecimientos.")
	with col2:
	sel_ruralidad = st.selectbox("Ruralidad", ruralidades, index=0, help="Filtra por tipo de área (urbana o rural).")
	with col3:
	sel_dependencia = st.selectbox("Dependencia", dependencias, index=0, help="Filtra por tipo de establecimiento.")
	with col4:
	sel_socioecon = st.selectbox("Grupo Socioeconómico", socioecons, index=0, help="Filtra por nivel socioeconómico.")

	# Filtrar datos
	df_f = df.copy()
	if sel_region != "(Todas)":
	df_f = df_f[df_f["nombre_region"] == sel_region]
	if sel_ruralidad != "(Todas)":
	df_f = df_f[df_f["es_rural_desc"] == sel_ruralidad]
	if sel_dependencia != "(Todas)":
	df_f = df_f[df_f["dependencia_desc"] == sel_dependencia]
	if sel_socioecon != "(Todas)":
	df_f = df_f[df_f["grupo_socioecon_desc"] == sel_socioecon]

	# --- Nueva sección: Comparación de Colegios por Percentiles ---
	st.subheader("Comparación de Colegio por Percentiles")
	st.markdown("Selecciona un colegio para comparar sus puntajes en Matemáticas y Lenguaje con respecto a los demás colegios filtrados.")

	# Función para calcular percentiles
	def calcular_percentiles(colegio, df_filtrado):
	# Filtrar datos válidos (sin NaN)
	df_math = df_filtrado[df_filtrado['promedio_matematica'].notna()]
	df_lectura = df_filtrado[df_filtrado['promedio_lectura'].notna()]

	# Obtener puntajes del colegio seleccionado
	math_score = colegio['promedio_matematica'].values[0]
	lectura_score = colegio['promedio_lectura'].values[0]

	# Calcular percentiles
	if not df_math.empty and not pd.isna(math_score):
	percentil_math = (sum(df_math['promedio_matematica'] <= math_score) / len(df_math)) * 100
	else:
	percentil_math = None

	if not df_lectura.empty and not pd.isna(lectura_score):
	percentil_lectura = (sum(df_lectura['promedio_lectura'] <= lectura_score) / len(df_lectura)) * 100
	else:
	percentil_lectura = None

	return percentil_math, percentil_lectura

	# Función para crear boxplot individual
	def crear_boxplot_individual(datos, colegio_puntaje, titulo, color, nombre_colegio):
	if datos.empty:
	return None

	# Crear figura
	fig, ax = plt.subplots(figsize=(10, 6))

	# Crear boxplot
	boxplot = ax.boxplot(datos, patch_artist=True, widths=0.6)

	# Colorear el boxplot
	boxplot['boxes'][0].set_facecolor(color)

	# Marcar la posición del colegio seleccionado
	ax.plot(1, colegio_puntaje, 'ro', markersize=10, label=f'{nombre_colegio}: {colegio_puntaje:.1f}')

	# Personalizar
	ax.set_title(titulo, fontsize=16, fontweight='bold')
	ax.set_ylabel('Puntaje', fontsize=12)
	ax.set_xticklabels(['']) # Ocultar label del eje x
	ax.legend(loc='upper right')

	# Añadir líneas de referencia para percentiles
	q1, median, q3 = np.percentile(datos, [25, 50, 75])
	ax.axhline(y=median, color='green', linestyle='--', alpha=0.7, label=f'Mediana: {median:.1f}')

	# Añadir estadísticas descriptivas
	stats_text = f"""
	N: {len(datos)}
	Mín: {datos.min():.1f}
	Q1: {q1:.1f}
	Mediana: {median:.1f}
	Q3: {q3:.1f}
	Máx: {datos.max():.1f}
	"""
	ax.text(0.02, 0.98, stats_text, transform=ax.transAxes, verticalalignment='top',
	bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5), fontsize=10)

	plt.tight_layout()
	return fig

	# Función para generar texto comparativo
	def generar_texto_comparativo(colegio_data, df_filtrados, df_lista_manual, materia):
	nombre_colegio = colegio_data['nombre_colegio'].values[0]
	puntaje_colegio = colegio_data[materia].values[0]

	texto = f"### Comparación de {materia.replace('promedio_', '').capitalize()} para {nombre_colegio}\n\n"

	# Comparación con todos los colegios filtrados
	datos_filtrados = df_filtrados[df_filtrados[materia].notna()][materia]
	if not datos_filtrados.empty:
	percentil_filtrados = (sum(datos_filtrados <= puntaje_colegio) / len(datos_filtrados)) * 100
	mediana_filtrados = np.median(datos_filtrados)
	diferencia_filtrados = puntaje_colegio - mediana_filtrados

	texto += f"Comparación con todos los colegios filtrados ({len(datos_filtrados)} colegios):\n"
	texto += f"- Puntaje: {puntaje_colegio:.1f}\n"
	texto += f"- Percentil: {percentil_filtrados:.1f}% (supera al {percentil_filtrados:.1f}% de los colegios)\n"
	texto += f"- Diferencia con la mediana: {diferencia_filtrados:+.1f} puntos\n"
	texto += f"- Mediana de todos los colegios: {mediana_filtrados:.1f}\n\n"

	# Comparación con la lista manual si existe
	if not df_lista_manual.empty:
	datos_lista = df_lista_manual[df_lista_manual[materia].notna()][materia]
	if not datos_lista.empty:
	percentil_lista = (sum(datos_lista <= puntaje_colegio) / len(datos_lista)) * 100
	mediana_lista = np.median(datos_lista)
	diferencia_lista = puntaje_colegio - mediana_lista

	texto += f"Comparación con la lista de colegios seleccionados ({len(datos_lista)} colegios):\n"
	texto += f"- Puntaje: {puntaje_colegio:.1f}\n"
	texto += f"- Percentil: {percentil_lista:.1f}% (supera al {percentil_lista:.1f}% de los colegios de la lista)\n"
	texto += f"- Diferencia con la mediana: {diferencia_lista:+.1f} puntos\n"
	texto += f"- Mediana de la lista: {mediana_lista:.1f}\n\n"

	return texto

	# Seleccionar un colegio para comparar
	colegios_filtrados = sorted(df_f['nombre_colegio'].unique().tolist())
	colegio_seleccionado = st.selectbox(
	"Selecciona un colegio para analizar",
	["(Selecciona un colegio)"] + colegios_filtrados,
	index=0,
	help="Selecciona un colegio para ver su posición percentil en Matemáticas y Lenguaje."
	)

	if colegio_seleccionado != "(Selecciona un colegio)":
	# Obtener datos del colegio seleccionado
	colegio_data = df_f[df_f['nombre_colegio'] == colegio_seleccionado]

	if not colegio_data.empty:
	# Calcular percentiles
	percentil_math, percentil_lectura = calcular_percentiles(colegio_data, df_f)

	# Mostrar resultados
	col1, col2 = st.columns(2)

	with col1:
	if percentil_math is not None:
	st.metric(
	label=f"Percentil en Matemáticas",
	value=f"{percentil_math:.1f}%",
	help=f"Este colegio supera al {percentil_math:.1f}% de los colegios filtrados en Matemáticas."
	)
	st.progress(percentil_math/100)
	else:
	st.warning("No hay datos de Matemáticas para este colegio.")

	with col2:
	if percentil_lectura is not None:
	st.metric(
	label=f"Percentil en Lenguaje",
	value=f"{percentil_lectura:.1f}%",
	help=f"Este colegio supera al {percentil_lectura:.1f}% de los colegios filtrados en Lenguaje."
	)
	st.progress(percentil_lectura/100)
	else:
	st.warning("No hay datos de Lenguaje para este colegio.")

	# Mostrar información detallada del colegio
	st.subheader(f"Información detallada de {colegio_seleccionado}")
	colegio_info = colegio_data.iloc[0]
	info_cols = st.columns(2)

	with info_cols[0]:
	st.write(f"Región: {colegio_info['nombre_region']}")
	st.write(f"Comuna: {colegio_info['nombre_comuna']}")
	st.write(f"Dependencia: {colegio_info['dependencia_desc']}")

	with info_cols[1]:
	st.write(f"Grupo Socioeconómico: {colegio_info['grupo_socioecon_desc']}")
	st.write(f"Ruralidad: {colegio_info['es_rural_desc']}")
	if percentil_math is not None and percentil_lectura is not None:
	st.write(f"Puntaje promedio: Matemáticas={colegio_info['promedio_matematica']:.1f}, Lenguaje={colegio_info['promedio_lectura']:.1f}")

	# --- Nueva sección: Crear lista de colegios ---
	st.subheader("Crear Lista de Colegios")
	st.markdown("Busca colegios por palabra clave en el nombre y selecciona para crear tu lista personalizada.")

	# Inicializar estado de sesión para los colegios seleccionados
	if 'selected_colegios' not in st.session_state:
	st.session_state.selected_colegios = []

	# Input para la palabra clave
	keyword = st.text_input("Palabra clave en el nombre del colegio", help="Ingresa una palabra para filtrar los nombres de colegios que la contengan (insensible a mayúsculas/minúsculas).")

	# Filtrar colegios basados en la palabra clave
	if keyword:
	df_search = df_f[df_f['nombre_colegio'].str.contains(keyword, case=False, na=False)]
	else:
	df_search = df_f

	# Obtener lista única de nombres de colegios filtrados
	colegios_disponibles = sorted(df_search['nombre_colegio'].unique().tolist())

	# Combinar colegios seleccionados previamente con los disponibles en el filtro actual
	# Solo incluir colegios que aún estén en df_f (después de aplicar filtros de región, ruralidad, etc.)
	combined_colegios = sorted(set(colegios_disponibles + [c for c in st.session_state.selected_colegios if c in df_f['nombre_colegio'].values]))

	# Multiselect para seleccionar colegios, con los previamente seleccionados como predeterminados
	selected_colegios = st.multiselect(
	"Selecciona colegios para tu lista",
	combined_colegios,
	default=[c for c in st.session_state.selected_colegios if c in combined_colegios],
	help="Selecciona múltiples colegios de la lista filtrada. Los colegios seleccionados previamente se mantienen."
	)

	# Actualizar el estado de sesión con las nuevas selecciones
	st.session_state.selected_colegios = selected_colegios

	# Crear dataframe de colegios seleccionados
	df_selected = df_f[df_f['nombre_colegio'].isin(st.session_state.selected_colegios)]

	# --- Mostrar comparación detallada y boxplots separados ---
	if colegio_seleccionado != "(Selecciona un colegio)":
	st.subheader("Análisis Comparativo Detallado")

	# Generar y mostrar texto comparativo para Matemáticas
	texto_math = generar_texto_comparativo(colegio_data, df_f, df_selected, 'promedio_matematica')
	st.markdown(texto_math)

	# Crear y mostrar boxplots individuales para Matemáticas
	math_filtrados = df_f[df_f['promedio_matematica'].notna()]['promedio_matematica']
	math_lista = df_selected[df_selected['promedio_matematica'].notna()]['promedio_matematica']
	math_puntaje = colegio_data['promedio_matematica'].values[0]

	col_math1, col_math2 = st.columns(2)

	with col_math1:
	if not math_filtrados.empty:
	math_boxplot_filtrados = crear_boxplot_individual(
	math_filtrados, math_puntaje,
	'Distribución de Matemáticas - Todos los Colegios Filtrados',
	'lightblue', colegio_seleccionado
	)
	st.pyplot(math_boxplot_filtrados)

	with col_math2:
	if not df_selected.empty and not math_lista.empty:
	math_boxplot_lista = crear_boxplot_individual(
	math_lista, math_puntaje,
	'Distribución de Matemáticas - Lista de Colegios Seleccionados',
	'lightgreen', colegio_seleccionado
	)
	st.pyplot(math_boxplot_lista)

	# Generar y mostrar texto comparativo para Lenguaje
	st.markdown("---")
	texto_lectura = generar_texto_comparativo(colegio_data, df_f, df_selected, 'promedio_lectura')
	st.markdown(texto_lectura)

	# Crear y mostrar boxplots individuales para Lenguaje
	lectura_filtrados = df_f[df_f['promedio_lectura'].notna()]['promedio_lectura']
	lectura_lista = df_selected[df_selected['promedio_lectura'].notna()]['promedio_lectura']
	lectura_puntaje = colegio_data['promedio_lectura'].values[0]

	col_lectura1, col_lectura2 = st.columns(2)

	with col_lectura1:
	if not lectura_filtrados.empty:
	lectura_boxplot_filtrados = crear_boxplot_individual(
	lectura_filtrados, lectura_puntaje,
	'Distribución de Lenguaje - Todos los Colegios Filtrados',
	'lightblue', colegio_seleccionado
	)
	st.pyplot(lectura_boxplot_filtrados)

	with col_lectura2:
	if not df_selected.empty and not lectura_lista.empty:
	lectura_boxplot_lista = crear_boxplot_individual(
	lectura_lista, lectura_puntaje,
	'Distribución de Lenguaje - Lista de Colegios Seleccionados',
	'lightgreen', colegio_seleccionado
	)
	st.pyplot(lectura_boxplot_lista)

	# Usar df_selected si hay colegios seleccionados, de lo contrario usar df_f
	df_map = df_selected if not df_selected.empty else df_f
	# Filtrar filas con coordenadas válidas
	df_map = df_map.dropna(subset=["latitud", "longitud"])

	# --- Estadísticas resumidas ---
	st.subheader("Estadísticas Resumidas")
	if not df_map.empty:
	col_stats1, col_stats2 = st.columns(2)
	with col_stats1:
	st.metric("Número de Establecimientos", len(df_map))
	st.metric("Promedio Lenguaje", f"{df_map['promedio_lectura'].mean():.1f}")
	with col_stats2:
	st.metric("Promedio Matemáticas", f"{df_map['promedio_matematica'].mean():.1f}")
	st.metric("Regiones Cubiertas", df_map["nombre_region"].nunique())
	else:
	st.warning("No hay datos disponibles con los filtros seleccionados o no se han seleccionado colegios.")

	# --- Mapeo de colores por tipo ---
	color_map = {
	'Municipal Corporación': 'blue',
	'Municipal DAEM': 'green',
	'Particular subvencionado': 'orange',
	'Particular pagado': 'purple',
	'Corporación de administración delegada': 'red',
	'Servicio Local de Educación': 'cadetblue'
	}

	# Función para asignar color según tipo
	def tipo_color(tipo: str) -> str:
	return color_map.get(tipo, "gray")

	# --- Crear mapa centrado en Chile ---
	m = folium.Map(location=[-33.45, -70.65], zoom_start=6, tiles="CartoDB positron")

	# Cluster
	cluster = MarkerCluster().add_to(m)

	# --- Agregar búsqueda por nombre de colegio ---
	school_search = Search(
	layer=cluster,
	search_label="nombre_colegio",
	placeholder="Buscar por nombre del colegio...",
	collapsed=False,
	).add_to(m)

	# --- Agregar marcadores ---
	for _, r in df_map.iterrows():
	lat, lon = float(r["latitud"]), float(r["longitud"])
	nombre = html.escape(str(r.get("nombre_colegio", "")))
	comuna = html.escape(str(r.get("nombre_comuna", "")))
	tipo = html.escape(str(r.get("dependencia_desc", "")))
	lenguaje = html.escape(str(r.get("promedio_lectura", "")))
	matematica = html.escape(str(r.get("promedio_matematica", "")))
	rural = html.escape(str(r.get("es_rural_desc", "")))
	grupoeconomico = html.escape(str(r.get("grupo_socioecon_desc", "")))
	popup_html = f"""
	<b>{nombre}</b><br>
	<b>Tipo:</b> {tipo}<br>
	<b>Comuna:</b> {comuna}<br>
	<b>Promedio Lenguaje:</b> {lenguaje}<br>
	<b>Promedio Matemáticas:</b> {matematica}<br>
	<b>Es Rural:</b> {rural}<br>
	<b>Grupo Socioeconómico:</b> {grupoeconomico}
	"""
	marker = folium.Marker(
	location=[lat, lon],
	popup=folium.Popup(popup_html, max_width=350),
	icon=folium.Icon(color=tipo_color(r.get("dependencia_desc")), icon="plus", prefix="fa"),
	)
	marker.add_to(cluster)
	marker.properties = {"nombre_colegio": nombre} # Para búsqueda

	# --- Leyenda mejorada ---
	legend_html = """
	<div style="
	position: fixed;
	bottom: 30px; left: 30px; z-index: 9999;
	background: white; padding: 12px; border: 2px solid #ccc; border-radius: 10px;
	box-shadow: 0 4px 8px rgba(0,0,0,0.1); font-family: Arial, sans-serif; font-size: 14px;">
	<b style="color:black; font-size: 16px;">Leyenda</b><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:blue;margin-right:8px;"></span><span style="color:black;">Municipal Corporación</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:green;margin-right:8px;"></span><span style="color:black;">Municipal DAEM</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:orange;margin-right:8px;"></span><span style="color:black;">Particular subvencionado</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:purple;margin-right:8px;"></span><span style="color:black;">Particular pagado</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:red;margin-right:8px;"></span><span style="color:black;">Corporación de administración delegada</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:cadetblue;margin-right:8px;"></span><span style="color:black;">Servicio Local de Educación</span><br>
	<span style="display:inline-block;width:14px;height:14px;border-radius:50%;background:gray;margin-right:8px;"></span><span style="color:black;">Otros</span>
	</div>
	"""
	m.get_root().html.add_child(folium.Element(legend_html))

	# --- Botón para reiniciar mapa ---
	if st.button("Reiniciar Mapa"):
	m = folium.Map(location=[-33.45, -70.65], zoom_start=6, tiles="CartoDB positron")
	st.experimental_rerun()

	# --- Mostrar el mapa ---
	st_folium(m, width=1200, height=650)

	# --- Vista de tabla y exportación ---
	with st.expander("Ver tabla filtrada"):
	columns_to_display = ['nombre_region', 'nombre_comuna', 'nombre_colegio', 'dependencia_desc', 'grupo_socioecon_desc', 'es_rural_desc', 'promedio_lectura', 'promedio_matematica']
	st.dataframe(df_map[columns_to_display])

	# Exportar datos filtrados
	csv = df_map[columns_to_display].to_csv(index=False)
	st.download_button(
	label="Descargar datos filtrados como CSV",
	data=csv,
	file_name="simce_filtrado.csv",
	mime="text/csv",
	)

	# Mostrar la lista seleccionada
	if st.session_state.selected_colegios:
	st.dataframe(df_selected[columns_to_display])

	# Exportar lista seleccionada
	csv_selected = df_selected[columns_to_display].to_csv(index=False)
	st.download_button(
	label="Descargar lista seleccionada como CSV",
	data=csv_selected,
	file_name="lista_colegios_seleccionados.csv",
	mime="text/csv",
	)
	else:
	st.info("No hay colegios seleccionados aún.")