Más allá del 404: Verificando la integridad de recursos electrónicos de un vistazo mediante pantallazos
Como profesionales de la información, desde la Biblioteca de Ciencias Económicas y Empresariales de la Universidad Autónoma de Madrid somos conscientes de que uno de los mayores retos para la credibilidad de nuestro catálogo digital no es solo los evidentes enlaces rotos (errores 404). El verdadero problema, el más costoso, es la "zona gris": enlaces que "funcionan" pero llevan al recurso equivocado, a una página de inicio genérica o a un PDF incorrecto.
El Problema: El Costo Oculto de la Verificación Manual
La comprobación manual de miles de recursos es una tarea mecánica, pesada y de un costo de oportunidad altísimo. Aunque verificar una URL puede tomar solo 10 segundos, a causa de la escasez de personal, ese tiempo suma. Además, los verificadores automáticos de enlaces no son la solución, ya que solo detectan si un enlace está activo, no si es correcto. Ya sea por cambios en las webs institucionales o por simples errores humanos, parte de nuestro catálogo de recursos electrónicos está permanentemente expuesto a sufrir este tipo de errores "sutiles".
Cada hora que un bibliotecario pasa haciendo clic, esperando que cargue una página y confirmando visualmente un recurso, es una hora que no se dedica a tareas de verdadero valor: la asistencia a investigadores, la formación de usuarios o la atención en el mostrador. Esto, además, daña la credibilidad de nuestro catálogo y contribuye a la frustración del usuario.
La Solución: "Capturador de Pantalla para Revisión de URLs"
Para solucionar esto, desde la Biblioteca de Ciencias Económicas y Empresariales de la UAM desarrollamos el "Capturador de Pantalla para Revisión de URLs". una herramienta de automatización creada con Python (usando Selenium y Pandas) y desplegada como una aplicación interactiva en Hugging Face Spaces (con Gradio) de forma pública y gratuita.
El funcionamiento de la herramienta es simple: toma un archivo Excel con dos columnas ('URL' y 'Titulo'), navega a cada sitio, realiza una captura de pantalla (screenshot) y devuelve un único archivo ZIP. Con ello, transformamos la tarea de verificación de enlaces: pasamos de una revisión manual de clic-por-clic a una auditoría visual de un vistazo, donde podemos revisar cientos de imágenes (enlaces) en minutos.
La Demostración: Cómo Funciona
Estos son los pasos que se deben seguir para trabajar con la aplicación:
- Paso 1: Prepara un Excel con las columnas
URLyTitulo. La columna "Titulo" se usará como nombre de la captura de pantala que se haga en cada url. - Paso 2: Súbelo a la aplicación.
- Paso 3: Presiona "Iniciar Búsqueda" y espera a termine.
- Paso 4: Descarga el archivo ZIP y revisa las imágenes.
Y como la mejor forma de entender algo es viéndolo en acción, aquí tienes un vídeo de muestra:
Toda la tecnología que usa la App (Python, Selenium, Gradio) está empaquetada en la web alojada en Hugging Faces. Y, para total transparencia, el código (app.py) está disponible públicamente en la pestaña "Files" del Space para que otros colegas puedan revisarlo, usarlo o incluso sugerir mejoras.
El Impacto Real: Liberar horas del personal para ocuparlas en tareas de más valor
El verdadero valor de la herramienta consiste en que el trabajo de obtención de capturas se ejecuta de forma automática y en segundo plano. Ahora, mientras el "Capturador" está obteniendo imágenes de los +200 documentos de una colección electrónica, nuestro personal puede seguir realizando tareas de valor más para los usuarios.
Así pues, el impacto es doble:
- No se aumenta la carga de trabajo: La tarea de comprobación ya no "bloquea" totalmente a un miembro del equipo.
- Mejora la calidad del catálogo: Al ser un proceso de bajo esfuerzo humano, ahora podemos revisar más enlaces y de forma más habitual, garantizando que nuestros usuarios siempre encuentren lo que buscan.
Mejoras futuras
Sin embargo, somos conscientes de que nuestra herramienta es solo un primer paso. A corto plazo, vamos a trabajar en mejorar la detección de PDFs para asegurar que la captura de pantalla espere a que el documento se cargue por completo.
A largo plazo, la idea es integrar un modelo de IA con capacidades OCR que pueda leer el texto de la captura, compararlo con el título indicado en el Excel y evaluar automáticamente si el recurso es correcto, reduciendo la revisión visual solo a los casos dudosos.
¡Pruébalo!
Ahora es tu turno:
- Prueba la demo con algunas de tus URLs: Comprobador URL Capturas
- Deja un comentario en la pestaña "Community" con tus ideas o sugerencias.
- Contáctame: Si trabajas en otra biblioteca y te enfrentas a este mismo problema, si hay algo que quieras preguntarme o si puedo ayudarte en algo, puedes escribirme a dferalv@gmail.com. ¡Estaré encantado de que charlemos!