Actualidad

Desarrollado un modelo para la extracción automática de contenido de webs y aplicaciones

Publicado el 22/06/2022
Por Angel

Hoy por hoy, los CMS o sistemas de gestión de contenidos son las herramienta más utilizadas para crear páginas web. En los últimos años, han ido evolucionando hasta convertirse en piezas fundamentales del mundo web, aplicaciones móviles y plataformas. Con el propósito de simplificar los procesos, un equipo de investigadores del Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC) ha desarrollado un modelo de código abierto para automatizar la extracción de contenido de los CMS.

El modelo open-source, un prototipo científico totalmente funcional, permite extraer la estructura de datos y las librerías de cada CMS y crear un software que media entre los contenidos y el llamado front-end, la aplicación final que utiliza el usuario. Todo este proceso se hace de forma automática, lo que lo convierte en una solución libre de errores y escalable, ya que puede repetirse multitud de veces sin que aumente su coste.

La importancia de los CMS en el mundo en línea

Los sistemas de gestión de contenidos (CMS) están detrás de más del 60 % de las páginas web disponibles en la actualidad en internet. La popularidad de sistemas como WordPress, Joomla o Drupal se debe, sobre todo, a que proporcionan una experiencia de usuario sencilla, lo que ha permitido que todo tipo de usuarios sin conocimientos técnicos puedan formar parte de la cadena de creación de contenidos en línea.

«Desde hace cuatro o cinco años, estos sistemas también sirven información no solo a los navegadores, sino también a las aplicaciones móviles. Los CMS tienen interfaces de programación de aplicaciones, conocidas como API, con las que las aplicaciones móviles se comunican para extraer el contenido», explica Joan Giner Miguélez, estudiante del programa de doctorado de Tecnologías de la Información y de Redes, con el grupo Systems, Software and Models Research Lab (SOM Research Lab), y autor principal del estudio donde se detalla el nuevo modelo. «Estos sistemas, conocidos como headless CMS, permiten que el contenido, creado de forma sencilla, pueda consumirse después en diferentes plataformas», afirma Giner.

Así, el CMS se ha convertido en un gran contenedor de contenido y datos del que cada aplicación o plataforma se va sirviendo. Esto ha simplificado muchos procesos, pero también ha añadido complejidades de desarrollo que son especialmente evidentes para las organizaciones que gestionan un gran volumen de contenido y plataformas. Cada vez es más habitual que la creación de una nueva aplicación móvil implique un complejo trabajo de desarrollo, tarea que simplifica el modelo diseñado por el personal investigador del IN3.

«Imaginemos una gran empresa de contenido que maneje más de mil webs y aplicaciones y que quiera hacer una nueva aplicación para móviles que muestre los productos de todas esas webs. El trabajo, si quieren desarrollar los conectores entre cada web y la aplicación, sería inmenso y requeriría muchos recursos. No es escalable», añade Joan Giner. «Si las API están ya en un formato estándar, ¿por qué no podemos hacer también un extractor de contenido que las lea y las entienda, las represente de forma estándar y genere el conector para enviar la información a la nueva aplicación móvil de forma automática?», se pregunta el experto.

Automatizando la extracción de contenido de los CMS

El modelo desarrollado por Giner —junto con sus compañeros de grupo Abel Gómez y Jordi Cabot, investigador ICREA y líder del SOM Research Lab— permite simplificar mucho el proceso de desarrollo de una nueva aplicación y, a su vez, genera importantes ahorros de tiempo y recursos. El proceso, diseñado gracias a la financiación de los proyectos europeos AIDOaRT y TRANSACT, persigue extraer y representar de forma clara y automática el modelo de CMS para facilitar su uso como fuente de información. Además, la propuesta tecnológica de los investigadores del IN3 tiene como objetivo generar el código que sirva de unión entre el CMS y el desarrollo de las nuevas aplicaciones.

Para lograrlo, el primer paso es dar a la herramienta la dirección y las credenciales de acceso al CMS. Una vez dentro, esta lee la API, la entiende y, mediante un proceso de ingeniería inversa, representa de forma estándar la estructura y las librerías de contenido del CMS. A partir de ahí, genera, también automáticamente, el código del conector mediante el cual se van a comunicar el CMS y la nueva aplicación móvil en desarrollo.

«Es una forma de estandarizar el proceso intermedio entre los CMS y la aplicación final», subraya Joan Giner. «Su mayor beneficio es, de hecho, la propia estandarización. Estamos hablando de un proceso que se repite muchas veces en las organizaciones que manejan contenido; un proceso que, cada vez que se hace, implica montar un equipo de desarrollo específico que supone el gasto de una serie de recursos y que, además, puede generar errores. Al automatizarse, se simplifica todo y se gana escalabilidad».

Así, este modelo de automatización de la extracción de contenido de los CMS apuesta por la escalabilidad, ya que, una vez creado el esquema y el código del CMS, este puede reutilizarse el número de veces que sea necesario e integrarse en futuros proyectos de desarrollo sin que suponga un coste extra.

Además, los investigadores apuntan que es un modelo automático que genera las librerías de contenido sin errores, ya que, si el trabajo se hace de forma manual, los desarrolladores siempre pueden cometer algún error en alguna línea de código.

«Los sistemas de gestión de contenido son una fuente de contenido muy importante en internet. Estamos permitiendo estandarizar el acceso a los CMS, igual que en su momento se estandarizó el acceso a las bases de datos», afirma Joan Giner. «De cara al futuro, este modelo incluso podría utilizarse para convertir los CMS en una nueva fuente de datos con la que puedan entrenarse sistemas de inteligencia artificial», concluye el experto.

Fuente: UOC