# Construyendo un recomendador de películas en Python: de los datos al modelo

> Source: <https://dev.to/evolve-space/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo-3m16>
> Published: 2026-05-25 18:22:03+00:00

Los sistemas de recomendación están presentes en muchas plataformas digitales: streaming, e-commerce, música, formación online o personalización de contenidos. Su objetivo es ayudar al usuario a descubrir elementos relevantes dentro de catálogos cada vez más grandes.

En este proyecto he desarrollado **CineMatch AI**, un sistema de recomendación de películas basado en filtrado colaborativo por ítems. La idea principal es sencilla: dada una película de referencia, el sistema recomienda otras películas similares a partir de los patrones históricos de valoración de los usuarios.

El objetivo no era construir una solución empresarial completa, sino un prototipo funcional, reproducible y bien estructurado que permitiera trabajar un flujo completo de Data Science: análisis de datos, preprocesamiento, construcción del sistema de recomendación, evaluación exploratoria y presentación mediante una interfaz sencilla.

Para el proyecto he utilizado el dataset **MovieLens**, una referencia habitual para trabajar con sistemas de recomendación.

El conjunto de datos incluye información sobre películas, usuarios y valoraciones. En este caso, el trabajo se ha centrado principalmente en dos archivos:

`ratings.csv`

`movies.csv`

Tras el proceso de filtrado, el sistema trabaja con:

Este último punto es importante, porque en los sistemas de recomendación es habitual trabajar con matrices muy dispersas: muchos usuarios han valorado solo una pequeña parte del catálogo total.

El flujo del proyecto se divide en varias fases.

Primero se realizó la carga y exploración inicial de los datos, revisando el volumen de registros, la distribución de ratings y la información disponible sobre las películas.

Después se aplicaron filtros para mejorar la calidad de las recomendaciones:

Este filtrado reduce ruido y evita que el sistema se base en películas o usuarios con muy poca información histórica.

A continuación se construyó una matriz usuario-película, donde cada fila representa un usuario, cada columna una película y cada valor corresponde a la puntuación asignada. A partir de esta matriz, el sistema compara películas entre sí usando **similitud del coseno**.

La lógica es la siguiente: si dos películas han sido valoradas de forma parecida por muchos usuarios, el sistema interpreta que existe cierta similitud entre ellas.

El recomendador está basado en **filtrado colaborativo por ítems**. En lugar de comparar usuarios entre sí, compara películas a partir de los patrones de valoración.

Este enfoque tiene varias ventajas:

Además del análisis en notebook, el proyecto incluye una pequeña aplicación con **Streamlit**, pensada para probar el sistema de forma visual. Desde la interfaz se puede buscar una película, seleccionar una coincidencia del catálogo y obtener un top 5 o top 10 de recomendaciones con su score de similitud.

También se incluye una API básica con **FastAPI** como demostración complementaria de cómo podría exponerse la lógica del recomendador.

El sistema genera recomendaciones coherentes, especialmente para películas con suficientes valoraciones históricas.

Algunos resultados principales del análisis fueron:

Por ejemplo, para una película como `Scarface (1983)`

, el sistema recomienda títulos relacionados con géneros como crimen, drama, thriller o acción, lo que muestra una cierta coherencia temática en las recomendaciones.

Como ocurre en muchos sistemas de recomendación, el proyecto también tiene limitaciones.

La más importante es el problema de **cold start**: si una película o usuario no tiene valoraciones suficientes, el sistema no dispone de información histórica para generar recomendaciones fiables.

Además, el filtrado por popularidad mejora la calidad de las recomendaciones, pero reduce la cobertura total del catálogo. También hay que tener en cuenta que el sistema recomienda a partir de patrones históricos de valoración, no por una comprensión semántica profunda del contenido de las películas.

Por último, la evaluación realizada es exploratoria. No debe interpretarse como una evaluación supervisada definitiva, ya que no se ha aplicado una separación train/test ni métricas de ranking como Precision@K, Recall@K o NDCG, habituales en la evaluación de sistemas de recomendación.

Este proyecto me ha servido para entender mejor cómo se estructura un sistema de recomendación desde una perspectiva práctica.

Más allá de la técnica de similitud, una parte importante del trabajo ha estado en preparar los datos, tomar decisiones de filtrado, construir una estructura reproducible y presentar los resultados de forma clara.

También me ha parecido especialmente interesante comprobar cómo una técnica relativamente sencilla, como la similitud del coseno, puede generar recomendaciones razonables cuando los datos están bien tratados.

Algunas mejoras naturales para futuras versiones serían:

El código completo del proyecto está disponible en GitHub:

[https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez](https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez)

Podeis contactarme en mi LinkedIn:

[https://www.linkedin.com/in/albertomartinezsanchez](https://www.linkedin.com/in/albertomartinezsanchez)

Proyecto desarrollado durante el Máster en Data Science & Desarrollo de IA de Evolve.