{"slug": "construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo", "title": "Construyendo un recomendador de películas en Python: de los datos al modelo", "summary": "A developer built CineMatch AI, a movie recommendation system using item-based collaborative filtering on the MovieLens dataset. The system compares movies using cosine similarity based on historical user ratings, generating recommendations for films like \"Scarface (1983)\" with thematically related titles. The project includes a Streamlit interface and a FastAPI API, though it faces cold-start limitations for movies or users with insufficient rating data.", "body_md": "Los sistemas de recomendación están presentes en muchas plataformas digitales: streaming, e-commerce, música, formación online o personalización de contenidos. Su objetivo es ayudar al usuario a descubrir elementos relevantes dentro de catálogos cada vez más grandes.\n\nEn este proyecto he desarrollado **CineMatch AI**, un sistema de recomendación de películas basado en filtrado colaborativo por ítems. La idea principal es sencilla: dada una película de referencia, el sistema recomienda otras películas similares a partir de los patrones históricos de valoración de los usuarios.\n\nEl objetivo no era construir una solución empresarial completa, sino un prototipo funcional, reproducible y bien estructurado que permitiera trabajar un flujo completo de Data Science: análisis de datos, preprocesamiento, construcción del sistema de recomendación, evaluación exploratoria y presentación mediante una interfaz sencilla.\n\nPara el proyecto he utilizado el dataset **MovieLens**, una referencia habitual para trabajar con sistemas de recomendación.\n\nEl conjunto de datos incluye información sobre películas, usuarios y valoraciones. En este caso, el trabajo se ha centrado principalmente en dos archivos:\n\n`ratings.csv`\n\n`movies.csv`\n\nTras el proceso de filtrado, el sistema trabaja con:\n\nEste último punto es importante, porque en los sistemas de recomendación es habitual trabajar con matrices muy dispersas: muchos usuarios han valorado solo una pequeña parte del catálogo total.\n\nEl flujo del proyecto se divide en varias fases.\n\nPrimero se realizó la carga y exploración inicial de los datos, revisando el volumen de registros, la distribución de ratings y la información disponible sobre las películas.\n\nDespués se aplicaron filtros para mejorar la calidad de las recomendaciones:\n\nEste filtrado reduce ruido y evita que el sistema se base en películas o usuarios con muy poca información histórica.\n\nA continuación se construyó una matriz usuario-película, donde cada fila representa un usuario, cada columna una película y cada valor corresponde a la puntuación asignada. A partir de esta matriz, el sistema compara películas entre sí usando **similitud del coseno**.\n\nLa lógica es la siguiente: si dos películas han sido valoradas de forma parecida por muchos usuarios, el sistema interpreta que existe cierta similitud entre ellas.\n\nEl recomendador está basado en **filtrado colaborativo por ítems**. En lugar de comparar usuarios entre sí, compara películas a partir de los patrones de valoración.\n\nEste enfoque tiene varias ventajas:\n\nAdemás del análisis en notebook, el proyecto incluye una pequeña aplicación con **Streamlit**, pensada para probar el sistema de forma visual. Desde la interfaz se puede buscar una película, seleccionar una coincidencia del catálogo y obtener un top 5 o top 10 de recomendaciones con su score de similitud.\n\nTambién se incluye una API básica con **FastAPI** como demostración complementaria de cómo podría exponerse la lógica del recomendador.\n\nEl sistema genera recomendaciones coherentes, especialmente para películas con suficientes valoraciones históricas.\n\nAlgunos resultados principales del análisis fueron:\n\nPor ejemplo, para una película como `Scarface (1983)`\n\n, el sistema recomienda títulos relacionados con géneros como crimen, drama, thriller o acción, lo que muestra una cierta coherencia temática en las recomendaciones.\n\nComo ocurre en muchos sistemas de recomendación, el proyecto también tiene limitaciones.\n\nLa más importante es el problema de **cold start**: si una película o usuario no tiene valoraciones suficientes, el sistema no dispone de información histórica para generar recomendaciones fiables.\n\nAdemás, el filtrado por popularidad mejora la calidad de las recomendaciones, pero reduce la cobertura total del catálogo. También hay que tener en cuenta que el sistema recomienda a partir de patrones históricos de valoración, no por una comprensión semántica profunda del contenido de las películas.\n\nPor último, la evaluación realizada es exploratoria. No debe interpretarse como una evaluación supervisada definitiva, ya que no se ha aplicado una separación train/test ni métricas de ranking como Precision@K, Recall@K o NDCG, habituales en la evaluación de sistemas de recomendación.\n\nEste proyecto me ha servido para entender mejor cómo se estructura un sistema de recomendación desde una perspectiva práctica.\n\nMás allá de la técnica de similitud, una parte importante del trabajo ha estado en preparar los datos, tomar decisiones de filtrado, construir una estructura reproducible y presentar los resultados de forma clara.\n\nTambién me ha parecido especialmente interesante comprobar cómo una técnica relativamente sencilla, como la similitud del coseno, puede generar recomendaciones razonables cuando los datos están bien tratados.\n\nAlgunas mejoras naturales para futuras versiones serían:\n\nEl código completo del proyecto está disponible en GitHub:\n\n[https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez](https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez)\n\nPodeis contactarme en mi LinkedIn:\n\n[https://www.linkedin.com/in/albertomartinezsanchez](https://www.linkedin.com/in/albertomartinezsanchez)\n\nProyecto desarrollado durante el Máster en Data Science & Desarrollo de IA de Evolve.", "url": "https://wpnews.pro/news/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo", "canonical_source": "https://dev.to/evolve-space/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo-3m16", "published_at": "2026-05-25 18:22:03+00:00", "updated_at": "2026-05-25 19:03:33.464283+00:00", "lang": "en", "topics": ["machine-learning", "artificial-intelligence", "ai-products", "ai-tools"], "entities": ["CineMatch AI", "MovieLens"], "alternates": {"html": "https://wpnews.pro/news/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo", "markdown": "https://wpnews.pro/news/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo.md", "text": "https://wpnews.pro/news/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo.txt", "jsonld": "https://wpnews.pro/news/construyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo.jsonld"}}