Construyendo un recomendador de películas en Python: de los datos al modelo

wpnews.pro

cd /news/machine-learning/construyendo-un-recomendador-de-peli… · home › topics › machine-learning › article

[ARTICLE · art-13784] src=dev.to ↗ pub=2026-05-25T18:22Z topic=machine-learning verified=true sentiment=· neutral

Construyendo un recomendador de películas en Python: de los datos al modelo

A developer built CineMatch AI, a movie recommendation system using item-based collaborative filtering on the MovieLens dataset. The system compares movies using cosine similarity based on historical user ratings, generating recommendations for films like "Scarface (1983)" with thematically related titles. The project includes a Streamlit interface and a FastAPI API, though it faces cold-start limitations for movies or users with insufficient rating data.

read4 min views14 publishedMay 25, 2026

Los sistemas de recomendación están presentes en muchas plataformas digitales: streaming, e-commerce, música, formación online o personalización de contenidos. Su objetivo es ayudar al usuario a descubrir elementos relevantes dentro de catálogos cada vez más grandes.

En este proyecto he desarrollado CineMatch AI, un sistema de recomendación de películas basado en filtrado colaborativo por ítems. La idea principal es sencilla: dada una película de referencia, el sistema recomienda otras películas similares a partir de los patrones históricos de valoración de los usuarios.

El objetivo no era construir una solución empresarial completa, sino un prototipo funcional, reproducible y bien estructurado que permitiera trabajar un flujo completo de Data Science: análisis de datos, preprocesamiento, construcción del sistema de recomendación, evaluación exploratoria y presentación mediante una interfaz sencilla.

Para el proyecto he utilizado el dataset MovieLens, una referencia habitual para trabajar con sistemas de recomendación.

El conjunto de datos incluye información sobre películas, usuarios y valoraciones. En este caso, el trabajo se ha centrado principalmente en dos archivos:

ratings.csv

movies.csv

Tras el proceso de filtrado, el sistema trabaja con:

Este último punto es importante, porque en los sistemas de recomendación es habitual trabajar con matrices muy dispersas: muchos usuarios han valorado solo una pequeña parte del catálogo total.

El flujo del proyecto se divide en varias fases.

Primero se realizó la carga y exploración inicial de los datos, revisando el volumen de registros, la distribución de ratings y la información disponible sobre las películas.

Después se aplicaron filtros para mejorar la calidad de las recomendaciones:

Este filtrado reduce ruido y evita que el sistema se base en películas o usuarios con muy poca información histórica.

A continuación se construyó una matriz usuario-película, donde cada fila representa un usuario, cada columna una película y cada valor corresponde a la puntuación asignada. A partir de esta matriz, el sistema compara películas entre sí usando similitud del coseno.

La lógica es la siguiente: si dos películas han sido valoradas de forma parecida por muchos usuarios, el sistema interpreta que existe cierta similitud entre ellas.

El recomendador está basado en filtrado colaborativo por ítems. En lugar de comparar usuarios entre sí, compara películas a partir de los patrones de valoración.

Este enfoque tiene varias ventajas:

Además del análisis en notebook, el proyecto incluye una pequeña aplicación con Streamlit, pensada para probar el sistema de forma visual. Desde la interfaz se puede buscar una película, seleccionar una coincidencia del catálogo y obtener un top 5 o top 10 de recomendaciones con su score de similitud.

También se incluye una API básica con FastAPI como demostración complementaria de cómo podría exponerse la lógica del recomendador.

El sistema genera recomendaciones coherentes, especialmente para películas con suficientes valoraciones históricas.

Algunos resultados principales del análisis fueron:

Por ejemplo, para una película como Scarface (1983)

, el sistema recomienda títulos relacionados con géneros como crimen, drama, thriller o acción, lo que muestra una cierta coherencia temática en las recomendaciones.

Como ocurre en muchos sistemas de recomendación, el proyecto también tiene limitaciones.

La más importante es el problema de cold start: si una película o usuario no tiene valoraciones suficientes, el sistema no dispone de información histórica para generar recomendaciones fiables.

Además, el filtrado por popularidad mejora la calidad de las recomendaciones, pero reduce la cobertura total del catálogo. También hay que tener en cuenta que el sistema recomienda a partir de patrones históricos de valoración, no por una comprensión semántica profunda del contenido de las películas.

Por último, la evaluación realizada es exploratoria. No debe interpretarse como una evaluación supervisada definitiva, ya que no se ha aplicado una separación train/test ni métricas de ranking como Precision@K, Recall@K o NDCG, habituales en la evaluación de sistemas de recomendación.

Este proyecto me ha servido para entender mejor cómo se estructura un sistema de recomendación desde una perspectiva práctica.

Más allá de la técnica de similitud, una parte importante del trabajo ha estado en preparar los datos, tomar decisiones de filtrado, construir una estructura reproducible y presentar los resultados de forma clara.

También me ha parecido especialmente interesante comprobar cómo una técnica relativamente sencilla, como la similitud del coseno, puede generar recomendaciones razonables cuando los datos están bien tratados.

Algunas mejoras naturales para futuras versiones serían:

El código completo del proyecto está disponible en GitHub:

https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez Podeis contactarme en mi LinkedIn:

https://www.linkedin.com/in/albertomartinezsanchez Proyecto desarrollado durante el Máster en Data Science & Desarrollo de IA de Evolve.

source & further reading

dev.to — original article AMD Had Zero Agent Skills. I Built the First 10. I Already Control This Computer. Here's a Tool That Lets Other AIs Do It Can Multi-Model Discussion Actually Solve AI Hallucination? A Reflection from an MVP Practitioner

~/api · this article 200

$curl api.wpnews.pro/v1/news/construyendo-un-recomend…

Read original on dev.to → dev.to/evolve-space/construyendo-un-recomendador…

mentioned entities

CineMatch AI

MovieLens

metadata

slugconstruyendo-un-recomendador-de-peliculas-en-python-de-los-datos-al-modelo

topic#machine-learning

secondary3 topics

sentimentneutral

canonicaldev.to

navigation

← prevWhy QA Engineers Should Learn Pl…

next →Google adds open source Agent Ex…

── more in #machine-learning 4 stories · sorted by recency

byteiota.com · 10 Jul · #machine-learning

Ollama Raises $65M Series B: What Changes for Developers

runtimewire.com · 10 Jul · #machine-learning

Stan's 14-day AI build turned customer knowledge into $3 million ARR

tensorsharp.ai · 10 Jul · #machine-learning

Show HN: TensorSharp: Open-Source Local LLM Inference Engine

cryptobriefing.com · 10 Jul · #machine-learning

OpenAI launches ChatGPT Work, turning every white-collar employee into a coder

── more on @cinematch ai 3 stories trending now

wpnews · 27 May · #artificial-intelligence

How I Run Two Claude Accounts as One

wpnews · 30 May · #ai-safety

Nightcord Security Analysis Report - Threat Investigation

wpnews · 8 Jul · #artificial-intelligence

Anthropic's "J-lens" reveals workspace in Claude mirrors theory of consciousness

sponsored brought to you by zahid.host 4,200+ EU-deployed projects

reading about agents? ship yours in a single git push.

Run your AI side-project on zahid.host

EU-based hosting, git-push deploys, automatic HTTPS, no cold starts. Free tier with a custom domain — perfect for shipping the agent you just read about.

$git push zahid main

→ Live at https://your-agent.zahid.host ✓

Get free account → Pricing

from €0/mo · no card required