EOI-Master BigData&Bussines Anlytics online Ed.Oct22
Módulo 16. Ejercicio 1    Rafael Vera Marañón

RecomiendaME

Recomendador tipo ranking TOP 25 películas basado en valoraciones medias
dataset: medias.csv

Cálculo del Score

· Punto de corte definido en quantile(0.80)· Definida función cálculo Score

cortevotos = medias['mediarating'].quantile(0.80)
-------------------------------------------------------------
Función para el cálculo
def mediaimdb(x, m=cortevotos, C=media):
v = x['conteo']
R = x['media_rating']
# Calculamos el weighted score
return round((R(v) + C(m)) / (v+m), 2)
------------------------------------------------------------Cálculo de Score para todas las películas
mediasfiltrado["score"] = mediasfiltrado.apply(mediaimdb, axis=1)`

Estadísticos relevantes

A continuación se muestran las medidas estadísticas principales para los valores cuantitativos del dataset top25.
media = mean
std = desviación estándar
min = mínimo valor
max = máximo valor
xx% = cuartiles

Justificación corte elegido80%

El dataset original contiene 37926 filas y el conjunto de datos filtrado resultante (mediasfiltrado) contiene 9391 filasEl tamaño del dataset resultante parece razonable y además el ranking no presentó grandes cambios estableciendo corte entre 30-90%.

estconteomedia_ratingscore
count9391.0000009391.0000009391.000000
mean91.9480356.9536756.980383
std214.4110581.0579140.785658
min8.0000001.0000002.130000
25%13.0000006.3145906.500000
50%25.0000007.0786527.040000
75%70.5000007.7004677.510000
max3104.00000010.0000009.920000

TOP 4

Resumiendo el ranking a los 4 primeros, podemos observar en la imagen las películas y sus scores calculados.Adicionalmente podemos destacar en orden de relevancia los siguientes géneros:
Comedia, Drama, Romance, Fantasía, Horror.

INSIGHTS Adicionales

Conteo por Género Comparativo

Este gráfico muestra la cantidad de películas por género en ambos datasets y permite comparar cuáles son los géneros más populares en cada uno. En el eje x se encuentran los géneros y en el eje y la cantidad de películas de cada género.Al observar el gráfico se puede ver que los géneros de drama y crimen son los más populares tanto en el dataset original como en el de recomendaciones, sin embargo, el género de acción es más popular en el dataset de recomendaciones que en el original. También se puede apreciar que el género de comedia tiene más películas en el dataset original que en el de recomendaciones. Esta información puede ser útil para entender las preferencias de los usuarios y mejorar los algoritmos de recomendación.

Rating & Score en Recomendaciones

En la figura de la derecha, podemos observar la relación entre el número de calificaciones, la media de la calificaciones y el score de las películas recomendadas. Podemos destacar que las películas mas votadas tienen una calificación promedio muy alta, y también tienen un score alto, lo que sugiere que estas películas son altamente valoradas tanto por la crítica como por el público en general.

Conteo por Género Comparativo

Este gráfico muestra la cantidad de películas por género en ambos datasets y permite comparar cuáles son los géneros más populares en cada uno. En el eje x se encuentran los géneros y en el eje y la cantidad de películas de cada género.

TextTextText

TOP 25: Películas mejor puntuadas

idimdb_idimdb_titleconteomedia_ratingscoregenre
8847tt5512872Be Somebody3539.9858369.92Comedy|Drama|Romance
6349tt4921860MSG 2 the Messenger4810.0000009.56Comedy|Drama|Fantasy|Horror
9303tt0111161The Shawshank Redemption11779.3882759.37Drama
4992tt5262972Avengers: Age of Ultron Parody2810.0000009.32Short|Comedy
8907tt0167260The Lord of the Rings: The Return of the King3929.3469399.30Adventure|Drama|Fantasy
9183tt0468569The Dark Knight7409.2797309.25Action|Crime|Drama|Thriller
4329tt6662050Five Minutes2210.0000009.19Short|Comedy
9234tt005008312 Angry Men8749.2105269.19Crime|Drama
8894tt0071562The Godfather: Part II3859.1402609.10Crime|Drama
8405tt11032374Demon Slayer: Mugen Train2009.1750009.09Animation|Action|Adventure|Fantasy
8820tt0038650It's a Wonderful Life3429.1257319.08Drama|Family|Fantasy
9386tt7286456Joker27579.0819739.08Crime|Drama|Thriller
8794tt0086879Amadeus3329.1114469.06Biography|Drama|History|Music
8607tt0103064Terminator 2: Judgment Day2499.1084349.04Action|Sci-Fi
9337tt4154796Avengers: Endgame14749.0468119.04Action|Adventure|Fantasy|Sci-Fi
9173tt0068646The Godfather7179.0502099.03Crime|Drama
8875tt0060196The Good, the Bad and the Ugly3739.0777489.03Western
9287tt1375666Inception10569.0246219.01Action|Adventure|Sci-Fi|Thriller
9254tt0109830Forrest Gump9309.0225819.00Drama|Romance
9009tt0108052Schindler's List4709.0234048.99Biography|Drama|History
9063tt0120689The Green Mile5359.0168228.99Crime|Drama|Fantasy|Mystery
9086tt0105323Scent of a Woman5558.9981988.97Drama
5672tt5813916The Mountain II369.4166678.97Action|Drama|War
3479tt4148400Two Hearts as One179.8823538.95Drama|History
8410tt3863552Bajrangi Bhaijaan2009.0150008.94Action|Comedy|Drama

TOP 25: MediaRating vs Conteo vs Score

Con los resultados obtenidos en el gráfico podemos concluir que "Be Somebody" es la película con la puntuación más alta en IMDb. La tabla también muestra que la cantidad de votos varía ampliamente entre las películas, desde 17 votos hasta 2,757. A pesar de esto, la mayoría de las películas en la lista tienen una puntuación alta de 9 o superior en una escala de 10 puntos, lo que sugiere que la mayoría de ellas son muy apreciadas por los usuarios de IMDb.Además, es posible que haya una correlación entre el número de votos y la puntuación en IMDb, ya que las películas con un mayor número de votos tienden a tener una puntuación más alta.
Sin embargo, esto no siempre es el caso, ya que algunas películas con un número relativamente bajo de votos, como "Be Somebody", pueden tener una puntuación muy alta.
Por lo tanto, es importante tener en cuenta la cantidad de votos junto con la puntuación al evaluar el rendimiento de una película o programa de televisión en IMDb.