Чьим рейтингам стоит доверять? IMDB, Rotten Tomatoes, Metacritic или Fandango?

Специалист по данным исследует

Стоит ли смотреть фильм? Что ж, нужно учитывать множество факторов, таких как режиссер, актеры и бюджет фильма. Большинство из нас основывает свое решение на обзоре, короткометражном трейлере или просто на оценке фильма.

Есть несколько веских причин, по которым вы не захотите читать обзоры или смотреть трейлер, хотя они содержат гораздо больше информации, чем рейтинг.

Во-первых, вы можете полностью избегать спойлеров, даже самых маленьких. Я это понимаю!

Во-вторых, возможно, вы хотите получить незабываемые впечатления от просмотра этого фильма. Обычно это относится только к рецензиям, в которых есть кадры, например «это фильм о сложности вселенной» или «этот фильм на самом деле не о любви». После того, как эти кадры закодированы в вашей краткосрочной памяти, будет действительно сложно остановить их, чтобы они не мешали вашему собственному восприятию фильма.

Еще одна веская причина в том, что если вы устали или торопитесь, возможно, вы не захотите читать обзор, не говоря уже о просмотре двухминутного трейлера.

Таким образом, числовой рейтинг фильма кажется хорошим решением во многих ситуациях для многих людей.

Эта статья направлена ​​на то, чтобы порекомендовать один веб-сайт, чтобы быстро получить точный рейтинг фильма, и предлагает для него надежную аргументацию на основе данных.

Критерии «лучших»

Дать такую ​​рекомендацию - все равно что сказать: «Это лучшее место для поиска рейтинга фильма», что является оценочным заявлением, основанным на некоторых критериях, используемых для определения того, что лучше, что хуже или хуже, а что лучше. , в этом случае. В качестве рекомендации я буду использовать один единственный критерий: нормальное распределение.

Лучшее место для поиска рейтинга фильма - это посмотреть, чьи рейтинги распределены по схеме, которая больше всего похожа или идентична модели нормального распределения, а именно: с учетом набора значений, лежащих в определенном интервале , большинство из них находится в его середине, а несколько других - в крайних точках этого интервала. Обычно так выглядит нормальное (также называемое гауссовым) распределение:

Каково обоснование этого критерия? Ну, исходя из собственного опыта, состоящего из нескольких сотен фильмов, могу сказать, что видел:

  • несколько выдающихся, которые я смотрел несколько раз
  • пара, которая была действительно ужасной, и заставила меня пожалеть о времени, потраченном на них
  • и целая куча средних, для большинства из которых я даже не могу вспомнить сюжет.

Я считаю, что у большинства людей - критиков, киноманов или просто обычных кинозрителей - был подобный опыт.

Если рейтинги фильмов действительно отражают качество фильма, то мы должны увидеть одинаковую картину для обоих.

Учитывая, что большинство из нас оценивает большую часть фильмов как среднего качества, мы должны увидеть ту же картину при анализе рейтингов фильмов. Аналогичная логика применима к плохим и хорошим фильмам.

Если вы еще не уверены, что между шаблонами должно быть такое соответствие, подумайте о распределении оценок для одного фильма. Поскольку многие люди оценивают фильм, это не повод предполагать, что чаще всего будет много из них с похожими предпочтениями. В целом они согласятся, что фильм либо плохой, либо средний, либо хороший (позже я количественно определю эти качественные показатели). Кроме того, будет несколько человек, которые оценивают фильм по одной из двух других качественных ценностей.

Если бы мы визуализировали распределение всех оценок для отдельного фильма, мы, скорее всего, увидели бы, что один единственный кластер формируется в одной из областей, соответствующих низкому, среднему или высокому рейтингу.

При условии, что большинство фильмов считается средним, кластер вокруг средней области имеет наибольшую вероятность появления, а два других кластера имеют меньшую (но все же значительную) вероятность. (Обратите внимание, что все эти вероятности в принципе можно измерить количественно, но для этого потребуется много данных, и это может превратить эту статью в книгу.)

Наименее вероятным было бы равномерное распределение, в котором нет кластеров, а предпочтения людей почти поровну разделены по трем качественным ценностям.

Учитывая эти вероятности, распределение рейтингов для достаточно большой выборки фильмов должно быть таким, чтобы в средней области был тупой кластер, ограниченный полосами убывающей высоты (частоты), напоминая, таким образом, нормальное распределение.

Если вам все это трудно понять, обратите внимание на эту иллюстрацию:

IMDB, Rotten Tomatoes, Fandango или Metacritic?

Теперь, когда у нас есть критерий, с которым можно работать, давайте углубимся в данные.

Есть много веб-сайтов, которые предлагают свои собственные рейтинги фильмов. Я выбрал только четыре, в основном исходя из их популярности, чтобы получить рейтинги фильмов с приемлемым количеством голосов. Счастливыми победителями стали IMDB, Fandango, Rotten Tomatoes и Metacritic.

Что касается последних двух, я сосредоточился только на их знаковых типах рейтинга, а именно на томатометре и метааценке -главным образом потому, что они более заметны для пользователя на каждом из веб-сайтов (что означает, что их быстрее найти). Они также доступны на двух других веб-сайтах (мета-оценка размещена на IMDB, а томатометр - на Fandango). Помимо этих знаковых оценок, оба веб-сайта также имеют менее популярный тип рейтинга, в который вносят свой вклад только пользователи.

Я собрал рейтинги некоторых фильмов, получивших наибольшее количество голосов и отзывов в 2016 и 2017 годах. Очищенный набор данных содержит рейтинги для 214 фильмов и может быть загружен из этого репозитория Github.

Я не собирал рейтинги фильмов, выпущенных до 2016 года, просто потому, что вскоре после анализа Уолта Хикки в рейтинговой системе Fandango произошло небольшое изменение, о котором я буду говорить позже в этой статье.

Я знаю, что работать с небольшой выборкой рискованно, но, по крайней мере, это компенсируется получением самого последнего снимка распределения рейтингов.

Прежде чем строить и интерпретировать распределения, позвольте мне количественно оценить качественные значения, которые я использовал ранее: по шкале от 0 до 10 плохой фильм находится где-то между 0 и 3, средний - между 3 и 7, а хороший - между 7 и 10. .

Обратите внимание на разницу между качеством и количеством. Чтобы в дальнейшем это было заметно, я буду называть оценки (количество) низкими, средними или высокими. Как и прежде, качество фильма выражается как плохое, среднее или хорошее. Если вы беспокоитесь о том, что «средний» термин будет таким же, не беспокойтесь, потому что я позабочусь о том, чтобы избежать двусмысленности.

Теперь посмотрим на дистрибутивы:

С первого взгляда можно заметить, что гистограмма мета-баллов (так называется этот вид графа) больше всего напоминает нормальное распределение. Он имеет толстую группу в средней области, состоящую из полос неправильной высоты, что не делает вершину ни тупой, ни острой.

Однако они более многочисленны и выше, чем столбики в каждой из двух других областей, высота которых уменьшается в сторону крайних значений более или менее постепенно. Все это ясно указывает на то, что большинство мета-оценок имеют среднее значение, что в значительной степени именно то, что мы ищем.

В случае IMDB основная часть распределения также находится в средней области, но есть очевидный перекос в сторону самых высоких средних значений. Область высоких оценок похожа на то, что можно было бы ожидать при нормальном распределении в этой части гистограммы. Однако поразительной особенностью является то, что область с низким рейтингом фильмов полностью пуста, что вызывает большой вопросительный знак.

Изначально я возложил вину на небольшую выборку, полагая, что более крупная выборка будет более справедливой для IMDB. К счастью, мне удалось найти готовый набор данных на Kaggle, содержащий рейтинги IMDB для 4917 различных фильмов. К моему большому удивлению, раздача выглядела так:

Форма распределения выглядит почти так же, как и для выборки из 214 фильмов, за исключением области низких оценок, которая в данном случае слабо заполнена 46 фильмами (из 4917). Основная часть значений все еще находится в средней области, что делает рейтинг IMDB заслуживающим дальнейшего рассмотрения для рекомендации, хотя явно трудно конкурировать с мета-баллом из-за такого перекоса.

В любом случае, что действительно замечательно в этом результате, так это то, что его можно использовать в качестве сильного аргумента в поддержку тезиса о том, что выборка из 214 фильмов достаточно репрезентативна для всего населения. Другими словами, теперь есть большая уверенность в том, что результаты этого анализа будут такими же - или, по крайней мере, подобными - результатам, полученным, если бы были проанализированы абсолютно все рейтинги фильмов со всех четырех веб-сайтов.

С этой возросшей уверенностью давайте перейдем к изучению распределения рейтингов Фанданго, которое, похоже, не сильно изменилось со времени анализа Хикки. По-прежнему заметен перекос в сторону более высокой части спектра рейтингов фильмов, где находится большинство рейтингов. Область для нижней половины средних оценок совершенно пуста, как и область для низких оценок. Легко сделать вывод, что распределение довольно далеко от моего критерия. Следовательно, я не буду рассматривать его как возможную рекомендацию.

(Обещаю, что мучения с прокруткой вверх скоро закончатся. Гораздо проще сравнивать раздачи, если они расположены рядом друг с другом, чем разбросать их по статье.)

Наконец, распределение томатометра неожиданно однородно и выглядело бы еще более плоским при другой стратегии биннинга (стратегия биннинга определяется общим количеством столбцов и их диапазонами; вы можете поиграть с этими двумя параметрами при создании гистограммы) .

Это распределение непросто интерпретировать в контексте, потому что томатометр - это не классический рейтинг, а скорее представляет собой процент критиков, которые дали положительный отзыв о фильме. Это делает его непригодным для качественной структуры «плохой-средний-хороший», потому что он делает фильмы либо хорошими, либо плохими. В любом случае, я полагаю, что все должно сводиться к тому же нормальному распределению, при котором у большинства фильмов есть умеренная разница между количеством положительных и отрицательных отзывов (что дает многие оценки от 30% до 70% положительных отзывов), и несколько фильмов, так или иначе имеющих значительно большую разницу.

Учитывая последнее соображение и форму распределения, томатометр не соответствует моему критерию. Это может быть , что большая выборка будет делать это больше справедливости, но даже так, если бы я , чтобы рекомендовать его, я бы сделал это с некоторыми запасами из - за нечеткую положительную или отрицательную рейтинговую систему.

На этом этапе анализа я могу сказать, что, глядя на дистрибутивы, я рекомендую мета-баллы.

Тем не менее, распределение IMDB, похоже, также заслуживает рассмотрения, особенно если вы немного измените рейтинговые интервалы для трех качественных категорий (интервалы, которые я определил сам, более или менее произвольно). С этой точки зрения явно недостаточно рекомендовать мета-оценку, проводя в основном визуальный осмотр.

Итак, я попытаюсь провести разграничение между этими двумя, используя количественный метод.

Идея состоит в том, чтобы использовать переменную Fandango в качестве отрицательной ссылки, а затем определить, какая переменная из рейтинга IMDB и мета-баллов наименее коррелирована с ней (я называю эти переменные, потому что они могут принимать разные значения - например, мета-балл является переменной, потому что она принимает разные значения в зависимости от фильма).

Я просто вычислю некоторые коэффициенты корреляции, и моей рекомендацией будет переменная с наименьшим значением (затем я объясню, как работают эти коэффициенты корреляции). Но перед этим позвольте мне вкратце обосновать выбор переменной Fandango в качестве отрицательной ссылки.

Пользователи Fandango слишком любят фильмы

Одна из причин такого выбора заключается в том, что распределение рейтингов фильмов Фанданго является самым далеким от нормального, с очевидным перекосом в сторону более высокой части спектра рейтингов фильмов.

Другая причина - это облако подозрений вокруг Фанданго, оставленное анализом Уолта Хики. В октябре 2015 года он также был озадачен подобным распределением и обнаружил, что на веб-сайте Fandango числовые рейтинги всегда округлялись до следующей по величине половины звезды, а не до ближайшей (например, средний рейтинг 4,1 для фильма будет были округлены до 4,5 звезд вместо 4,0).

Команда Fandango исправила предвзятую систему рейтингов и сказала Хики, что логика оценки была скорее «программным сбоем» на их веб-сайте, указывая на объективную систему в их мобильном приложении. (Подробнее об этом в статье Хикки.) Корректировка действительно изменила некоторые статистические параметры к лучшему, но не настолько, чтобы убедить меня не работать с переменной Fandango в качестве отрицательной ссылки.

Вот как выглядит изменение:

Теперь давайте увеличим масштаб Фанданго:

Что меньше всего коррелирует с рейтингом Fandango между мета-баллом и рейтингом IMDB?

Наименее коррелирует с рейтингом Фанданго мета-рейтинг. Он имеет значение r Пирсона 0,38 по отношению к Fandango, в то время как рейтинг IMDB имеет значение 0,63.

А теперь позвольте мне все это объяснить.

Поскольку две переменные меняются, принимая разные значения, они коррелируют, если существует закономерность, соответствующая обоим изменениям. Измерение корреляции просто означает измерение степени, в которой существует такая закономерность.

Один из способов выполнить эту меру - вычислить r Пирсона. Если значение +1,0, это означает идеальную положительную корреляцию, а если -1,0, это означает идеальную отрицательную корреляцию.

Степень коррелированности переменных уменьшается по мере приближения r Пирсона к 0 как с отрицательной, так и с положительной стороны.

Давайте лучше визуализируем это:

Теперь, чтобы поместить приведенную выше абстракцию в контекст, если мы сравним, как меняются значения для двух типов рейтинга - скажем, Fandango и IMDB - мы можем определить степень, в которой существует шаблон, соответствующий обоим изменениям.

Учитывая только что упомянутые коэффициенты корреляции, между Fandango и IMDB существует более сильная закономерность, чем для Fandango и мета-баллов. Оба коэффициента положительны, и, как таковая, корреляция считается положительной, что означает, что по мере роста рейтингов Fandango рейтинги IMDB также имеют тенденцию повышаться, в большей степени, чем мета-баллы.

Иными словами, для любого данного рейтинга фильма на Fandango более вероятно, что мета-рейтинг будет больше отличаться от него, чем рейтинг IMDB.

Вердикт: используйте мета-прогноз Metacritic

В общем, я рекомендую проверять мета-оценку всякий раз, когда вы ищете рейтинг фильма. Вот как это работает и есть недостатки.

В двух словах, мета-оценка - это средневзвешенное значение многих обзоров, полученных от известных критиков. Команда Metacritic читает обзоры и присваивает каждому оценку от 0 до 100, которой затем присваивается вес, в основном в зависимости от качества и источника обзора. Вы можете узнать больше об их рейтинговой системе здесь.

Теперь я просто хочу указать на несколько недостатков мета-оценки:

  • Весовые коэффициенты являются конфиденциальными, поэтому вы не сможете увидеть, насколько каждый отзыв учитывается в метааценке.
  • Вам будет нелегко найти мета-оценки для менее известных фильмов, появившихся до 1999 года, когда был создан Metacritic.
  • Некоторые недавние фильмы, основной язык которых не английский, даже не перечислены на Metacritic. Например, румынские фильмы «Два лотерейных билета» (2016) и «Восточный бизнес» (2016) не указаны на Metacritic, а на IMDB с рейтингами.

Еще несколько слов

Подводя итог, в этой статье я дал единственную рекомендацию, где искать рейтинг фильма. Я рекомендовал мета-рейтинг, основываясь на двух аргументах: его распределение больше всего похоже на нормальное и меньше всего коррелирует с рейтингом Fandango.

Как показано здесь, все количественные и визуальные элементы статьи воспроизводятся в Python.

Спасибо за прочтение! И счастливого кино!