9 ключевых алгоритмов машинного обучения, объясненных простым языком

Машинное обучение меняет мир. Google использует машинное обучение, чтобы предлагать пользователям результаты поиска. Netflix использует его, чтобы рекомендовать вам фильмы. Facebook использует машинное обучение, чтобы предлагать знакомых.

Машинное обучение никогда не было так важно. В то же время понять машинное обучение сложно. Поле полно жаргона. И количество различных алгоритмов машинного обучения с каждым годом растет.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. В частности, мы обсудим основные концепции, лежащие в основе 9 самых важных алгоритмов машинного обучения сегодня.

Системы рекомендаций

Что такое системы рекомендаций?

Системы рекомендаций используются для поиска похожих записей в наборе данных.

Возможно, самый распространенный пример рекомендации из реальной жизни существует внутри Netflix. В частности, его служба потокового видео будет рекомендовать рекомендуемые фильмы и телешоу на основе контента, который вы уже смотрели.

Другая система рекомендаций - это функция Facebook «Люди, которых вы можете знать», которая предлагает вам возможных друзей на основе вашего существующего списка друзей.

Полностью разработанные и развернутые системы рекомендаций чрезвычайно сложны. К тому же они очень ресурсоемки.

Системы рекомендаций и линейная алгебра

Полноценные рекомендательные системы требуют глубоких знаний в области линейной алгебры для создания с нуля.

Из-за этого в этом разделе могут быть концепции, которые вы не понимаете, если никогда раньше не изучали линейную алгебру.

Не волнуйтесь - библиотека Python scikit-learn упрощает создание рекомендательных систем. S0 вам не нужен большой опыт линейной алгебры для создания реальных систем рекомендаций.

Как работают системы рекомендаций?

Существует два основных типа рекомендательных систем:

  • Системы рекомендаций на основе контента
  • Системы рекомендаций совместной фильтрации

Системы рекомендаций на основе контента дают вам рекомендации, основанные на сходстве элементов с элементами, которые вы уже использовали. Они ведут себя именно так, как вы ожидаете от рекомендательной системы.

Системы рекомендаций с совместной фильтрацией выдают рекомендации, основанные на знании взаимодействия пользователя с элементами. Иначе говоря, они используют мудрость толпы. (Отсюда и термин «совместный» в его названии.)

В реальном мире системы рекомендаций с совместной фильтрацией встречаются гораздо чаще, чем системы на основе контента. Это в первую очередь потому, что они обычно дают лучшие результаты. Некоторым практикам также легче понять системы рекомендаций с совместной фильтрацией.

Системы рекомендаций с совместной фильтрацией также обладают уникальной функцией, отсутствующей в системах на основе контента. А именно, они имеют возможность изучать функции самостоятельно.

Это означает, что они могут даже начать определять сходство между элементами на основе атрибутов, которые вы даже не сказали им учитывать.

В рамках совместной фильтрации есть две подкатегории:

  • Совместная фильтрация на основе памяти
  • Совместная фильтрация на основе модели

Вам не нужно знать различия между этими двумя типами систем рекомендаций для совместной фильтрации, чтобы добиться успеха в машинном обучении. Достаточно признать, что существует несколько типов.

Заключение раздела

Вот краткое изложение того, что мы обсуждали о системах рекомендаций в этом руководстве:

  • Примеры рекомендательных систем в реальном мире
  • Различные типы рекомендательных систем и то, как системы совместной фильтрации используются чаще, чем системы рекомендаций на основе контента
  • Связь между рекомендательными системами и линейной алгеброй

Линейная регрессия

Линейная регрессия используется для прогнозирования некоторых yзначений на основе значения другого набора xзначений.

История линейной регрессии

Линейная регрессия была создана в 1800-х годах Фрэнсисом Гальтоном.

Гальтон был ученым, изучавшим отношения между родителями и детьми. В частности, Гальтон исследовал взаимосвязь между ростом отцов и ростом их сыновей.

Первым открытием Гальтона было то, что сыновья обычно были примерно такого же роста, как их отцы. Это не удивительно.

Позже Гальтон обнаружил нечто гораздо более интересное. Рост сына, как правило, был ближе к общему среднему росту всех людей, чем к его собственному отцу .

Гальтон дал этому феномену название: регресс . В частности, он сказал: «Рост сына отца имеет тенденцию уменьшаться (или приближаться) к среднему (среднему) росту».

Это привело к появлению целой области статистики и машинного обучения, называемой регрессией.

Математика линейной регрессии

При создании регрессионной модели все, что мы пытаемся сделать, это нарисовать линию, максимально приближенную к каждой точке в наборе данных.

Типичным примером этого является «метод наименьших квадратов» линейной регрессии, который вычисляет только близость линии в направлении вверх и вниз.

Вот пример, чтобы проиллюстрировать это:

Пример математики, лежащей в основе регрессии наименьших квадратов

Когда вы создаете регрессионную модель, конечный продукт представляет собой уравнение, которое вы можете использовать для прогнозирования значения y для значения x, не зная заранее значение y.

Логистическая регрессия

Логистическая регрессия похожа на линейную регрессию, за исключением того, что вместо вычисления числового yзначения она оценивает, к какой категории принадлежит точка данных.

Что такое логистическая регрессия?

Логистическая регрессия - это модель машинного обучения, которая используется для решения задач классификации.

Вот несколько примеров проблем классификации машинного обучения:

  • Спам-письма (спам или нет?)
  • Претензии по автострахованию (списание или ремонт?)
  • Диагностика заболеваний

Каждая из задач классификации имеет ровно две категории, что делает их примерами задач бинарной классификации .

Логистическая регрессия хорошо подходит для решения задач бинарной классификации - мы просто присваиваем разным категориям значение 0и 1соответственно.

Зачем нужна логистическая регрессия? Потому что вы не можете использовать модель линейной регрессии для прогнозирования двоичной классификации. Это не приведет к хорошему совпадению, поскольку вы пытаетесь провести прямую линию через набор данных только с двумя возможными значениями.

Это изображение может помочь вам понять, почему модели линейной регрессии плохо подходят для задач двоичной классификации:

Классификация линейной регрессии

На этом изображении символ y-axisпредставляет вероятность злокачественной опухоли. И наоборот, значение 1-yпредставляет вероятность того, что опухоль не является злокачественной. Как видите, модель линейной регрессии плохо справляется с предсказанием этой вероятности для большинства наблюдений в наборе данных.

Вот почему полезны модели логистической регрессии. У них есть изгиб к своей линии наилучшего соответствия, что делает их гораздо более подходящими для прогнозирования категориальных данных.

Вот пример, который сравнивает модель линейной регрессии с моделью логистической регрессии с использованием тех же данных обучения:

Линейная регрессия против логистической регрессии

Сигмовидная функция

Причина, по которой модель логистической регрессии имеет изгиб кривой, заключается в том, что она не рассчитывается с использованием линейного уравнения. Вместо этого модели логистической регрессии строятся с использованием сигмовидной функции (также называемой логистической функцией из-за ее использования в логистической регрессии).

Вам не нужно запоминать сигмовидную функцию, чтобы добиться успеха в машинном обучении. С учетом сказанного полезно иметь некоторое представление о его внешнем виде.

Уравнение показано ниже:

Сигмовидное уравнение

Основная характеристика сигмовидной функции, которую стоит понять, заключается в следующем: независимо от того, какое значение вы ей передаете, она всегда будет генерировать вывод где-то между 0 и 1.

Использование моделей логистической регрессии для прогнозирования

Чтобы использовать модель линейной регрессии для прогнозирования, обычно необходимо указать точку отсечения. Это обычно точка отсечки 0.5.

Давайте воспользуемся примером диагностики рака из нашего предыдущего изображения, чтобы увидеть этот принцип на практике. Если модель логистической регрессии выдает значение ниже 0,5, то точка данных классифицируется как доброкачественная опухоль. Точно так же, если сигмовидная функция дает значение выше 0,5, то опухоль будет классифицирована как злокачественная.

Использование матрицы неточностей для измерения эффективности логистической регрессии

Матрица неточностей может использоваться как инструмент для сравнения истинных положительных, истинно отрицательных, ложных и ложных отрицательных результатов в машинном обучении.

Матрицы неточностей особенно полезны при использовании для измерения производительности моделей логистической регрессии. Вот пример того, как мы могли бы использовать матрицу путаницы:

Пример матрицы путаницы

Матрица неточностей полезна для оценки того, является ли ваша модель особенно слабой в конкретном квадранте матрицы неточностей. Например, у него может быть аномально большое количество ложных срабатываний.

Это также может быть полезно в определенных приложениях, чтобы убедиться, что ваша модель хорошо работает в особенно опасной зоне матрицы неточностей.

В этом примере рака, например, вы должны быть очень уверены, что ваша модель не имеет очень высокого уровня ложноотрицательных результатов, поскольку это будет означать, что у кого-то есть злокачественная опухоль, которую вы неправильно классифицировали как доброкачественную.

Заключение раздела

В этом разделе вы впервые познакомились с моделями машинного обучения логистической регрессии.

Вот краткое изложение того, что вы узнали о логистической регрессии:

  • Типы задач классификации, которые можно решить с помощью моделей логистической регрессии
  • Что логистическая функция (также называемая сигмовидной функцией) всегда выводит значение от 0 до 1.
  • Как использовать точки отсечения для прогнозирования с помощью модели машинного обучения логистической регрессии
  • Почему матрицы путаницы полезны для измерения производительности моделей логистической регрессии

K-Ближайшие соседи

Алгоритм K-ближайших соседей может помочь вам решить задачи классификации, в которых существует более двух категорий.

Что такое алгоритм K-ближайших соседей?

Алгоритм K-ближайших соседей - это алгоритм классификации, основанный на простом принципе. На самом деле принцип настолько прост, что лучше всего его можно понять на примере.

Представьте, что у вас есть данные о росте и весе футболистов и баскетболистов. Алгоритм K-ближайших соседей можно использовать для прогнозирования того, является ли новый спортсмен футболистом или баскетболистом.

Для этого алгоритм K-ближайших соседей определяет точки Kданных, наиболее близкие к новому наблюдению.

На следующем изображении показано это со значением K, равным 3:

Визуализация k ближайших соседей

На этом изображении футболисты помечены синими точками данных, а баскетболисты - оранжевыми точками. Точка данных, которую мы пытаемся классифицировать, помечена зеленым цветом.

Поскольку большинство (2 из 3) точек данных туалетов для новых точек данных являются синими футболистами, алгоритм K-ближайших соседей предсказывает, что новая точка данных также является футболистом.

Этапы построения алгоритма K-ближайших соседей

Общие шаги для построения алгоритма K-ближайших соседей:

  1. Храните все данные
  2. Рассчитайте евклидово расстояние от новой точки данных xдо всех других точек в наборе данных.
  3. Отсортируйте точки в наборе данных в порядке увеличения расстояния от x
  4. Прогнозируйте, используя ту же категорию, что и большинство Kближайших точек данных кx

Важность K в алгоритме K-ближайших соседей

Хотя это может быть неочевидно с самого начала, изменение значения Kв алгоритме K-ближайших соседей изменит категорию, к которой относится новая точка.

В частности, очень низкое Kзначение приведет к тому, что ваша модель будет идеально предсказывать ваши обучающие данные и плохо предсказывать ваши тестовые данные. Точно так же слишком высокое Kзначение сделает вашу модель излишне сложной.

Следующая визуализация отлично иллюстрирует это:

Значение K и частота ошибок

Плюсы и минусы алгоритма K-ближайших соседей

В заключение этого введения в алгоритм K-ближайших соседей я хотел кратко обсудить некоторые плюсы и минусы использования этой модели.

Вот несколько основных преимуществ алгоритма K-ближайших соседей:

  • Алгоритм прост и понятен
  • Обучить модель на новых обучающих данных - нетрудно.
  • Он работает с любым количеством категорий в задаче классификации
  • Легко добавить больше данных в набор данных
  • Модель принимает только два параметра: Kи метрику расстояния, которую вы хотите использовать (обычно евклидово расстояние).

Точно так же вот несколько основных недостатков алгоритма:

  • Прогнозирование связано с высокими вычислительными затратами, так как вам нужно отсортировать весь набор данных.
  • Не работает с категориальными функциями

Заключение раздела

Вот краткое изложение того, что вы только что узнали об алгоритме k-ближайших соседей:

  • Пример задачи классификации (футболисты против баскетболистов), которую может решить алгоритм K-ближайших соседей
  • Как K-ближайшие соседи используют евклидово расстояние от соседних точек данных, чтобы предсказать, к какой категории принадлежит новая точка данных
  • Почему значение имеет Kзначение для прогнозов
  • Плюсы и минусы использования алгоритма K-ближайших соседей

Деревья решений и случайные леса

И деревья решений, и случайные леса являются примерами древовидных методов.

В частности, деревья решений - это модели машинного обучения, используемые для прогнозирования путем последовательного переключения каждой функции в наборе данных. Случайные леса - это ансамбли деревьев решений, в которых используются случайные порядки функций в наборах данных.

Что такое древовидные методы?

Прежде чем мы углубимся в теоретические основы использования древовидных методов в машинном обучении, полезно начать с примера.

Представьте, что вы каждый понедельник играете в баскетбол. Более того, вы всегда приглашаете одного и того же друга поиграть с вами.

Иногда действительно приходит друг. Иногда они этого не делают.

Решение о том, приехать или нет, зависит от множества факторов, таких как погода, температура, ветер и усталость. Вы начинаете замечать эти особенности и отслеживать их вместе с решением вашего друга, играть или нет.

Вы можете использовать эти данные, чтобы предсказать, придет ли ваш друг поиграть в баскетбол. Один из методов, который вы можете использовать, - это дерево решений. Вот как будет выглядеть это дерево решений:

Пример дерева решений

Каждое дерево решений имеет два типа элементов:

  • Nodes: места, где дерево разделяется в соответствии со значением некоторого атрибута
  • Edges: результат разделения на следующий узел

Вы можете видеть на изображении выше, что есть узлы для outlook, humidityи windy. У каждого потенциального значения каждого из этих атрибутов есть преимущество.

Вот еще два элемента терминологии дерева решений, которые вам следует понять, прежде чем продолжить:

  • Root: узел, который выполняет первое разбиение
  • Leaves: конечные узлы, которые предсказывают окончательный результат

Теперь у вас есть базовое понимание того, что такое деревья решений. В следующем разделе мы узнаем о том, как построить деревья решений с нуля.

Как построить дерево решений с нуля

Строить деревья решений сложнее, чем вы думаете. Это связано с тем, что решение о том, на какие функции следует разделить данные (что является темой, которая относится к полям энтропии и информационного прироста), является математически сложной задачей.

Чтобы решить эту проблему, специалисты по машинному обучению обычно используют множество деревьев решений, используя случайную выборку функций, выбранных в качестве разделения.

Иными словами, новая случайная выборка функций выбирается для каждого дерева при каждом разбиении. Этот прием называется случайным лесом .

Как правило, практикующие врачи обычно выбирают размер случайной выборки функций (обозначенных m) как квадратный корень из общего числа функций в наборе данных (обозначенных p). Чтобы быть кратким, mэто квадратный корень из p, а затем случайным образом выбирается конкретная функция m.

Если сейчас это не совсем понятно, не волнуйтесь. Это станет более ясным, когда вы в конечном итоге построите свою первую модель случайного леса.

Преимущества использования случайных лесов

Представьте, что вы работаете с набором данных, который имеет одну очень сильную особенность. Иными словами, в наборе данных есть одна функция, которая дает гораздо больше возможностей для прогнозирования конечного результата, чем другие функции в наборе данных.

Если вы строите деревья решений вручную, то имеет смысл использовать эту функцию в качестве верхней части дерева решений. Это означает, что у вас будет несколько деревьев, прогнозы которых сильно коррелированы.

Мы хотим избежать этого, поскольку усреднение сильно коррелированных переменных не приводит к значительному снижению дисперсии. Путем случайного выбора функций для каждого дерева в случайном лесу деревья становятся декоррелированными, и дисперсия результирующей модели уменьшается. Эта декорреляция является основным преимуществом использования случайных лесов над деревьями решений, сделанными вручную.

Заключение раздела

Вот краткое изложение того, что вы узнали о деревьях решений и случайных лесах из этой статьи:

  • Пример проблемы, которую можно предсказать с помощью деревьев решений
  • Элементы дерева решений: nodes, edges, roots, иleaves
  • Как случайные выборки признаков дерева решений позволяют нам построить случайный лес
  • Почему использование случайных лесов для декорреляции переменных может быть полезно для уменьшения дисперсии вашей окончательной модели

Машины опорных векторов

Машины опорных векторов - это алгоритмы классификации (хотя, с технической точки зрения, они также могут использоваться для решения задач регрессии), которые делят набор данных на категории на основе сечения самого широкого разрыва между категориями. Эта концепция будет прояснена через визуализацию чуть позже.

Что такое машины опорных векторов?

Вспомогательные векторные машины - или сокращенно SVM - представляют собой контролируемые модели машинного обучения с соответствующими алгоритмами обучения, которые анализируют данные и распознают шаблоны.

Машины опорных векторов могут использоваться как для задач классификации, так и для задач регрессии. В этой статье мы специально рассмотрим использование опорных векторных машин для решения задач классификации.

Как работают машины опорных векторов?

Давайте рассмотрим, как на самом деле работают машины поддержки векторов.

По заданному набору обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, алгоритм машинного обучения опорных векторов строит модель. Эта модель относит новые примеры к одной из двух категорий. Это делает машину опорных векторов не вероятностным двоичным линейным классификатором.

SVM использует геометрию для категориальных прогнозов.

Более конкретно, модель SVM отображает точки данных как точки в пространстве и разделяет отдельные категории таким образом, чтобы они были разделены как можно более широким открытым промежутком. Предполагается, что новые точки данных будут принадлежать к категории в зависимости от того, к какой стороне разрыва они принадлежат.

Вот пример визуализации, который может помочь вам понять интуицию, лежащую в основе опорных векторных машин:

Как видите, если новая точка данных попадает в левую часть зеленой линии, она будет помечена красной категорией. Точно так же, если новая точка данных попадает в правую часть зеленой линии, она будет помечена как принадлежащая к синей категории.

Эта зеленая линия называется гиперплоскостью , которая является важной частью словаря для алгоритмов поддержки векторных машин.

Давайте посмотрим на другое визуальное представление машины опорных векторов:

На этой диаграмме гиперплоскость обозначена как оптимальная гиперплоскость . Теория опорных векторных машин определяет оптимальную гиперплоскость как ту, которая максимизирует разницу между ближайшими точками данных из каждой категории.

Как видите, линия поля фактически касается трех точек данных - двух из красной категории и одной из синей категории. Эти точки данных, которые касаются граничных линий, называются опорными векторами, и именно от них машины опорных векторов получили свое название.

Заключение раздела

Вот краткое изложение того, что вы только что узнали о машинах опорных векторов:

  • Эти опорные векторные машины являются примером алгоритма машинного обучения с учителем.
  • Эти вспомогательные векторные машины можно использовать для решения задач классификации и регрессии.
  • Как вспомогательные векторные машины классифицируют точки данных с помощью гиперплоскости, которая максимизирует границы между категориями в наборе данных
  • То, что точки данных, которые касаются линий полей в машине опорных векторов, называются опорными векторами . Именно от этих точек данных машины опорных векторов получили свое название.

Кластеризация K-средних

Кластеризация K-средних - это алгоритм машинного обучения, который позволяет идентифицировать сегменты схожих данных в наборе данных.

Что такое кластеризация K-средних?

Кластеризация K-средних - это алгоритм машинного обучения без учителя.

Это означает, что он принимает немаркированные данные и будет пытаться сгруппировать похожие кластеры наблюдений вместе в ваших данных.

Алгоритмы кластеризации K-средних очень полезны для решения реальных проблем. Вот несколько примеров использования этой модели машинного обучения:

  • Сегментация клиентов для маркетинговых команд
  • Классификация документов
  • Оптимизация маршрута доставки для таких компаний, как Amazon, UPS или FedEx
  • Выявление криминальных центров в городе и реагирование на них
  • Профессиональная спортивная аналитика
  • Прогнозирование и предотвращение киберпреступности

Основная цель алгоритма кластеризации K означает разделение набора данных на отдельные группы таким образом, чтобы наблюдения в каждой группе были похожи друг на друга.

Вот наглядное представление того, как это выглядит на практике:

Визуализация алгоритма кластеризации K-средних

Мы исследуем математику, лежащую в основе кластеризации K-средних, в следующем разделе этого руководства.

Как работают алгоритмы кластеризации K-средних?

Первым шагом в запуске алгоритма кластеризации K-средних является выбор количества кластеров, на которые вы хотите разделить данные. Это количество кластеров является Kзначением, на которое ссылается имя алгоритма.

Выбор Kзначения в алгоритме кластеризации K-средних является важным выбором. Подробнее о том, как выбрать подходящее значение, мы поговорим Kпозже в этой статье.

Затем вы должны случайным образом назначить каждую точку в вашем наборе данных случайному кластеру. Это дает наше начальное назначение, на котором вы затем выполняете следующую итерацию, пока кластеры не перестанут меняться:

  • Вычислить центроид каждого кластера, взяв средний вектор точек в этом кластере.
  • Переназначьте каждую точку данных кластеру с ближайшим центроидом

Вот анимация того, как это работает на практике для алгоритма кластеризации K-средних со Kзначением 3. Вы можете увидеть центр тяжести каждого кластера, представленный черным +символом.

Визуализация алгоритма кластеризации K-средних

Как видите, эта итерация продолжается до тех пор, пока кластеры не перестанут меняться, то есть точки данных больше не будут назначаться новым кластерам.

Выбор подходящего значения K для алгоритмов кластеризации K средств

Выбор подходящего Kзначения для алгоритма кластеризации K-средних на самом деле довольно сложно. Не существует «правильного» ответа для выбора «наилучшего» Kзначения.

Один из методов, который часто используют практики машинного обучения, называется методом локтя .

Чтобы использовать метод локтя, первое, что вам нужно сделать, это вычислить сумму квадратов ошибок (SSE) для алгоритма кластеризации K-средних для группы Kзначений. SSE в K означает, что алгоритм кластеризации определяется как сумма квадрата расстояния между каждой точкой данных в кластере и центроидом этого кластера.

В качестве примера этого шага, вы можете вычислить SSE для Kзначений 2, 4, 6, 8, и 10.

Затем вы захотите создать график SSE в зависимости от этих различных Kзначений. Вы увидите, что ошибка уменьшается с Kувеличением значения.

В этом есть смысл - чем больше категорий вы создаете в наборе данных, тем более вероятно, что каждая точка данных находится близко к центру своего конкретного кластера.

С учетом сказанного, идея метода локтя состоит в том, чтобы выбрать значение, Kпри котором SSE резко замедляет скорость своего падения. Это резкое уменьшение приводит elbowк значению на графике.

В качестве примера приведем график зависимости SSE от K. В этом случае метод локтя предлагает использовать Kзначение приблизительно 6.

Визуализация алгоритма кластеризации K-средних

Важно отметить, что 6это всего лишь оценка хорошей стоимости Kиспользования. В Kалгоритме кластеризации K-средних никогда не бывает «наилучшего» значения. Как и многое другое в области машинного обучения, это решение в значительной степени зависит от ситуации.

Заключение раздела

Вот краткое изложение того, что вы узнали из этой статьи:

  • Примеры задач машинного обучения без учителя, которые алгоритм кластеризации K-средних может решить
  • Основные принципы алгоритма кластеризации K-средних
  • Как работает алгоритм кластеризации K-средних
  • Как использовать метод локтя для выбора подходящего значения Kв модели кластеризации K-средних

Анализ главных компонентов

Анализ главных компонентов используется для преобразования набора данных с множеством функций в набор преобразованных данных с меньшим количеством функций, где каждая новая функция представляет собой линейную комбинацию ранее существовавших функций. Этот преобразованный набор данных призван объяснить большую часть расхождений исходного набора данных с гораздо большей простотой.

Что такое анализ главных компонентов?

Анализ главных компонентов - это метод машинного обучения, который используется для изучения взаимосвязей между наборами переменных.

Иными словами, анализ главных компонентов изучает наборы переменных, чтобы определить основную структуру этих переменных.

Анализ главных компонентов иногда называют факторным анализом .

Основываясь на этом описании, вы можете подумать, что анализ главных компонентов очень похож на линейную регрессию.

Это не относится к делу. На самом деле, у этих двух методов есть несколько важных различий.

Различия между линейной регрессией и анализом главных компонентов

Линейная регрессия определяет линию наилучшего соответствия по набору данных. Анализ главных компонентов определяет несколько ортогональных линий, наиболее подходящих для набора данных.

Если вы не знакомы с термином « ортогональные» , это просто означает, что линии расположены под прямым углом (90 градусов) друг к другу - как север, восток, юг и запад на карте.

Давайте рассмотрим пример, который поможет вам лучше это понять.

Анализ главных компонентов

Взгляните на метки осей на этом изображении.

На этом изображении главный компонент оси x представляет собой 73% дисперсии в наборе данных. Главный компонент оси ординат объясняет около 23% дисперсии в наборе данных.

Это означает, что 4% дисперсии в наборе данных остаются необъясненными. Вы можете еще больше уменьшить это число, добавив в анализ больше основных компонентов.

Заключение раздела

Вот краткое изложение того, что вы узнали об анализе основных компонентов в этом руководстве:

  • Этот анализ главных компонентов пытается найти ортогональные факторы, которые определяют изменчивость в наборе данных.
  • Различия между анализом главных компонентов и линейной регрессией
  • Как выглядят ортогональные главные компоненты при визуализации внутри набора данных
  • Добавление большего количества основных компонентов может помочь вам объяснить большую разницу в наборе данных.