Выбрать главу

Обучение с учителем: логистическая регрессия

Обучение с учителем: логистическая регрессия

Статистические методы анализа больших данных применяются практически во всех отраслях экономики и сферах жизнедеятельности человека. Одни статистические методы являются универсальными, другие специализированными и подходящими для конкретной прикладной или научной задачи.

Что такое статистика?

Статистика – это отрасль знания, особая научная дисциплина, которая в широком понимании разрабатывает методы сбора, систематизации, анализа, интерпретации и отображения результатов наблюдений массовых случайных явлений и процессов с целью выявления существующих в них закономерностей.

Весь процесс анализа статистических данных можно разделить на аналитический и описательный этапы.

Аналитический этап — это анализ, заключающийся в использовании одного из следующих методов:

Статистического наблюдения – систематического сбора данных и информации по интересующим характеристикам.Сводка данных - обработка информации после наблюдения. Сводка данных описывает отдельные факты, как часть общей совокупности или делит информацию по группам на основании каких-либо определенных признаков.Определении абсолютной и относительной статистической величины. Абсолютная величина придает данным количественные характеристики в индивидуальном порядке, в независимости от других данных. Относительные величины описывают одни объекты или признаки относительно других.Вариационные ряды. Ряды распределения – это ряды абсолютных и относительных чисел, которые характеризуют распределение единиц совокупности по качественному (атрибутивному) или количественному признаку. Ряды распределения, построенные по количественному признаку, называются вариационными.Выборка – использование при анализе информации не всего объема данных, а только их части, которая отбирается по определенным правилам (выборка может быть случайной, стратифицированной, кластерной и квотной).Корреляционный анализ. Корреляция – статистическая взаимосвязь двух или более случайных величин. Корреляционный анализ – метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Таким образом, он определяет существует ли связь между явлениями и насколько сильная связь между этими явлениями.Регрессионный анализ. Регрессия – зависимость среднего значения какой-либо случайной величины от некоторой другой величины или величин. Регрессионный анализ – раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по данным статистических наблюдений. Таким образом, он определяет характер связи между явлениями, а также построение и исследование регрессионной модели.Динамические ряды. Они отслеживают силу, интенсивность и частоту изменений объектов и явлений, позволяют оценить данные во времени и дают возможность прогнозирования будущих явлений.

Заключительным этапом анализа статистических данных является описательный, который включает представление собранных данных в удобном графическом виде, например в виде диаграммы или графика.

В этой главе мы рассмотрим в качестве одного из наглядных примеров наиболее известный статистический метод, применяемый в машинном обучении, который называется «логистическая регрессия».

полную версию книги
~ 1 ~