2.1.1 Методы многомерной классификации данных.: Последнюю задачу можно отнести к задачам классификации первого типа

Содержание
  1. Назначеные и классификация многомерных методов
  2. 2.2. Задача классификации и регрессии
  3.  
  4. 1. Базовые сведения
  5. 1.2. Обучение: с учителем и без
  6. 1.3. Типы классов
  7. 1.4. Проверка гипотез
  8. 1.5. Ошибки при классификации
  9. Особенности задач многомерной классификации
  10. Вероятностная интерпретация классических моделей машинного обучения
  11. Классические задачи машинного обучения
  12. Классификация
  13. Вероятностная постановка задачи классификации
  14. Классификация двух нормальных распределений
  15. Метод максимизации правдоподобия
  16. Классификация двух нормальных распределений логистической регрессией
  17. Регрессия
  18. Регрессия линейно зависимых величин с нормальным шумом
  19. Решение задачи регрессии методом максимального правдоподобия
  20. Регрессия величины линейной регрессией
  21. Другие задачи
  22. Генеративные модели
  23. Благодарности
  24. Задачи Data Mining. Классификация и кластеризация

Назначеные и классификация многомерных методов

2.1.1 Методы многомерной классификации данных.:  Последнюю задачу можно отнести к задачам классификации первого типа

Многомерность свойственна психологическим данным по природе, поскольку они чаще всего состоят по крайней мере из нескольких наблюдений за поведением одного человека или группы лиц.

Многомерные методы и были созданы для совместной обработки таких данных, например для их исследований с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных.

В своих лучших образцах многомерный анализ представляет собойобобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соответствующий одномерный метод.

Так, есть статистики, базирующиеся на многомерном распределении случайных величин, которые можно свести к таким хорошо известным одномерным статистикам, как F-квадрат или t-критерий.

Многомерный анализ включает широкий спектр математических статистических методов и, вообще говоря, не существует общепринятого определения границ этой области.

По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед.

Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, например логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте — классе, обычно относится к особой области, называемых анализом временных рядов.

Мно­гомерные методы выполняют такие интеллектуальные функции, как:

1 струк­турирование эмпирической информации (факторный анализ, кластерный анализ, многомерное шкалирование),

2 классификация (кластерный анализ),

3 экстраполяция (множественный регрессионный ана­лиз),

4 распознавание образов (дискриминантный анализ) и т. д.

Список многомерных методов, которые будут упомянуты ниже, не претендует на полноту и состоит из методов, наиболее часто применяемых в психологии.

Эти методы можно классифицировать по трем основаниям: по назначению; по способу сопоставления данных – по сходству (различию) или пропорциональности (корреляции); по виду исходных эмпирических данных.

Классификация методов по назначению:

1.Методы предсказания (экстраполяции): множественный регрессионный анализ. Пред­сказывает значения метрической «зависимой» переменной по множеству из­вестных значений «независимых» переменных, измеренных у множества объектов (испытуемых).

2. Методы классификации: варианты кластерного анализа и дискриминан­тный анализ.

Кластерный анализ («классификация без обучения») по изме­ренным характеристикам у множества объектов (испытуемых) либо по дан­ным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых содержатся объекты, более похожие друг на друга, чем на объекты из других групп.

Дискриминантный анализ («класси­фикация с обучением», «распознавание образов») позволяет классифициро­вать объекты по известным классам, исходя из измеренных у них признаков, пользуясь решающими правилами, выработанными предварительно на вы­борке идентичных объектов, у которых были измерены те же признаки.

3. Структурные методы: факторный анализ и многомерное шкалирование. Факторный анализ направлен на выявление структуры переменных как совокупности факторов, каждый из которых – это скрытая, обобщающая при­чина взаимосвязи группы переменных. Многомерное шкалирование выяв­ляет шкалы как критерии, по которым поляризуются объекты при их субъек­тивном попарном сравнении.

Классификацияметодов по исходным предположениям оструктуре данных:

1. Методы, исходящие из предположения о согласованной изменчивости признаков, измеренных у множества объектов. На корреляционной модели основаны факторный анализ, множественный регрессионный анализ, отчас­ти – дискриминантный анализ.

2. Методы, исходящие из предположения о том, что различия между объек­тами можно описать как расстояние между ними.

На дистантной модели основаны кластерный анализ и многомерное шкалирование, частично – дис­криминантный анализ.

Многомерное шкалирование и дискриминантный ана­лиз добавляют предположение о том, что исходные различия между объекта­ми можно представить как расстояния между ними в пространстве небольшого числа шкал (функций).

Классификация методов по виду исходных данных:

1. Методы, использующие в качестве исходных данных только признаки, измеренные у группы объектов. Это множественный регрессионный анализ. дискриминантный анализ и факторный анализ.

2. Методы, исходными данными для которых могут быть попарные сход­ства (различия) между объектами: это кластерный анализ и многомерное шкалирование. Многомерное шкалирование, кроме того, может анализиро­вать данные о попарном сходстве между совокупностью объектов, оценен­ном группой экспертов.

При этом совместно анализируются как различия между объектами, так и индивидуальные различия между экспертами.Представленные классификации свидетельствуют о необходимости зна­ния возможностей и ограничений многомерных методов уже на стадии общего замысла исследования.

Например, ориентируясь только на фактор­но-аналитическую модель, исследователь ограничен в выборе процедуры ди­агностики: она должна состоять в измерении признаков у множества объек­тов. При этом исследователь ограничен и в направлении поиска: он изучает либо взаимосвязи между признаками, либо межгрупповые различия по изме­ряемым признакам.

Общая осведомленность о других многомерных методах позволит исследователю использовать более широкий круг психодиагности­ческих процедур, решать более широкий спектр не только научных, но и прак­тических задач.Применение многомерных методов требует соответствующего программного обеспечения.

Широко известны и распространены универсальные статистические программы STATIST1CA, SPSS, STATGRAPH, STADIA, содержащие практически весь спектр статистических методов – от простейших до самых современных. Стоит обратить внимание на пакет STADIA, поскольку он – отечественный, а потому сравнительно дешевый.

21. Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Таким образом, можно выделить 2 цели Факторного анализа-определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация»;сокращение числа переменных необходимых для описания данных.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонентов внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов.

Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей.

Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором.

Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК).

Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа.

Факторный анализ может быть:

-разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;

-конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках.

Условия применения факторного анализа:

-Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

-Все признаки должны быть количественными.

-Число наблюдений должно быть в два раза больше числа переменных.

-Выборка должна быть однородна.

-Исходные переменные должны быть распределены симметрично.

-Факторный анализ осуществляется по коррелирующим переменным.

Основные понятия факторного анализа

-Фактор — скрытая переменная

-Нагрузка — корреляция между исходной переменной и фактором

ДИСКРИМИНАНТНЫЙ АНАЛИЗ.

Дискримина́нтный ана́лиз — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы)

АНАЛИЗ ДИСКРИМИНАНТНЫЙ — группа методов многомерной статистики, предназначенных для 1) описания различий между классами и 2) классификации объектов, не входивших в первоначальную выборку обучающую (см.). Переменные (см.), используемые в А.Д., называются дискриминантными.

Для решения первой задачи строится пространство канонических дискриминантных функций, которые позволяют с максимальной эффективностью «разделить» классы. Для того чтобы разделить k классов, требуется не более (k — 1) канонических дискриминантных функций (например, для разделения двух классов достаточно одной функции, для разделения трех классов — двух функций и т.д.).

Канонические дискриминантные функции можно рассматривать как аналог регрессии, построенной для целей классификации; дискриминантные (исходные) переменные являются в них переменными независимыми (см.).

Для измерения абсолютного и относительного вклада дискриминантных переменных в разделение классов используются нестандартизированные и стандартизированные коэффициенты канонических функций.

В пространстве канонических дискриминантных функций можно также решать задачу классификации объектов, не принадлежавших к первоначальной выборке.

Для этого вычисляются расстояния от каждого «нового» объекта до геометрического «центра» каждого класса. Могут учитываться априорные вероятности принадлежности к классам, а также цена ошибок классификации.

Альтернативным подходом к классификации объектов является вычисление классифицирующих функций Фишера — по одной для каждого класса. Эти функции также можно рассматривать как аналог регрессионных уравнений с «независимыми» дискриминантными переменными. Объект относится к тому классу, для которого вычисленное значение классифицирующей функции является максимальным.

>Первоначальная выборка, для каждого объекта из которой априорно известна классовая принадлежность и на основе которой строятся как классифицирующие, так и канонические дискриминантные функции, называется обучающей.

По ней же оценивается эффективность решающих процедур.

Для этого строится специальная классификационная матрица, которая показывает, к какому классу объект принадлежал априорно и в какой класс был классифицирован с помощью канонических дискриминантных или классифицирующих функций.

Метод А.Д. предъявляет к данным довольно строгие требования. В модели должно быть не менее двух классов, в каждом классе — не менее двух объектов из обучающей выборки, число дискриминантных переменных не должно превосходить объем обучающей выборки за вычетом двух объектов.

Дискриминантные переменные должны быть количественными и линейно независимыми (не должны коррелировать друг с другом). Выполнение этих требований проконтролировать достаточно легко.

Для каждого класса требуется также приблизительное равенство матриц ковариации и многомерная нормальность распределения.

Нарушение последнего требования может привести к ошибкам классификации в «пограничных» зонах, где вероятности принадлежности объекта к двум или нескольким классам приблизительно равны.

23.Многомерное шкалирование начало свое интенсивное развитие в 60-х годах в работах американских ученых Торгерсона (Torgerson) [9], Шепарда (Shepard) [8], Краскэла (Kruskal) [6].

Круг советских специалистов, занимающихся этой проблемой, достаточно узок, и основные их усилия направлены на разработку формализованных методов и вычислительных процедур, реализующих известные модели на ЭВМ.

К настоящему времени методы многомерного шкалирования, к сожалению, не получили широкого применения в психометрических исследованиях в нашей стране. Видимо, причинами тому являются малочисленность группы специалистов и отсутствие хороших пакетов программ.

Задача многомерного шкалирования и пути ее решения:

Задача многомерного шкалирования в самом общем виде состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов.

Процедура построения структуры опирается на анализ объективной или субъективной информации о близостях между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи.

С одной стороны, выявляется объективная структура субъективных данных, с другой — определяются факторы, влияющие на процесс принятия решения.

Методы многомерного шкалирования могут использовать разные типы данных: данные о предпочтениях субъекта на множестве стимулов, данные о доминировании, о близостях между стимулами, данные о профилях и т. п. Как правило, с каждым типом данных принято соотносить определенную группу методов их обработки.

Однако такое соотнесение не должно быть слишком жестким, поскольку часто не представляет особого труда перейти от одного типа данных к другому. Так, например, данные о профилях можно легко преобразовать в данные о близостях, для этого необходимо только воспользоваться подходящей метрикой.

Данные о предпочтениях содержат в себе информацию о доминировании. С другой стороны, подсчитав корреляции между столбцами матрицы предпочтений, получим матрицу близостей между стимулами, а корреляции между строками той же матрицы дадут нам матрицу близостей между субъектами.

В настоящей работе будет обсуждаться только анализ близостей.

В основе многомерного шкалирования лежит идея геометрического представления стимульного множества. Предположим, что нам задано координатное пространство, каждая ось которого соответствует одному из искомых факторов.

Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул.

Мера сходства между двумя стимулами обратна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства.

Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения.

Обычно используется метрика Минковского:

где r — размерность пространства, djk — расстояние между точками, соответствующими j-му и k-му стимулам, Xjt, Xkt — величины проекций j-й и k-й точек на t-ю ось. Наиболее распространенными ее случаями являются: евклидова метрика (р=2):

и метрика «city-block» (р=1)

В некоторых случаях пользуются метрикой доминирования (р стремится к бесконечности):

Использование равномерных метрик предполагает, что при оценке сходств (различий) субъект в одинаковой мере учитывает все факторы.

Когда же имеется основание утверждать, что факторы неравноценны для индивида и он учитывает их в разной степени, прибегают к взвешенной метрике, где каждому фактору приписывается определенный вес.

Разные индивиды могут принимать во внимание разные факторы. Тогда каждый индивид характеризуется своим собственным набором весов Wti. Взвешенная метрика Минковского имеет вид:

Такая модель называется «индивидуальным шкалированием» или «моделью взвешенных факторов» [2, 12, 13]. Геометрически она интерпретируется следующим образом.

Пусть в координатном пространстве имеется конфигурация точек, отражающая восприятие некоторого «среднего индивида» в группе.

Для того чтобы получить пространство восприятия i-го субъекта, необходимо растянуть «среднюю конфигурацию» в направлении тех осей, для которых Wti > Wtср, и сжать в направлении осей, для которых Wti < Wtср.

Например, если в пространстве двух факторов для «среднего индивида» все стимулы лежат на окружности, то для индивида, характеризующегося весами W1i=2, W2i=1, эти стимулы будут располагаться на эллипсе, вытянутом вдоль горизонтальной оси, а для индивида, характеризующегося весами W2i=2, W1i=1, на эллипсе, вытянутом вдоль вертикальной оси.

Схема многомерного шкалирования включает ряд последовательных этапов. На первом этапе необходимо получить экспериментальным способом субъективные оценки различий.

Процедура опроса и вид оценок должны выбираться исследователем в зависимости от конкретной ситуации.

В результате такого опроса должна быть сконструирована субъективная матрица попарных различий между стимулами, которая будет служить входной информацией для следующего этапа.

На втором этапе решается задача построения координатного пространства и размещения в нем точек-стимулов таким образом, чтобы расстояния между ними, определяемые по введенной метрике, наилучшим образом соответствовали исходным различиям между стимулами.

Для решения этой формальной задачи не требуется никаких сведений о самих стимулах, достаточно располагать только матрицей попарных различий между ними.

Для построения искомого координатного пространства используется достаточно разработанный аппарат линейной или нелинейной оптимизации.

Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождення между исходными различиями Djk и результирующими расстояниями djk. Ищется такая конфигурация точек, которая давала бы минимальное значение этому «стрессу». Значения координат этих точек и являются решением задачи.

Используя эти координаты, мы строим геометрическое представление стимулов в пространстве невысокого числа измерений. Оно должно быть в достаточной степени адекватно исходным данным.

Стимулы, которым в исходной матрице соответствуют большие меры различий, должны находиться далеко друг от друга, а стимулы, которым соответствуют малые меры различий, — близко. Формальным критерием адекватности может служить коэффициент корреляции, он должен быть достаточно высоким.

Средство повышения точности формального решения состоит в увеличении числа измерений, т. е. размерности пространства r. Чем выше размерность пространства, тем больше возможностей получить более точное решение.

На третьем этапе решается содержательная задача интерпретации формального результата, полученного на предыдущей стадии. Координатные оси построенного стимульного пространства должны получить смысловое содержание, они должны быть проинтерпретированы как факторы, определяющие расхождения между стимулами.

Эта работа является достаточно сложной и может быть выполнена только специалистом, хорошо знакомым с исследуемым материалом. Если на предыдущем этапе достаточно было только информации о попарных различиях между стимулами, то для содержательной интерпретации необходимо тщательное изучение их характеристик.



Источник: https://infopedia.su/7x69ff.html

2.2. Задача классификации и регрессии

2.1.1 Методы многомерной классификации данных.:  Последнюю задачу можно отнести к задачам классификации первого типа

Прианализе часто требуется определить, ккакому из известных классов относятсяисследуемые объекты, т. е. классифицироватьих. Например, когда человек обращаетсяв банк за предоставлением ему кредита,банковский служащийдолжен принять решение: кредитоспособенли потенциальный клиент илинет.

Очевидно, что такое решениепринимается на основании данных обисследуемомобъекте (в данном случае — человеке): егоместе работы, размере заработной платы,возрасте, составе семьи и т. п.

В результатеанализа этой информации банковскийслужащий должен отнести человека кодному издвух известных классов «кредитоспособен»и «некредитоспособен».

Другимпримером задачи классификации являетсяфильтрация электронной почты.В этом случае программа фильтрациидолжна классифицировать входящеесообщение как спам (нежелательнаяэлектронная почта) или как письмо.

Данное решение принимается на основаниичастоты появления в сообщенииопределенных слов (например, имениполучателя, безличного обращения, слови словосочетаний: «приобрести»,»заработать», «выгодное предложение»и т. п.

).

В общем случаеколичество классов в задачах классификацииможет быть более двух. Например, в задачераспознавания образа цифр таких классовможет быть 10 (по количеству цифр вдесятичной системе счисления). В такойзадаче объектом классификации являетсяматрица пикселов, представляющая образраспознаваемой цифры. При этом цветкаждого пиксела являетсяхарактеристикой анализируемого объекта.

ВDataMiningзадачу классификации рассматриваюткак задачу определения значения одногоиз параметров анализируемого объектана основании значений других параметров.Определяемый параметр часто называютзависимой переменной, а параметры,участвующие в его определении -независимыми переменными.В рассмотренных примерах независимымипеременными являлись:

  • зарплата, возраст, количество детей и т. д.;
  • частота определенных слов;
  • значения цвета пикселов матрицы.

Зависимымипеременными в этих же примерах являлись:

  • кредитоспособность клиента (возможные значения этой переменной «да» и «нет»);
  • тип сообщения (возможные значения этой переменной «spam» и «mail»);
  • цифра образа (возможные значения этой переменной 0, 1, …, 9).

Необходимообратить внимание, что во всех рассмотренныхпримерах независимая переменнаяпринимала значение из конечного множествазначений: {да, нет}, {spam,mail},{0, 1, …, 9}.

Если значениями независимыхи зависимой переменных являютсядействительные числа, то задача называетсязадачейрегрессии.

Примеромзадачи регрессии может служить задачаопределениясуммы кредита, которая может быть выданабанком клиенту.

Задачаклассификации и регрессии решается вдва этапа. На первом выделяется обучающаявыборка. В нее входят объекты, для которыхизвестны значения как независимых, таки зависимых переменных. В описанныхранее примерахтакими обучающими выборками могут быть:

  • информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;
  • сообщения, классифицированные вручную как спам, или как письмо;
  • распознанные ранее матрицы образов цифр.

Наосновании обучающей выборки строитсямодель определения значения зависимойпеременной. Ее часто называют функциейклассификации или регрессии.Для получения максимально точной функциик обучающей выборке предъявляютсяследующие основные требования:

    • количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;
    • в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;
    • для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.

На втором этапепостроенную модель применяют канализируемым объектам (к объектам снеопределенным значением зависимойпеременной).

Задачаклассификации и регрессии имеетгеометрическую интерпретацию. Рассмотримее на примере с двумя независимымипеременными, что позволитпредставить ее в двумерном пространстве.Каждому объекту ставится в соответствиеточка на плоскости.

Символы «+» и»-» обозначают принадлежностьобъекта к одному из двух классов.Очевидно, что данные имеют четковыраженную структуру: все точки класса»+» сосредоточены в центральнойобласти. Построение классификационнойфункции сводится кпостроению поверхности, которая обводитцентральную область.

Она определяетсякак функция, имеющая значения «+»внутри обведенной области и «-» -вне.

Основныепроблемы, с которыми сталкиваются прирешении задач классификациии регрессии, — это неудовлетворительноекачество исходных данных, вкоторых встречаются как ошибочныеданные, так и пропущенные значения,различные типы атрибутов — числовые икатегорические, разная значимостьатрибутов, а также так называемыепроблемы overfittingи underfitting.Суть первойиз них заключается в том, чтоклассификационная функция при построении»слишком хорошо» адаптируется кданным, и встречающиеся в них ошибки ианомальные значения пытаетсяинтерпретировать как часть внутреннейструктуры данных. Очевидно, что такаямодель будет некорректно работатьв дальнейшем с другими данными, гдехарактер ошибок будет несколько иной.Термином underfittingобозначают ситуацию, когда слишкомвеликоколичество ошибок при проверкеклассификатора на обучающем множестве.Это означает, что особых закономерностейв данных не было обнаруженои либо их нет вообще, либо необходимовыбрать иной метод их обнаружения.

Источник: https://studfile.net/preview/6172591/page:7/

© 2011 Алексей Померанцев 

Российское хемометрическое общество

 

Введение1. Базовые сведения1.1. Постановка задачи 1.2. Обучение: с учителем и без1.3. Типы классов1.4.

Проверка гипотез

1.5. Ошибки при классификации1.6. Одноклассовая классификация1.7. Обучение и проверка1.

8

. Проклятие размерности1.

9

. Подготовка данных2. Данные2.1. Пример2.2. Данные 2.3. Рабочая книга Iris.xls 2.4. Анализ данных методом главных компонент3. Классификация «с учителем»3.1. Линейный дискриминатный анализ (

LDA)

3.2. Квадратичный дискриминатный анализ (

QDA

)3.3. PLS дискриминация (

PLSDA

)3.

4

.

SIMCA

3.

5

.

K-ближайших соседей (KNN)

4.Классификация без учителя 4.1. Опять PCA4.2. Кластеризация с помощью k-средних

(kMeans)

Заключение  

В этом документе рассмотрены наиболее популярные методы классификации, применяемые в хемометрике. Текст ориентирован, прежде всего, на специалистов в области анализа экспериментальных данных: химиков, физиков, биологов, и т.д. Он может служить пособием для исследователей, начинающих изучение этого вопроса. Продолжить исследования  можно с помощью указанной литературы. 

В пособии интенсивно используются понятия и методы, описанные в других материалах по хемометрике: статистика, матрицы и векторы, метод главных компонент.

Читателям, которые плохо знакомы с этим аппаратом, рекомендуется изучить, или, хотя бы просмотреть, эти материалы. Кроме того, здесь интенсивно используется специальная надстройка (Add-In) к программе Excel, которая называется Chemometrics.xla.

Подробности об этой программе можно прочитать в пособии Проекционные методы в системе Excel.

Изложение иллюстрируется примерами, выполненными в рабочей книге Excel Irix.xls, которая сопровождает этот документ. Предполагается, что читатель имеет базовые навыки работы в среде Excel, умеет проводить простейшие матричные вычисления с использованием функций листа, таких как  МУМНОЖ, ТЕНДЕНЦИЯ и т.п.

В отличие от других пособий из серии, здесь не удается один раз провести проекционные вычисления, а затем использовать их в разных методах. Поэтому некоторые листы книги Iris.xls не будут работать без использования Chemometrics Add-In.

Важная информация о работе с файлом Iris.xls 

Ссылки на примеры помещены в текст как объекты Excel.

Другие пособия по хемометрике

1. Базовые сведения

Классификацией называется процедура, в которой объекты распределяются по группам (классам) в соответствии с численными значениями их переменных, характеризующими свойства этих объектов.

Исходными данными для классификации является матрица X, в которой каждая строка представляет один объект, а каждый столбец – одну из переменных. Эта матрица называется исходным набором данных.

Число объектов (строк в матрице X) мы будем обозначать буквой I, а число переменных (строк в матрице X) – буквой J. Число классов мы будем обозначать буквой K.

Классификацией называют не только саму процедуру распределения, но и ее результат. Употребляется также термин распознавание образов (pattern recognition) , который можно считать синонимом. В математической статистике классификацию часто называют дискриминацией.

Метод (алгоритм), которым проводят классификацию, называют классификатором. Классификатор переводит  вектор признаков объекта x в целое число, 1, 2, … , соответствующее номеру класса, в который он помещает этот объект.

1.2. Обучение: с учителем и без

Если для всех объектов исходного набора известно, к какому классу они принадлежат, то такая постановка задачи называется классификацией с учителем (или с обучением). Обучение без учителя происходит тогда, когда принадлежность объектов в исходном наборе нам заранее не известна.

.

1.3. Типы классов

Классификация может делаться для разного числа классов.

Классификация с одним классом проводится в том случае, когда нам нужно установить принадлежность объектов к единственной выделенной группе. Например, отделить яблоки от всех остальных фруктов в корзине.

Двухклассная классификация – это наиболее простой, базовый случай, который чаще всего называют дискриминацией. Например, разделить яблоки и груши, при условии, что никаких других фруктов в корзине нет. 

Многоклассовая классификация часто сводится к последовательности: либо одноклассных (SIMCA), либо двухклассных (LDA) задач и является наиболее сложным случаем.

В большинстве случаев классы изолированы и не пересекаются. Тогда каждый объект принадлежит только к одному классу. Однако могут быть задачи и с пересекающимися классами, когда объект может относиться одновременно к нескольким классам.

.

1.4. Проверка гипотез

В математической статистике рассматривается задача проверки гипотез, которая, по сути, очень близка к классификации. Поясним это на простом примере.

Пусть имеется смесь слив и яблок, которую надо автоматически разделить. Очевидно, что в среднем сливы меньше яблок, поэтому задачу можно легко решить, используя подходящее сито.

Анализ размеров объектов показал, что они хорошо описываются нормальными распределениями со следующими параметрами. Сливы: среднее 3, дисперсия 1.4. Яблоки: среднее 8, дисперсия 2.1.

Таким образом, разумно будет выбрать сито диаметром 5. .

Рис. 1 Распределение объектов по размерам 

С точки зрения математической статистики в этой задаче мы проверяем гипотезу о том, что среднее нормального распределения равно 3 (слива), против альтернативы 8 (яблоко).  Проверка происходит по одному единственному наблюдению x. Критическое значение равно 5: если x5, то принимается альтернатива (объект – яблоко).

.

1.5. Ошибки при классификации

Очевидно, что в рассмотренном выше примере классификация не является идеальной – мелкие яблоки попадут в класс слив, а крупные сливы останутся вместе с яблоками. Используя распределения объектов по размерам, можно рассчитать вероятности этих событий.

Источник: https://www.chemometrics.ru/old/Tutorials/classification.htm

Особенности задач многомерной классификации

2.1.1 Методы многомерной классификации данных.:  Последнюю задачу можно отнести к задачам классификации первого типа

В современном мире, когда количество информации увеличивается с каждым днем, умение собирать, хранить, а главное, анализировать имеющиеся в распоряжении данные является важной частью жизни любого человека [32].

В своей повседневной деятельности экономист (да и любой исследователь) сталкивается с необходимостью проведения разного рода сравнительных исследований, в основе которых лежит сопоставление данных.

Такие сопоставления встречаются как в статистических и эконометрических исследованиях, так и в экономических исследованиях при анализе рынка (финансового, кредитного, инвестиционного), уровня жизни респондентов, деятельности предприятий и т.п.

Как правило, в таких исследованиях используются модели с небольшим числом переменных (одной или двумя), что несколько упрощает реальность, так как экономические явления и процессы в действительности характеризуются множеством разнообразных признаков, число которых обычно в зависимости от задачи составляет от 10 до 100.

В таких случаях проведение исследований традиционными методами значительно усложняется или становится просто невозможным. Выделение однородных по определенным свойствам групп объектов и их интерпретация являются одной из самых распространенных задач многомерного статистического исследования.

Задача многомерной классификации – не только одна из самых распространенных в практике экономико-статистических исследований, но и одна из самых древних.

Методы классификации получили развитие еще в глубокой древности, когда люди, обращая внимание на звездное небо, пытались сгруппировать звезды в своеобразные кластеры (созвездия) и дать им название в соответствии с образами, которые они им напоминали (Большая Медведица, Малая Медведица, Рыбы, Близнецы, Волк, Ворон и т.д.).

Существенное развитие методов классификации произошло в XVIII в., когда в 1757 г. французским ботаником М. Адансоном была выполнена иерархическая классификация растений и видов животных.

Дальнейшее развитие методы классификации получили в работах Д. И. Менделеева при создании Периодической системы элементов во второй половине XIX в.

Периодическая система, или периодическая классификация, элементов имела огромное значение для развития неорганической химии.

Неоднозначность результатов классификации часто определяется не только сложностью выявляемой структуры, но и ее изначальной неопределенностью, обусловленной наличием у каждого из значительной части объектов характерных черт различных классов.

Рассмотрим основные методы и приемы, используемые для разделения объектов на группы, кластеры.

Одним из простейших методов, не требующих аналитических процедур, является группировка объектов но одному или нескольким признакам.

Задача группировки традиционно решается следующим образом. Из множества признаков, описывающих объект, отбирается наиболее информативный с точки зрения исследователя. Затем производится группировка объектов в соответствии со значениями выделенного признака.

Если исследователю требуется провести классификацию по нескольким признакам, ранжированным между собой по степени важности, то на первом этапе производится классификация по первому признаку, затем каждый из полученных классов разбивается на подклассы но второму признаку и т.д.

Таким образом, при группировке исследователь всегда может разделить элементы совокупности на группы (диапазоны) независимо от того, естественны ли их границы или нет.

В отличие от задач группировки основная задача кластерного анализа заключается в определении по эмпирическим данным, насколько элементы распадаются или группируются на изолированные «скопления», «кластеры».

Или, другими словами, основной задачей кластерного анализа является выявление естественного разбиения объектов на классы, которые свободны от субъективизма исследователя, а целью – выделение групп однородных объектов, таких что объекты одной группы сходны между собой, а объекты разных групп резко отличаются друг от друга.

Задачи классификации по степени определенности границ классов можно разбить на два типа [32]:

  • • разбиение совокупности объектов на классы с четко выраженными границами;
  • • разделение на классы, имеющие размытые границы, что обусловливает принадлежность каждого объекта в общем случае более чем к одному классу.

Дискриминантный анализ, или классификация с обучением, представляет собой многомерный статистический метод, предназначенный для описания различий между классами, заданными плотностями вероятностей или обучающими выборками, а также для классификации новых объектов, не входивших в первоначальную обучающую выборку.

Для описания различий между классами строятся канонические дискриминантные функции, которые позволяют с максимальной эффективностью разделить классы. Отметим, что, для того чтобы выделить р классов, требуется не более (p – 1) канонических дискриминантных функций (КДФ).

КДФ можно рассматривать как аналог регрессии, построенной с целью классификации.

Для классификации объектов, не входящих в первоначальную обучающую выборку, вычисляются расстояния от каждого такого объекта до центра каждого класса (кластера). При этом могут учитываться как априорные вероятности принадлежности объектов к кластерам, так и цена ошибок классификации (неправильное отнесение объекта к кластеру).

Целесообразность, возможность и эффективность применения тех или иных методов классификации зависят от конкретной математической постановки задачи. Здесь необходимо учитывать, какая априорная информация используется для построения модели (априорные сведения о классах или выборочные данные).

Априорно могут быть известны закон распределения, общие свойства закона распределения исследуемого случайного вектора признаков в пространстве (они могут быть получены из теоретических соображений о природе исследуемого объекта).

Получение же априорной выборочной информации, как правило, связано с организацией системы экспертных проведением специального предварительного этапа, посвященного решению задачи простой типологизации в пространстве результирующих показателей.

Таким образом, необходимо различать следующие задачи классификации.

  • 1. Разбиение многомерного диапазона изменения значений анализируемых признаков на области, в результате чего исследуемая совокупность объектов разбивается на некоторое число однородных групп.
  • 2. Определение естественного расслоения исходных наблюдений на четко выраженные сгустки, или кластеры, находящиеся друг от друга на некотором расстоянии.

Если построение областей группирования всегда имеет решение, то при решении второй задачи может оказаться, что множество исходных наблюдений не распадается на кластеры.

Вероятностный подход к классификации основан на предположении о том, что объекты, принадлежащие к одному из выделяемых классов, описываются одинаково распределенными случайными векторами, а для различных классов характерны разные распределения вероятностей.

Этот подход, называемый декомпозицией, рассматривает каждый класс как некоторую параметрически заданную унимодальную совокупность, а наблюдения над объектами, подлежащими классификации, – как выборку из смеси таких совокупностей.

Задача заключается в разделении объектов на кластеры исходя из значений параметров, определяющих совокупность, и предположения о числе классов.

Многие исследователи, такие как Дж. Хартиган, К. Фукунага, М. Вонг, трактуют кластерный анализ широко, включая в него задачу декомпозиции распределений. Как способ представления исходных данных понятие смеси распределений использует польский исследователь Я. В.

Овсиньски при рассмотрении общей постановки задачи кластерного анализа. Подобного взгляда придерживаются М. И. Шлезингер и А. В. Миленький. Е. Е. Жук и К). С.

Харин также указывают на существование в кластерном анализе вероятностного и геометрического подходов, отдавая предпочтение первому [321.

Применимость методов расщепления смесей вероятностных распределений в решении задачи классификации определяется обоснованностью предположений о вероятностной природе исходных данных и корректностью выдвигаемой гипотезы о распределении признаков, описывающих совокупность, тогда как успешное применение геометрических методов классификации зависит только от адекватности выбранной меры близости объектов.

Иерархические агломеративные методы представляют собой группу методов, характеризующихся последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров. Они разделяются на дивизимные и агломеративные.

В начале работы агломеративного алгоритма каждый объект представляет из себя отдельный кластер. На первом шаге в кластер объединяются наиболее похожие (близкие) объекты.

На последующих шагах объединение продолжается до тех пор, пока все объекты не будут объединены в один кластер.

Иерархические алгоритмы используются в задачах классификации небольшого числа объектов, где больший интерес представляет не число кластеров, а анализ структуры множества этих объектов, а также наглядная интерпретация проведенного анализа в виде дендрограммы, которая описывает близость отдельных точек и кластеров друг к другу. Дендрограмма представляет в графическом виде последовательность объединения или разделения кластеров, которая изменяется на различных уровнях иерархии.

Иерархические алгоритмы, использующие понятие порога, эффективны для исходных совокупностей, у которых слабо выражен цепочный эффект и они естественно распадаются на какое-то количество достаточно отдаленных скоплений объектов. Наиболее популярным среди таких алгоритмов является алгоритм типа FOREL (FORmal ELement).

В основе алгоритма FOREL лежит идея объединения в один кластер объектов в областях их наибольшего сгущения. Классы, получаемые с помощью этого алгоритма, имеют форму гиперсферы. Количество классов тем больше, чем меньше радиус сфер.

Процедура алгоритма FOREL является сходящейся за конечное число шагов в евклидовом пространстве любой размерности при произвольном расположении точек и любом выборе гиперсферы.

Если число кластеров заранее задано, то для классификации часто используют параллельные кластерные процедуры – итерационные алгоритмы. Основной целью их использования является сокращение перебора вариантов.

Наиболее распространенным среди неиерархических быстрых методов кластерного анализа является итерационный алгоритм k-средних. Идея метода заключается в разбиении множества объектов на заранее известное число кластеров таким образом, чтобы минимизировать функционал качества – сумму внутриклассовых дисперсий.

Алгоритм k-средних крайне чувствителен к выбору начальных приближений центров. Неудачный выбор может приводить к плохим результатам кластеризации.

Среди наиболее популярных алгоритмов, предполагающих, что каждый кластер – нечеткое множество объектов, можно выделить алгоритм нечетких С-средних [32], близкий к алгоритму k-средних, но предполагающий определение меры принадлежности каждого объекта к каждому из кластеров. Он менее чувствителен к выбору начального приближения центров кластеров.

Одним из наиболее распространенных алгоритмов, основанных на теории графов, является алгоритм кратчайшего незамкнутого пути. При применении алгоритма требуется построить минимальное остовное дерево графа, вершины которого символизируют объекты, а длина ребер определяется расстоянием между ними. С целью образования кластеров из дерева удаляются ребра, имеющие максимальную длину.

Классификация на основе нейронных сетей базируется на моделировании процессов, протекающих в биологических нейронных системах. Основу составляет однослойная сеть, в которой некоторому кластеру соответствует группа нейронов.

Изменение передаточных весов между узлами сети происходит в процессе ее итеративного обучения. Таким путем производится поиск оптимального значения группировочного критерия.

При использовании нейронных сетей эффективно применяются параллельные методы вычислений.

Эволюционные алгоритмы строятся с соответствии с представлением об эволюции в живой природе. В них применяются понятия популяции, хромосомы, по аналогии с соответствующими биологическими процессами осуществляются мутация, рекомбинация, селекция групп объектов.

Комбинация простых алгоритмов, построение коллективных решений активно применяется в современной теории для целей интеллектуального анализа данных и представляет собой группировку на основе ансамбля алгоритмов.

Программная реализация алгоритмов кластерного анализа широко представлена в различных инструментах Data mining, которые позволяют решать задачи достаточно большой размерности.

Процедуры кластерного анализа в настоящее время являются одними из наиболее широко используемых на практике методов классификации.

Процедуры классификации отличаются от других методов многомерной классификации отсутствием априорной информации о распределении генеральной совокупности и обучающих выборок.

Различия между схемами решения задач классификации во многом определяются тем, что понимают под понятиями «сходство» и «степень сходства». На практике обычно используют разбиения, являющиеся наиболее устойчивыми [29].

Свое название кластерный анализ получил от английского слова cluster[1]. Основная цель кластерного анализа – разбиение множества исследуемых объектов или признаков на однородные в определенном смысле группы или кластеры.

Достоинством кластерного анализа является то, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков.

Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает жестких ограничений на вид рассматриваемых объектов.

Кластерами (таксонами[2], образами) называют группы объектов, полученные в результате разбиения, а кластерным анализом – методы их нахождения (соответственно численной таксономией или распознаванием образов с самообучением).

Кластеры представляют собой скопления точек (объектов) различной формы (рис. 6.1). Решение задачи классификации заключается в определении естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.

Проведение кластерного анализа включает следующие этапы.

  • 1. Отбор выборки для классификации.
  • 2. Определение множества переменных, по которым будет проводиться классификация. На этом этапе исследователь должен выяснить, какие из к априори рассматриваемых факторов являются наиболее характерными, определяющими с точки зрения точности разбиения исследуемых объектов на классы. Решение этой задачи позволит перейти от априорного набора к факторов к меньшему числу (к' < к) наиболее информативных признаков и тем самым снизить размерность пространства, избавиться от «шумовых», «засоряющих» признаков, облегчить интерпретацию результатов.
  • 3. Вычисление расстояния (сходства) между объектами.
  • 4. Создание с помощью методов кластерного анализа групп сходных объектов.
  • 5. Проверка достоверности результатов кластерного решения.

Рис. 6.1.Формы кластеров

Для проведения кластерного анализа исходные данные должны быть представлены в виде прямоугольной таблицы, каждая строка которой представляет результат измерений к рассматриваемых признаков на одном из обследованных объектов:

Отметим, что в некоторых задачах может представлять интерес не только группировка объектов, но и группировка признаков.

Сформулируем постановку задачи автоматической классификации. Пусть исследуется совокупность п объектов, каждый из которых характеризуется k замеренными на нем признаками на определенный момент времени (г = const).

Требуется разбить эту совокупность на р однородных в некотором смысле групп (классов) так, чтобы каждый объект принадлежал только одному подмножеству разбиения (кластеру).

Объекты одного кластера должны быть схожими (находиться на сравнительно небольших расстояниях друг от друга), а объекты, принадлежащие разным кластерам, – разнородными (несходными). Априорная информация о количестве кластеров и их характеристиках отсутствует.

Для формализации этой задачи будем представлять анализируемые объекты в качестве точек в соответствующем признаковом пространстве. Если исходные данные представлены матрицей X, то эти точки являются геометрическим изображением многомерных наблюдений в 6-мерном пространстве.

Предположение: геометрическая близость двух или нескольких точек в пространстве означает близость физических состояний соответствующих объектов.

Таким образом, решение задачи классификации заключается в определении естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.

Отметим, что данная задача может не иметь решения.

Определим понятия сходства и разнородности объектов. Как мы можем определить, что, например, объектыисходны или различны? Задача была бы решена, если «'-й и /-и объекты попадали в один кластер тогда и только тогда, когда расстояние между точкамиибыло бы достаточно малым, и наоборот, попадали бы в разные кластеры в случае достаточно большого расстояния между ними.

Понятие однородности объектов является наиболее трудным и менее формализованным в задаче кластерного анализа. Для решения этой задачи вводитсяпонятие расстояния между объектами, которое обозначается черезили

Неотрицательная вещественная функция d(Xt, Xj) называется функцией (метрикой)расстояния, если выполняются следующие условия:

  • 1) для всех ;
  • 2) , если ;
  • 3)
  • 4) , где – любые три вектора из пространства наблюдений.

Если задана функция расстоянияi, то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одному кластеру. С этойцелью сопоставляют расстояниес некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

В задачах классификации выбор метрики или меры близости является основным моментом исследования, от которого зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения.

В каждом конкретном случае исследователь должен делать выбор исходя из целей исследования, физической и статистической природы вектора наблюдений X, априорных сведений о характере вероятностного распределения X.

Исходная информация в задачах классификации может быть задана в виде квадратной матрицы расстояний :

или в виде квадратной матрицы сходства F = (/), i,j = 1, 2,и:

Вещественная функцияназывается мерой сходства, если выполняются следующие условия:

Таким образом, объекты сходны положительно (положительным образом), если значение /jj близко к 1; объекты сходны отрицательно (отрицательным образом), если значение близко к -1; не сходны, если значение функции fij близко к 0.

Понятие сходства между двумя объектами является понятием, противоположным понятию расстояния (djj) между объектами Х: и Xf

Большинство алгоритмов кластерного анализа полностью исходят из матрицы расстояний (или близостей) либо требуют вычисления отдельных ее элементов, поэтому если данные представлены в форме матрицы X, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний (степени близости) между объектами или признаками.

Источник: https://studme.org/93354/statistika/osobennosti_zadach_mnogomernoy_klassifikatsii

Вероятностная интерпретация классических моделей машинного обучения

2.1.1 Методы многомерной классификации данных.:  Последнюю задачу можно отнести к задачам классификации первого типа

Этой статьей я начинаю серию, посвященную генеративным моделям в машинном обучении.

Мы посмотрим на классические задачи машинного обучения, определим, что такое генеративное моделирование, посмотрим на его отличия от классических задач машинного обучения, взглянем на существующие подходы к решению этой задачи и погрузимся в детали тех из них, что основаны на обучении глубоких нейронных сетей. Но прежде, в качестве введения, мы посмотрим на классические задачи машинного обучения в их вероятностной постановке.

Классические задачи машинного обучения

Две классические задачи машинного обучения — это классификация и регрессия. Давайте посмотрим ближе на каждую из них. Рассмотрим постановку обеих задач и простейшие примеры их решения.

Классификация

Задача классификации — это задача присвоения меток объектам. Например, если объекты — это фотографии, то метками может быть содержание фотографий: содержит ли изображение пешехода или нет, изображен ли мужчина или женщина, какой породы собака изображена на фотографии. Обычно есть набор взаимоисключающих меток и сборник объектов, для которых эти метки известны.

Имея такую коллекцию данных необходимо автоматически расставлять метки на произвольных объектах того же типа, что были в изначальной коллекции. Давайте формализуем это определение.
Допустим, есть множество объектов . Это могут быть точки на плоскости, рукописные цифры, фотографии или музыкальные произведения. Допустим также, что есть конечное множество меток .

Эти метки могут быть пронумерованы. Мы будем отождествлять метки и их номера. Таким образом в нашей нотации будет обозначаться как . Если , то задача называется задачей бинарной классификации, если меток больше двух, то обычно говорят, что это просто задача классификации. Дополнительно, у нас есть входная выборка .

Это те самые размеченные примеры, на которых мы и будем обучаться проставлять метки автоматически. Так как мы не знаем классов всех объектов точно, мы считаем, что класс объекта — это случайная величина, которую мы для простоты тоже будем обозначать . Например, фотография собаки может классифицироваться как собака с вероятностью 0.99 и как кошка с вероятностью 0.01.

Таким образом, чтобы классифицировать объект, нам нужно знать условное распределение этой случайной величины на этом объекте .

Задача нахождения при данном множестве меток и данном наборе размеченных примеров называется задачей классификации.

Вероятностная постановка задачи классификации

Чтобы решить эту задачу, удобно переформулировать ее на вероятностном языке. Итак, есть множество объектов и множество меток . — случайная величина, представляющая собой случайный объект из . — случайная величина, представляющая собой случайную метку из .

Рассмотрим случайную величину с распределением , которое является совместным распределением объектов и их классов. Тогда, размеченная выборка — это сэмплы из этого распределения . Мы будем предполагать, что все сэмплы независимо и одинаково распределены (i.i.

d в англоязычной литературе).

Задача классификации теперь может быть переформулирована как задача нахождения при данном сэмпле .

Классификация двух нормальных распределений

Давайте посмотрим, как это работает на простом примере. Положим , , , , . То есть, у нас есть две гауссианы, из которых мы равновероятно сэмплируем данные и нам нужно, имея точку из , предсказать, из какой гауссианы она была получена.

Рис. 1. Плотности распределения и .

Так как область определения гауссианы — вся числовая прямая, очевидно, что эти графики пересекаются, а значит, есть такие точки, в которых плотности вероятности и равны.

Найдем условную вероятность классов:

Т.е.

Вот так будут выглядеть график плотности вероятностей :

Рис. 2. Плотности распределения , и . там, где две гауссианы пересекаются.

Видно, что близко к модам гауссиан уверенность модели в принадлежности точки конкретному классу очень высока (вероятность близка к нулю или единице), а там, где графики пересекаются модель может только случайно угадывать и выдает .

Метод максимизации правдоподобия

Большая часть практических задач не может быть решена вышеописанным способом, так как обычно не задано явно. Вместо этого обычно имеется набор данных с некоторой неизвестной совместной плотностью распределения .

В таком случае для решения задачи используется метод максимального правдоподобия.

Формальное определение и обоснование метода можно найти в вашей любимой книге по статистике или по ссылке выше, а в данной статье я опишу его интуитивный смысл.

Принцип максимизации правдоподобия говорит, что если есть некоторое неизвестное распределение , из которого есть набор сэмплов , и некоторое известное параметрическое семейство распределений , то для того, чтобы максимально приблизило , нужно найти такой вектор параметров , который максимизирует совместную вероятность данных (правдоподобие) , которое еще называют правдоподобием данных. Доказано, что при разумных условиях эта оценка является состоятельной и несмещенной оценкой истинного вектора параметров. Если сэмплы выбраны из , то есть данные i.i.d., то совместное распределение распадается на произведение распределений:

Логарифм и умножение на константу — монотонно возрастающие функции и не меняют положений максимумов, потому совместную плотность можно внести под логарифм и умножить на :

Последнее выражение, в свою очередь, является несмещенной и состоятельной оценкой ожидаемого логарифма правдоподобия:

Задачу максимизации можно переписать как задачу минимизации:

Последняя величина называется кросс-энтропией распределений и . Именно ее и принято оптимизировать для решения задач обучения с подкреплением (supervised learning).

Минимизацию на протяжении этого цикла статей мы будем проводить с помощью Stochastic Gradient Descent (SGD), а точнее, его расширения на основе адаптивных моментов, пользуясь тем, что сумма градиентов по подвыборке (так называемому “минибатчу”) является несмещенной оценкой градиента минимизируемой функции.

Классификация двух нормальных распределений логистической регрессией

Давайте попробуем решить ту же задачу, что была описана выше, методом максимального правдоподобия, взяв в качестве параметрического семейства простейшую нейронную сеть. Получившаяся модель называется логистической регрессией. Полный код модели можно найти тут, в статье же освещены только ключевые моменты.

Для начала нужно сгенерировать данные для обучения. Нужно сгенерировать минибатч меток классов и для каждой метки сгенерировать точку из соответствующей гауссианы:

def input_batch(dataset_params, batch_size): input_mean = tf.constant(dataset_params.input_mean, dtype=tf.float32) input_stddev = tf.constant(dataset_params.input_stddev,dtype=tf.float32) count = len(dataset_params.input_mean) labels = tf.contrib.distributions.Categorical(probs=[1./count] * count) .sample(sample_shape=[batch_size]) components = [] for i in range(batch_size): components .append(tf.contrib.distributions.Normal( loc=input_mean[labels[i]], scale=input_stddev[labels[i]]) .sample(sample_shape=[1])) samples = tf.concat(components, 0) return labels, samples

Определим наш классификатор. Он будет простейшей нейронной сетью без скрытых слоев:

def discriminator(input): output_size = 1 param1 = tf.get_variable( «weights», initializer=tf.truncated_normal([output_size], stddev=0.1) ) param2 = tf.get_variable( «biases», initializer=tf.constant(0.1, shape=[output_size]) ) return input * param1 + param2

И запишем функцию потерь — кросс-энтропию между распределениями реальных и предсказанных меток:

labels, samples = input_batch(dataset_params, training_params.batch_size)predicted_labels = discriminator(samples)loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits( labels=tf.cast(labels, tf.float32), logits=predicted_labels))

Ниже приведены графики обучения двух моделей: базовой и с L2-регуляризацией:

Рис. 3. Кривая обучения логистической регрессии.

Видно, что обе модели быстро сходятся к хорошему результату. Модель без регуляризации показывает себя лучше потому, что в этой задаче не нужна регуляризация, а она слегка замедляет скорость обучения. Давайте взглянем поближе на процесс обучения:

Рис. 4. Процесс обучения логистический регрессии.

Видно, что обучаемая разделяющая поверхность постепенно сходится к аналитически вычисленной, при чем, чем она ближе, тем медленнее сходится из-за все более слабого градиента функции потерь.

Регрессия

Задача регрессии — это задача предсказания одной непрерывной случайной величины на основе значений других случайных величин . Например, предсказание роста человека по его полу (дискретная случайная величина) и возрасту (непрерывная случайная величина).

Точно так же, как и в задаче классификации, нам дана размеченная выборка .

Предсказать значение случайной величины напрямую невозможно, ведь она случайная и, по сути, является функцией, поэтому формально задача записывается как предсказание ее условного ожидаемого значения:

Регрессия линейно зависимых величин с нормальным шумом

Давайте посмотрим, как решается задача регрессии на простом примере. Пусть есть две независимые случайные величины . Например, это высота дерева и нормальный случайный шум. Тогда мы можем предположить, что возраст дерева является случайной величиной . В таком случае по линейности математического ожидания и независимости и :

Рис. 5. Линия регрессии задачи про линейно зависимые величины с шумом.

Решение задачи регрессии методом максимального правдоподобия

Давайте сформулируем задачу регрессии через метод максимального правдоподобия. Положим ). Где — новый вектор параметров. Видно, что мы ищем — математическое ожидание , т.е. это корректно поставленная задача регрессии. Тогда

Состоятельной и несмещенной оценкой этого матожидания будет среднее по выборке

Таким образом, для решения задачи регрессии удобно минимизировать среднеквадратичную ошибку на обучающей выборке.

Регрессия величины линейной регрессией

Давайте попробуем решить ту же задачу, что была выше, методом из предыдущего раздела, взяв в качестве параметрического семейства простейшую возможную нейронную сеть. Получившаяся модель называется линейной регрессией. Полный код модели можно найти тут, в статье же освещены только ключевые моменты.

Для начала нужно сгенерировать данные для обучения. Сначала мы генерируем минибатч входных переменных , после чего получаем сэмпл исходной переменной :

def input_batch(dataset_params, batch_size): samples = tf.random_uniform([batch_size], 0., 10.) noise = tf.random_normal([batch_size], mean=0., stddev=1.) labels = (dataset_params.input_param1 * samples + dataset_params.input_param2 + noise) return labels, samples

Определим нашу модель. Она будет простейшей нейронной сетью без скрытых слоев:

def predicted_labels(input): output_size = 1 param1 = tf.get_variable( «weights», initializer=tf.truncated_normal([output_size], stddev=0.1) ) param2 = tf.get_variable( «biases», initializer=tf.constant(0.1, shape=[output_size]) ) return input * param1 + param2

И запишем функцию потерь — L2-расстояние между распределениями реальных и предсказанных значений:

labels, samples = input_batch(dataset_params, training_params.batch_size)predicted_labels = discriminator(samples)loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits( labels=tf.cast(labels, tf.float32), logits=predicted_labels))

Ниже приведены графики обучения двух моделей: базовой и с L2-регуляризацией:

Рис. 6. Кривая обучения линейной регрессии.

Рис. 7. График изменения первого параметра с шагом обучения.

Рис. 8. График изменения второго параметра с шагом обучения.

Видно, что обе модели быстро сходятся к хорошему результату. Модель без регуляризации показывает себя лучше потому, что в этой задаче не нужна регуляризация, а она слегка замедляет скорость обучения. Давайте взглянем поближе на процесс обучения:

Рис. 9. Процесс обучения линейной регрессии.

Видно, что обучаемое математическое ожидание постепенно сходится к аналитически вычисленному, при чем, чем оно ближе, тем медленнее сходится из-за все более слабого градиента функции потерь.

Другие задачи

В дополнение к изученным выше задачам классификации и регрессии есть и другие задачи так называемого обучения с учителем, в основном сводящиеся к отображению между точками и последовательностями: Object-to-Sequence, Sequence-to-Sequence, Sequence-to-Object.

Так же есть и большой спектр классических задач обучения без учителя: кластеризация, заполнение пробелов в данных, и, наконец, явная или неявная аппроксимация распределений, которая и используется для генеративного моделирования.

Именно о последнем классе задач будет идти речь в этом цикле статей.

Генеративные модели

В следующей главе мы посмотрим, что такое генеративные модели и чем они принципиально отличаются от рассмотренных в этой главе дискриминативных. Мы посмотрим на простейшие примеры генеративных моделей и попробуем обучить модель, генерирующую сэмплы из простого распределения данных.

Благодарности

Спасибо Olga Talanova за ревью этой статьи. Спасибо Sofya Vorotnikova за комментарии, редактирование и проверку английской версии. Спасибо Andrei Tarashkevich за помощь в верстке.

Источник: https://habr.com/post/343800/

Задачи Data Mining. Классификация и кластеризация

2.1.1 Методы многомерной классификации данных.:  Последнюю задачу можно отнести к задачам классификации первого типа

Аннотация: В этой лекции подробно рассматриваются две задачи Data Mining — классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.

В предыдущей лекции мы кратко остановились на основных задачах Data Mining. Две из них — классификацию и кластеризацию — мы рассмотрим подробно в этой лекции.

Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо четкое понимание сути этого понятия.

Приведем несколько определений.

Классификация — системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.

Классификация — упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.

Классификация требует соблюдения следующих правил:

  • в каждом акте деления необходимо применять только одно основание;
  • деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия;
  • члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться;
  • деление должно быть последовательным.

Различают:

  • вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка;
  • естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.

В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:

  • простой — деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: «А и не А»);
  • сложной — применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов.

Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

Классификация — это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).

Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.

Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.

Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто — нет, кто воспользуется услугой фирмы, а кто — нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).

Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.

Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).

Многомерная классификация была разработана биологами при решении проблем дискриминации для классифицирования организмов. Одной из первых работ, посвященных этому направлению, считают работу Р. Фишера (1930 г.

), в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров.

Биология была и остается наиболее востребованной и удобной средой для разработки многомерных методов классификации.

Рассмотрим задачу классификации на простом примере. Допустим, имеется база данных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более дешевый, молодежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2. База данных приведена в таблице 5.1.

Таблица 5.1. База данных клиентов туристического агентстваКод клиентаВозрастДоходКласс
118251
2221001
330701
4321201
524152
625221
732502
819452
922751
1040902

Задача. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать.

Для наглядности представим нашу базу данных в двухмерном измерении (возраст и доход), в виде множества объектов, принадлежащих классам 1 (оранжевая метка) и 2 (серая метка). На рис. 5.1 приведены объекты из двух классов.

Рис. 5.1. Множество объектов базы данных в двухмерном измерениии

Решение нашей задачи будет состоять в том, чтобы определить, к какому классу относится новый клиент, на рисунке обозначенный белой меткой.

Источник: http://www.intuit.ru/studies/courses/6/6/lecture/166

Scicenter1
Добавить комментарий