ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

лекция_5

ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

    Лекция 5.Анализ данных

5.1 Этапы анализа данных. 1

5.2 Представление данных в наглядной форме. 2

5.3 Педагогические измерения. 4

5.4 Качественная и количественная информация. 5

5.5 Шкалирование. 5

 На всех стадиях педагогического исследования обработка фактического материала составляет сердцевину научного поиска. Следует, однако, заме­тить, что каким бы искусным аппаратом для этого ни обладал автор научной работы, решающим остается до­статочный набор фактического материала, его полнота, репрезентативность.

И напротив, если исследователь не способен обработать накопленную информацию, то ника­кое ее обилие и разнообразие не дают возможности над­лежащим образом подготовить добытые материалы для следующего шага — интерпретации.

Основным способом обработки полученных данных представляется статистическая обработка педагогических материалов.

5.1 Этапы анализа данных

В процессе подготовки и анализа данных, как правило, присутствуют следующие основные этапы:

1. Сбор первичных данных для анализа. Наблюдая и измеряя характеристики объекта, педагог-исследователь собирает первичный статистический материал. Дальнейшая задача состоит в выдвижении статистической гипотезы на основании темы и цели исследования.

2. Ввод данных в компьютер. Данные исследований необходимо ввести в компьютер и сохранить.

Ввод данных может осуществляться ручным набором чисел с клавиатуры или же экспортом из файла в каком-либо формате.

Введенные данные обычно отображаются в форме электронной таблицы или матрицы данных, где столбцы представляют различные переменные (рост, вес, цвет глаз), а строки – измерения значений этих переменных.

3. Преобразование данных. Проводится группировка данных, то есть распределение их на однородные группы в соответствии с интересующими исследователя признаками.

Данные в каждой группе упорядочиваются — классифицируются, сортируются, структурируются, подсчитывается частота событий.

Нередко также требуется удаление из введенных данных высокоамплитудных значений, которые могут быть результатом некорректных измерений или замена пропущенных (неизмеренных) значений.

4. Визуализация данных – наглядное представление данных.  Для этого можно использовать как табличное представление, так и различ­ные формы графического изображения. Человек часто на­много более продуктивно и быстро воспринимает информацию в виде зрительных образов.

5.Статистический анализ — статистическая обработка полученных количественных данных, заключающаяся в вычислении некоторых статистических характеристик и позволяющих проверить нулевую гипотезу.

6. Интерпретация и представление результатов. В творчестве ученого, занимающегося проблемами педагогики, самой сложной считается задача интерпретации полученного и обработанного фактического материала. К сожалению, исследователи нередко избегают этап обсуждения фактов и переходят сразу к выводам.

Конечно, хорошо обра­ботанные материалы, упорядоченные и оформленные в таблицы, статистические изображения могут служить ба­зой для выводов.

Однако без всестороннего обсуждения, с ходом которого должен быть ознакомлен читатель, выво­ды будут мало или вовсе необоснованными и неубедитель­ными, да и сам исследователь многое теряет.

Из поля его зрения выпадают ценные характеристики фактиче­ского материала, которые невидимы, то есть визуально не просматриваются, но существенно влияют на выводы.

Основная цель интерпретации — выявление и фиксиро­вание комплекса характеристик обработанного материа­ла, на основе которых открывается возможность обнару­жить и объяснить основные тенденции и сформулировать выводы.

Отметим, что важнейшим условием объективного ис­толкования обработанных данных выступает научная ква­лификация исследователя: его эрудиция, способность к ассоциативным мыслительным действиям. Естественно, что, чем квалифицирован­нее в той области, где ведется поиск, исследователь, тем основательнее обсуждение и богаче его результаты.

5.2 Представление данных в наглядной форме

Большую роль при анализе данных играет владение некоторыми специальными способами представления полученных данных в наглядной — краткой и схематизированной — форме.

Табличный способ изображения данных позволяет представить качественные и количественные данные с кратким сопроводительным объясняющим текстом. Таким текстом служат название таблицы, раскрывающее связь между числовыми рядами, и внутренние заголовки таблицы (указывающие измеряемые признаки, место, время, единицы измерения и т. п.).

Матрица представляет собой разновидность таблицы со строками и рядами (столбцами), имеющими какие-либо функционально-логические связи. В результате в матрице обнаруживается наличие или отсутствие связи между различными факторам педагогического процесса.

Графики еще более наглядно, чем таблицы, отображают изменение экспериментальных данных. Графики строятся в прямоугольной системе координат, в которой на оси “X” отмечается значение выборки, а по оси “Y” — значение, порядок признака, частота события.

Композиция графика – это сочетание всех его элементов. График должен привлекать внимание, обеспечивая в то же время легкость его прочтения и усвоения. Немаловажной задачей композиции графика является художественная и эстетическая сторона его оформления.

Правила построения графиков:

1. Необходимо провести тщательный отбор из имеющегося цифрового статистического материала тех данных, которые будут изображены на графике (далеко не все полученные данные следует изображать  графически).

2. Выбрать тот вид графика, который по мнению исследователя наиболее ярко будет отражать полученные данные.

3. Название графика должно быть ясным и полным, отражающим содержание и имеющим при необходимости особые пояснения.

4. Надписи и легенда располагаются, как правило, в нижней или правой части диаграммы.

5. Цифры шкалы следует наносить слева и снизу или вдоль осей. Горизонтальную шкалу (по оси абсцисс) необходимо строить слева направо, вертикальную (по оси ординат) — снизу вверх.

4. Если числовые данные не включены в диаграммы, желательно их представить рядом в табличной форме.

5. Густота координатной сетки должна быть оптимальной, не затрудняющей чтения графика.

6. Допускается количество различных цветов на графике не более трех.

7. Если графики отражают серию наблюдений,  рекомендуется ясно обозначать все точки, соответствующие отдельным наблюдениям.

Виды графиков:

1. Линейный график – передает изменения в некоторых мерных числах, например, изменение средних оценок контрольных работ, проведенных в одном классе в течение учебного года.

2. Гистограмма представляет собой разновидность графика в котором по оси “Y” откладываются частотные (интервальные) значения какой-либо группировки, в результате чего график становится “ступенчатым”.

3. Полигон частот – на базе полигона частот строится гистограмма, разница между ними заключается в том, что в полигоне частота  интервала сведена к его центру, а при гистограмме частоты изображают равномерно в пределах всего интервала.

4. Кумулятивный график частоты (накопляющее распределение частоты) – частота отдельных интервалов совокупности рассматривается кумулятивно, то есть к частоте каждого интервала прибавляются частоты всех предыдущих интервалов.

5. Диаграммы сопоставляют количественную информацию в виде площадей различных фигур (круг, прямоугольник, сектор, цилиндр, пузырьки и др.).

Графы — особый вид графического отображения данных результатов; это фигура, состоящая из точек (вершин), соединенных отрезками (ребрами).

Вершины графа могут обозначать различные компоненты педагогического процесса, параметры, факторы, а ребра — отношения и связи между ними.

Графы (как модели) часто применяются на этапе прогнозирования эксперимента, а на обобщающем этапе с ними сопоставляются результаты. Простейшим примером графа служит “дерево” целей.

 

Измерение – это процесс определения значения какого-либо признака. Значением может быть не только число, но и имя. Измерение выполняют путем непосредственного наблюдения измеряемого признака или при помощи аппаратуры.

Если в точных науках измерение сводится к сравнению данной величины с однородной ей величиной, принятой за единицу (эталоном), то для психолого-педагогических параметров таких эталонов не имеется.

Более того, большинство психолого-педагогических параметров (признаки, качества, свойства, факторы) являются скрытыми (латентными), о которых можно судить лишь косвенно, по их проявлениям, т. е.

весьма приближенно.

Педагогическоеизмерение — это операция присвоения чисел объектам и их свойствам в соответствии с определенными правилами.

Обычно измерение подразделяется на прямое и косвенное. Прямоеизмерение заключается в непо­средственном сравнении измеряемого объекта с ка­ким-нибудь нормативом, эталонным измерителем. В педагогических исследованиях оно встречается редко, например при определении физического развития учеников (полнота, рост).

Чаще всего исполь­зуется косвенноеизмерение. Уровень знаний или уме­ний учеников, их моральные качества, дисциплини­рованность и т. п. могут быть измерены только косвенно, на основе работы учеников, их ответов на воп­росы, решения проблемных задач, числа ошибок в диктанте, на основе разных проявлений в поведе­нии.

Задача фактиче­ского измерения различных сторон педагогического явления на сегодняшний день остается неопределенной, так как в учебно-воспитательном процессе мы выделяем как педа­гога, так и обучаемого, которые могут описываться большим набором свойств.

5.4 Качественная и количественная информация

Основную проблему при сборе информации в психолого-педагогическом исследовании составляет количественная оценка качеств изучаемых объектов и процессов.

Психолого-педагогическая наука пока еще в основном остается описательной, эмпирической, поэтому основным видом информации в педагогическом эксперименте является качественная, содержательная.

Качеством какого-либо объекта (процесса) считаются его существенные, устойчивые свойства, благодаря которым он этим объектом и является. Таким образом, качественнаяинформация об объекте выражает его сущность и содержание и совершенно необходима для его характеристики.

Качественными характеристиками (параметрами) описываются в педагогике все процессы и результаты обучения и воспитания, все виды деятельности, взаимоотношений участников педагогического процесса, все достижения в развитии личностей и коллективов. Основные закономерности и принципы педагогики имею качественную форму.

Количественная характеристика окружающего мира представляет более высокий уровень его познаний.

Количество — это объективная определенность объекта познания, в силу которой его можно разделить на однородные части.

Количественные характеристики позволяют гораздо глубже, чем описательно-логические проанализировать процессы, выявить наличие и оценить величину связи различных качеств, обнаружить закономерности.

Количество и качество тесно связаны: они диалектически взаимодополняют и превращаются друг в друга (закон перехода количества в качество). В любой качественной информации всегда содержится та или иная степень количественной.

К сожалению, проникновение в психолого-педагогическую науку и практику количественных методов затрудняется следующими обстоятельствами:

— неразработанностью и часто отсутствием адекватных методов и средств количественной оценки психолого-педагогических параметров;

— большой сложностью педагогических процессов.

5.5 Шкалирование

Шкала – это средство фиксации результатов измерения свойств объектов путем упорядочивания их в определенную числовую систему, в которой отношение между отдельными результатами выражено в соответствующих числах. В процессе упорядочивания каждому элементу выборки ставится в соответствие определенный балл (шкальный индекс), устанавливающий положение наблюдаемого результата на шкале.

Шкалирование — это операция упорядочивания исходных эмпирических данных путем перевода их в шкальные оценки. Шкала дает возможность упорядочить наблю­даемые явления, при этом каждое из них получает количественную оценку (квантифицируется). Шкали­рование помогает определить низшую и высшую сту­пени исследуемого явления.

Например, при исследо­вании учебных интересов учеников мы устанавлива­ем их границы: очень большой интерес — очень сла­бый интерес. Между этими границами определяется ряд ступеней.

В результате складывается следующая шкала учебных интересов: очень большой интерес (1); большой интерес (2); средний (3); слабый (4); очень слабый (5).

Рекомендуется вводить и экстремальные обозначения крайних границ шкалы,.

В психолого-педагогических исследованиях применяют классификацию шкал, предложенную С.Стивенсоном (см. рис. 1), согласно которой четыре основных способа измерения, связанные с различными правилами, называют измерительнымишкалами (номинальная, порядковая, интервальная и шкала отношений).

Рис. 1. Классификация шкал по С.Стивенсу

1. Номинальная шкала(шкала наименований), которую правильнее было бы считать классификацией, а не измерением, делит все объекты на группы по какому-либо признаку (различию). Этим признакам присваиваются определенные числа (код), что создает удобства при дальнейшей обработке экспериментальных данных. Никакого количественного соотношения между объектами в номинальной шкале нет.

Примеры:

Учащиеся класса делятся на две категории и обозначаются: девочки — 01, мальчики — 02.

Группы нарушителей дисциплины и их обозначение (кодирование): на уроке — 1, на улице – 2, дома — 3.

В процессе проверки соответствия подготовки выпускников школ требованиям ГОС появляется группа аттестованных и не аттестованных учеников.

2. Шкала порядка (порядковая, ранговая, ординальная) предназначена для измерения (обозначения) степени различия какого-либо признака или свойства у разных объектов. Самым ярким примером порядковой шкалы является пятибалльная система оценки ЗУН учащихся.

Для нее разработаны критерии и различные методы измерения. 3начительно труднее применять порядковую шкалу для количественных оценок других качеств личности (в воспитательном процессе).

Имеется несколько разновидностей порядкового шкалирования (измерения):

·        ранжирование (в ряд),

·        группировка (ранжирование по группам),

·        парное сравнение,

·        метод рейтинга,

·        метод полярных профилей.

Ранжирование. Изучаемые объекты располагаются в ряд (упорядочиваются) по степени выраженности какого-либо качества.

Первое место в этом ряду занимает объект с наиболее высоким уровнем данного качества, и ему присваивается наивысший балл (числовое значение выбирается произвольно).

Затем каждому объекту ранжированного ряда присваиваются более низкие оценки, соответствующие занимаемым местам.

Группировка всей совокупности объектов наблюдения в несколько рангов, достаточно ясно отличающихся друг от друга по степени измеряемого признака.

Пример: учащиеся класса согласно пятибалльной системе оценки ЗУН делятся на отличников, хорошистов и т. д.

Парноесравнение. Учащиеся сопоставляются друг с. другом (каждый с каждым) по какому-либо качеству. Если они одинаковы, то каждый получает по баллу.

Если у одного этого качества больше, чем у другого, первый получает два балла, второй – 0 (как при спортивных играх по круговой системе).

Суммируя полученные каждым баллы, получаем количественное выражение уровня развития данного качества у каждого учащегося (его ранг).

. В этом приеме оценка объекта производится путем усреднения оценочных суждений группой компетентных экспертов. Имея общие критерии оценки (в порядковой шкале, в баллах), эксперты независимо друг от друга (в устной или письменной форме) выносят свои суждения. Усредненный результат экспертной оценки является достаточно объективным и называется рейтингом.

Метод полярных профилей. Этот прием предполагает применение для оценки условной шкалы, крайними точными которой являются противоположные значения признака (например, добрый — злой, теплый — холодный и т. п.). Промежуток между полюсами делится на произвольное количество частей (баллов).

Пример. Оценка степени доверия кандидату на выборную должность дается в полярной шкале:

(Доверяю полностью) 10 – 9 – 8 – 7 – 6 – 5 – 4 – 3 – 2 – 1 (Совсем не доверяю)

3. Интервальная шкала (интервальное намерение) — это такое присвоение чисел объектам, когда определено расстояние между объектами и предусмотрена общая для всех объектов постоянная единица измерения. Иначе говоря, в интервальной шкале вводится единица и масштаб измерения. Нулевая точка шкалы выбирается произвольно.

Примеры: температурные шкалы; шкалы стандартизированного тестирования интеллекта.

Интервальная шкала – количественная. В ней возможны все арифметические действия над числами, кроме операции деления. Таким образом, в интервальной шкале нельзя определить во сколько раз один объект больше или меньше другого. Например, если ученик ответил правильно на 10 заданий, то это не означает, что он знает вдвое больше ученика, ответившего на 5 заданий теста.

4. Шкала отношений отличается от интервальной только тем, что ее нулевая точка не произвольна, а указывает на полное отсутствие измеряемого свойства. Сюда относятся и все количественные данные, получаемые пересчетом объектов какого-либо множества (число учащихся, уроков и т. п.).

Уровни измерения и математические вычисления, используемые на данных уровнях, показаны в табл. 1. Из этой таблицы видно, что переход от одного уровня к другому сопровождается расширением класса допустимых математико-статистических операций. Как следует из таблицы, наилучшей является шкала отношений, которую на сегодняшний день удалось реализовать только в рамках физических измерений.

Таблица 1.

Шкала Математические и статистические величины, вычисление которых допустимо на данном уровне
НоминальнаяМода, процентные частоты, доли, корреляция
ПорядковаяМода, медиана, квартили, коэффициент корреляции, дисперсионный анализ
ИнтервальнаяМода, медиана, квартили, коэффициент корреляции, ранговые критерии, средняя, дисперсия, стандартное отклонение, коэффициент корреляции
отношенийВсе арифметические операции, все понятия и методы математической статистики

Ермолаев О.Ю. Математическая статистика для психологов: Учебник/О.Ю. Ермолаев. – 2-е изд., исп. – М.: Московский психолого-социальный институт: Флинта, 2003, стр. 122 с.

 

Источник: https://tsput.ru/res/informat/mop/lections/lection_5.htm

Первичная статистическая обработка данных

ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

Лабораторная работа №3. Статистическая обработка данных в системе MatLab

Общая постановка задачи

Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.

Теоретическая часть

Первичная статистическая обработка данных

Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам.

Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных.

После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.

Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:

— Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.

— Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.

Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.

Меры центральной тенденции– группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.

Допустим имеется выборка данных , тогда меры центральной тенденции оцениваются следующими показателями:

1. Выборочное среднее– это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).

(3.1)

где — i-й элемент выборки;

n – количество элементов выборки.

Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р.

Выборочное среднее в данном случае S=34.

2. Медиана– формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных :

— Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию .

— Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.

(3.2)

где n — количество элементов выборки.

— В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.

(3.3)

где — средний элемент упорядоченной выборки;

— элемент упорядоченной выборки следующий за ;

— количество элементов выборки.

-В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки {1, 5, 9, 15, 16} медиана совпадает с элементом 9.

В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р.

Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р.

Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р.

В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.

Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р.

явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае.

Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.

3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:

-В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.

— Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.

— Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.

Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.

Меры разброса (изменчивости)– группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:

1. Размах — это интервал между максимальным и минимальным значениями результатов наблюдений (элементов выборки). Показатель размаха указывает на разброс значений в совокупности данных.

Если размах большой, то значения в совокупности сильно разбросаны, в противном случае (размах небольшой) говорится о том, что значения в совокупности лежат близко друг к другу. Размах определяется по формуле (3.

4).

(3.4)

Где — максимальный элемент выборки;

— минимальный элемент выборки.

2.Среднее отклонение– среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).

(3.5)

где — i-й элемент выборки;

— значение выборочного среднего, рассчитанное по формуле (3.1);

— количество элементов выборки.

Модуль необходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными.

Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего).

При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.

3. Дисперсия — мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:

— для больших выборок (n>30) по формуле (3.6)

(3.6)

— для малых выборок (n

Источник: https://studopedia.ru/19_327065_pervichnaya-statisticheskaya-obrabotka-dannih.html

7.2. Первичная статистическая обработка данных

ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

Всеметоды количественной обработки принятоподразделять на первичные и вторичные.

Первичнаястатистическая обработка нацелена наупорядочивание информации об объектеи предмете изучения. На этой стадии»сырые» сведения группируются потем или иным критериям, заносятся всводные таблицы.

Первично обработанныеданные, представленные в удобной форме,дают исследователю в первом приближениипонятие о характере всей совокупностиданных в целом: об их однородности -неоднородности, компактности -разбросанности, четкости — размытостии т. д.

Эта информация хорошо считываетсяс наглядных форм представления данныхи дает сведения об их распределении.

Входе применения первичных методовстатистической обработки получаютсяпоказатели, непосредственно связанныес производимыми в исследованииизмерениями.

Косновным методам первичной статистическойобработки относятся: вычисление мерцентральной тенденции и мер разброса(изменчивости) данных.

Первичныйстатистический анализ всей совокупностиполученных в исследовании данных даетвозможность охарактеризовать ее впредельно сжатом виде и ответить на дваглавных вопроса: 1) какое значениенаиболее характерно для выборки; 2) великли разброс данных относительно этогохарактерного значения, т.

 е. какова»размытость» данных. Для решенияпервого вопроса вычисляются мерыцентральной тенденции, для решениявторого — меры изменчивости (или разброса).Эти статистические показатели используютсяв отношении количественных данных,представленных в порядковой, интервальнойили пропорциональной шкале.

Мерыцентральной тенденции -это величины, вокруг которых группируютсяостальные данные.

Данные величиныявляются как бы обобщающими всю выборкупоказателями, что, во-первых, позволяетсудить по ним обо всей выборке, аво-вторых, дает возможность сравниватьразные выборки, разные серии междусобой.

К мерам центральной тенденции вобработке результатов психологическихисследований относятся: выборочноесреднее, медиана, мода.

https://www.youtube.com/watch?v=Dbp8Jqoj0DQ

Выборочноесреднее (М) — это результат делениясуммы всех значений (X) на их количество(N).

Медиана(Me) — это значение, выше и ниже которогоколичество отличающихся значенийодинаково, т. е. это центральноезначение в последовательном ряду данных.

Медиана не обязательно должна совпадатьс конкретным значением. Совпадениепроисходит в случае нечетного числазначений (ответов), несовпадение — причетном их числе.

В последнем случаемедиана вычисляется как среднееарифметическое двух центральных значенийв упорядоченном ряду.

Мода(Мо) — это значение, наиболее частовстречающееся в выборке, т. е. значениес наибольшей частотой. Если все значенияв группе встречаются одинаково часто,то считается, что моды нет.

Если двасоседних значения имеют одинаковуючастоту и больше частоты любого другогозначения, мода есть среднее этих двухзначений.

Если то же самое относится кдвум несмежным значениям, то существуетдве моды, а группа оценок являетсябимодальной.

Обычновыборочное среднее применяется пристремлении к наибольшей точности вопределении центральной тенденции.Медиана вычисляется в том случае, когдав серии есть «нетипичные» данные,резко влияющие на среднее. Модаиспользуется в ситуациях, когда не нужнавысокая точность, но важна быстротаопределения меры центральной тенденции.

Вычислениевсех трех показателей производитсятакже для оценки распределения данных.При нормальном распределении значениявыборочного среднего, медианы и модыодинаковы или очень близки.

Мерыразброса (изменчивости) -это статистические показатели,характеризующие различия между отдельнымизначениями выборки.

Они позволяют судитьо степени однородности полученногомножества, его компактности, а косвеннои о надежности полученных данных ивытекающих из них результатов.

Наиболееиспользуемые в психологическихисследованиях показатели: среднееотклонение, дисперсия, стандартноеотклонение.

Размах(Р) — это интервал между максимальными минимальным значениями признака.Определяется легко и быстро, ночувствителен к случайностям, особеннопри малом числе данных.

Среднееотклонение (МД) — это среднеарифметическоеразницы (по абсолютной величине) междукаждым значением в выборке и ее средним.

гдеd = |Х — М |, М — среднее выборки, X — конкретноезначение, N — число значений.

Множествовсех конкретных отклонений от среднегохарактеризует изменчивость данных, ноесли не взять их по абсолютной величине,то их сумма будет равна нулю и мы неполучим информации об их изменчивости.

Среднее отклонение показывает степеньскученности данных вокруг выборочногосреднего.

Кстати, иногда при определенииэтой характеристики выборки вместосреднего (М) берут иные меры центральнойтенденции — моду или медиану.

Дисперсия(D) характеризует отклонения от среднейвеличины в данной выборке. Вычислениедисперсии позляет избежать нулевойсуммы конкретных разниц (d = Х — М) не черезих абсолютные величины, а через ихвозведение в квадрат:

гдеd = |Х — М|, М — среднее выборки, X — конкретноезначение, N — число значений.

Стандартноеотклонение (б). Из-за возведения в квадратотдельных отклонений d при вычислениидисперсии полученная величина оказываетсядалекой от первоначальных отклоненийи потому не дает о них наглядногопредставления.

Чтобы этого избежать иполучить характеристику, сопоставимуюсо средним отклонением, проделываютобратную математическую операцию — издисперсии извлекают квадратный корень.

Его положительное значение и принимаетсяза меру изменчивости, именуемуюсреднеквадратическим, или стандартным,отклонением:

гдеd = |Х- М|, М — среднее выборки, X- конкретноезначение, N — число значений.

МД,D и ? применимы для интервальных ипропорционных данных. Для порядковыхданных в качестве меры изменчивостиобычно берут полуквартильное отклонение(Q), именуемое еще полуквартильнымкоэффициентом. Вычисляется этотпоказатель следующим образом. Всяобласть распределения данных делитсяна четыре равные части.

Если отсчитыватьнаблюдения начиная от минимальнойвеличины на измерительной шкале, топервая четверть шкалы называется первымквартилем, а точка, отделяющая его отостальной части шкалы, обозначаетсясимволом Qv Вторые 25 % распределения- второй квартиль, а соответствующаяточка на шкале — Q2. Между третьей ичетвертой четвертями распределениярасположена точка Q3.

Полуквартильныйкоэффициент определяется как половинаинтервала между первым и третьимквартилями:

Присимметричном распределении точка Q2совпадет с медианой (а следовательно,и со средним), и тогда можно вычислитькоэффициент Q для характеристики разбросаданных относительно середины распределения.При несимметричном распределении этогонедостаточно. Тогда дополнительновычисляют коэффициенты для левого иправого участков:

Источник: https://studfile.net/preview/5164091/page:29/

Количественные методы

ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

Процесс количественнойобработки данных имеет две фазы:пер­вичнуюи вторичную.

Первичнаяобработка нацеленана упорядочиваниеинформацииоб объекте и предмете изучения, полученнойна эмпирическом этапе исследования. Наэтой стадии «сырые» сведения группируютсяпо тем или иным критериям, заносятся всводные таблицы, а для наглядностипредставляются графически.

Все этиманипуляции позволяют, во-пер­вых,обнаружить и ликвидировать ошибки,совершенные при фикса­ции данных, и,во-вторых, выявить и изъять из общегомассива неле­пые данные, полученныев результате нарушения процедурыобследо­вания, несоблюдения испытуемымиинструкции и т. п.

Кроме того, первичнообработанные данные, представая вудобной для обозрения форме, даютисследователю в первом приближениипредставление о характере всейсовокупности данных в целом: об иходнородности — неоднородности,компактности — разбросанности, четкости— размы­тости и т. д.

Эта информацияхорошо читается на наглядных формахпредставления данных и связана спонятиями «распределение данных».

К основным методампервичной обработки относятся:табулирова­ние,т. е.представление количественной информациив табличной форме, и построениедиаграмм (рис.I),гистограмм (рис.

2), полигонов рас­пределения(рис. 3) икривыхраспределения (рис.4).

Диаграммы отра­жают распределениедискретных данных, остальные графическиеформы используются для представленияраспределения непрерывных данных.

От гистограммылегко перейти к построению частотногополиго­на распределения, аот последнего — к кривой распределения.Частот­ный полигон строят, соединяяпрямыми отрезками верхние точкицент­ральных осей всех участковгистограммы.

Если же вершины участковсоединить с помощью плавньгх кривыхлиний, то получится криваярас­пределения первичныхрезультатов.

Переход от гистограммы ккривой распределения позволяет путеминтерполяции находить те величиныисследуемой переменной, которые в опытене были получены. [18]

2.2.1. Общее представление о вторичной обработке

Вторичнаяобработка заключаетсяглавным образом в статис­тическоманализе итоговпервичной обработки.

Уже табулированиеи построение графиков, строго говоря,тоже есть статистическая обра­ботка,которая в совокупности с вычислениеммер центральной тен­денции и разбросавключается в один из разделов статистики,а именно в описательнуюстатистику.

Другойраздел статистики — индуктивнаястатистика [19]—осуществляет проверку соответствияданных вы­борки всей популяции, т. е.решает проблему репрезентативностире­зультатов и возможности переходаот частного знания к общему [10, 34, 41, 42].

Третий большой раздел — корреляционнаястатистика —выявляет связи между явлениями. В целомже надо понимать, что «ста­тистика —это не математика, а, прежде всего, способмышления, и для ее применения нужно лишьиметь немного здравого смысла и знатьосновы математики» [19, т. 2,с. 277].

Статистическийанализ всей совокупности полученных висследо­вании данных дает возможностьохарактеризовать ее в предельно сжа­томвиде, поскольку позволяет ответить натри главныхвопроса: 1) ка­коезначение наиболее характерно длявыборки?; 2) велик ли разброс данныхотносительно этого характерногозначения, т. е. какова «размы­тость»данных?; 3) существует ли взаимосвязьмежду отдельными дан­ными в имеющейсясовокупности и каковы характер и силаэтих связей? Ответами на эти вопросыслужат некоторые статистическиепоказатели исследуемой выборки. Длярешения первого вопроса вычисляютсямеры центральнойтенденции (илилокализации),второго —мерыизменчиво­сти (илирассеивания,разброса), третьего— меры связи(иликорреля­ции).Этистатистические показатели приложимык количественным дан­ным (порядковым,интервальным, пропорциональным).

Меры центральнойтенденции (м.ц. т.) — это величины, вокруг которыхгруппируются остальные данные.

Этивеличины являются как бы обобщающимивсю выборку показателями, что, во-первых,позво­ляет по ним судить обо всейвыборке, а во-вторых, дает возможностьсравнивать разные выборки, разные сериимежду собой.

К мерам цент­ральнойтенденции относятся: среднееарифметическое, медиана, мода, среднеегеометрическое, среднее гармоническое.

Среднееарифметическое (М) —эторезультат деления суммы всех значений(X)на ихколичество (N):М = ЕХ / N.

Медиана (Me)— этозначение, выше и ниже которого количествоотличающихся значений одинаково, т. е.это центральное значение в последовательномряду данных.

Примеры: 3,5,7,9,11,13,15; Me= 9.

3,5,7,9, 11, 13, 15, 17; Me= 10. [20]

Из примеров ясно,что медиана не обязательно должнасовпадать с имеющимся замером, это точкана шкале. Совпадение происходит в случаенечетного числа значений (ответов) нашкале, несовпадение — при четном ихчисле.

Мода (Мо) —это значение, наиболее часто встречающеесяв вы­борке, т. е. значение с наибольшейчастотой.

Пример: 2, 6, 6, 8, 9,9, 9, 10; Мо = 9.

Если всё значенияв группе встречаются одинаково часто,то счи­тается, что модынет (например:1, 1, 5, 5, 8, 8).

Если два соседних значенияимеют одинаковую частоту и они большечастоты любого дру­гого значения,мода есть среднееэтих двухзначений (например: 1, 2, 2, 2, 4, 4, 4, 5, 5, 7; Мо= 3).

Если то же самое относится к двумнесмеж­ным значениям, то существуетдве моды, а группа оценок являетсяби­модальной(например:0, 1, 1, 1, 2, 3, 4, 4, 4, 7; Мо = 1 и 4).

Обычно среднееарифметическое применяется при стремлениик наибольшей точности и когда впоследствиинужно будет вычислять стандартноеотклонение. Медиана — когда в серииесть «нетипичные» данные, резко влияющиена среднее (например: 1, 3, 5, 7, 9, 26, 13). Мода— когда не нужна высокая точность, новажна быстрота опреде­ления м. ц. т.

Меры изменчивости(рассеивания, разброса) —это статисти­ческие показатели,характеризующие различия между отдельнымизна­чениями выборки.

Они позволяютсудить о степени однородности по­лученногомножества, о его компактности, а косвеннои о надежности полученных данных ивытекающих из них результатов.

Наиболееис­пользуемые в исследованияхпоказатели: размах,сред­нее отклонение, дисперсия,стандартное отклонение, полуквартилъноеотклонение.

Размах (Р) —этоинтервал между максимальным и минимальнымзначениями признака. Определяется легкои быстро, но чувствителен к случайностям,особенно при малом числе данных.

Примеры: (0, 2, 3, 5,8; Р = 8); (-0.2, 1.0, 1.4, 2.0; Р — 2,2).

Среднее отклонение(МД) — этосреднеарифметическое разницы (поабсолютной величине) между каждымзначением в выборке и ее средним: МД =Id/ N,где: d= |Х-М|; М — среднее выборки; X— конкретное значение; N — число значений.[21]

Множество всехконкретных отклонений от среднегохарактери­зует изменчивость данных,но, если их не взять по абсолютнойвеличи­не, то их сумма будет равнанулю, и мы не получим информации об ихизменчивости. МД показывает степеньскученности данных вокруг сред­него.Кстати, иногда при определении этойхарактеристики выборки вместо среднего(М) берут иные меры центральной тенденции— моду или медиану.

Дисперсия (Д) (отлат. dispersus— рассыпанный). Другой путь из­мерениястепени скученности данных предполагаетизбегание нулевой суммы конкретныхразниц (d= Х-М) не через их абсолютные величи­ны,а через их возведение в квадрат. Приэтом получают так называе­мую дисперсию:

Д = Σd2/ N — для больших выборок (N> 30);

Д = Σd2/ (N-1)— для малых выборок (N< 30).

Стандартноеотклонение (δ). Из-завозведения в квадрат отдель­ныхотклонений dпри вычислении дисперсии полученнаявеличина оказывается далекой отпервоначальных отклонений и потому недает о них наглядного представления.

Чтобы этого избежать и получитьха­рактеристику, сопоставимую сосредним отклонением, проделываютобратную математическую операцию — издисперсии извлекают квад­ратныйкорень.

Его положительное значение ипринимается за меру изменчивости,именуемую среднеквадратическим илистандартным отклонением:

МД, Д и dприменимы для интервальных и пропорционныхдан­ных. Для порядковых данных обычнов качестве меры изменчивости берутполуквартильноеотклонение (Q),именуемоееще полуквартильнымкоэффициентом илиполумеждуквартильнымразмахом. Вычис­ляетсяэтот показатель следующим образом.

Всяобласть распределе­ния данных делитсяна четыре равные части.

Если отсчитыватьна­блюдения, начиная от минимальнойвеличины на измерительной шкале (награфиках, полигонах, гистограммах отсчетобычно ведется слева направо), то перваячетверть шкалы называется первымквартилем, а точка, отделяющая его отостальной части шкалы, обозначаетсясим­волом Q,.

Вторые 25% распределения — второйквартиль, а соответ­ствующая точкана шкале — Q2.Между третьей и четвертой четвертя-[22]мираспределения расположена точка Q,.Полу квартальный коэффи­циентопределяется как половина интерваламежду первым и третьим квартилями: Q= (Q.-Q,)/ 2.

Понятно, что присимметричном распределении точка Q0совпа­дет с медианой (а следовательно,и со средним), и тогда можно вычис­литькоэффициент Qдля характеристики разброса данныхотноситель­но середины распределения.При несимметричном распределении это­гонедостаточно. И тогда дополнительновычисляют коэффициенты для левого иправого участков: Qлев=(Q2-Q,)/ 2; Qправ=(Q,— Q2)/ 2.

Меры связи

Предыдущиепоказатели, именуемые статистиками,характери­зуют совокупность данныхпо одному какому-либо признаку. Этотиз­меняющийся признак называютпеременной величиной или просто«пе­ременной». Меры связи же выявляютсоотношения между двумя пере­меннымиили между двумя выборками. Эти связи,или корреляции (от лат.

correlatio— 'соотношение, взаимосвязь') определяютчерез вы­числение коэффициентовкорреляции (R),если переменныенаходятся в линейной зависимости междусобой. Но наличие корреляции не означает,что между переменными су­ществуетпричинная (или функциональная) связь.Функциональная за­висимость— эточастный случай корреляции.

Даже еслисвязь при­чинна, корреляционныепоказатели не могут указать, какая издвух переменных причина, а какая —следствие. Кроме того, любая обнару­женнаясвязь, как правило, существует благодаряи дру­гим переменным, а не только двумрассматриваемым.

К тому же взаи­мосвязипризнаков столь сложны, что ихобусловлен­ность одной причиной врядли состоятельна, они детерминированымножеством причин.

Виды корреляции:

I.По тесноте связи:

1) Полная (совершенная):R= 1. Констатируется обязательнаявза­имозависимость между переменными.Здесь уже можно говорить о функциональнойзависимости.

2) связь не выявлена:R= 0. [23]

3) Частичная: 0

Источник: https://studfile.net/preview/3580403/page:2/

1.1.3. Основные этапы статистической обработки исходных данных

ПЕРВИЧНАЯ ОБРАБОТКА КОЛИЧЕСТВЕННЫХ ДАННЫХ И НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ

Макеты страниц

Попытаемся теперь описать общую логическую схему статистического анализа исходных данных. Для пояснения роли и места основных приемов статистического моделирования и методов первичной статистической обработки исходных данных удобно разложить эту схему на основные этапы исследования. Подобное разложение носит, конечно, условный характер.

В частности, оно не означает, что этапы осуществляются в строгой хронологической последовательности один за другим.

Более того, многие из этапов (например, этапы 4, 5 и 6) находятся, в плане хронологическом, в соотношении итерационного взаимодействия: результаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом новой информации) предыдущих этапов.

Этап 1: исходный (предварительный) анализ исследуемой реальной системы.

В результате этого анализа определяются: а) основные цели исследования на неформализованном, содержательном уровне; б) совокупность единиц, представляющая предмет статистического исследования; в) перечень отобранных из представленного специалистами априорного набора показателей, характеризующих состояние (поведение) каждого из обследуемых объектов, который предполагается использовать в данном исследрвании; г) степень формализации соответствующих записей при сборе данных; д) общее время и

трудозатраты, отведенные на планируемые работы, и коррелированные с ними временная протяженность и объем необходимого статистического обследования; е) моменты, требующие предварительной проверки перед составлением детального плана исследования (например, не всегда априори ясна возможность идентификации единиц наблюдения, в медицинских исследованиях не всегда может быть получено согласие больного следовать определенным рекомендациям медперсонала и т. п.); ж) формализованная постановка задачи, по возможности включающая вероятностную модель изучаемого явления, и природа статистических выводов, к которым должен (или может) прийти исследователь в результате переработки массива исходных данных; з) формы, используемые для сбора первичной информации и для введения ее в ЭВМ.

По затратам сил наиболее квалифицированного персонала, участвующего в работе, трудоемкость первого этапа работы весьма значительна и бывает даже сравнима с суммарной трудоемкостью всех остальных этапов при условии, что обработка проводится с помощью подходящего пакета программ.

Поэтому максимального развития заслуживают методы машинного ассистирования в проведении этой части работы.

Оно может заключаться в подсказке (с одновременной оценкой) форм документации для сбора первичной информации, методов построения контрольной или «псевдоконтрольной» групп при изучении какого-либо воздействия (что особенно актуально для медицинских приложений), подходящих моделей, в ведении тезауруса исследования и т. п.

Этап 2: составление детального плана сбора исходной статистической информации. При составлении этого плана необходимо, по возможности, учитывать полную схему дальнейшего статистического анализа, о чем часто забывают.

Априорное представление о том, как и для чего данные будут анализироваться, может оказать существенное влияние на их сбор.

При планировании особого внимания заслуживают случаи, когда: а) используется аппарат общей теории выборочных обследований (см., например,

[43]), т. е. определяется, какой должна быть выборка — случайной, пропорциональной, расслоенной и т. п.; б) производится расчет «разрешающей силы» исследования заданного объема и продолжительности (см.

, например, [127], где оценивается сверху число возможных статистически значимых ассоциаций между риск-факторами и частотой заболеваний, или [102], где предлагается простейшая модель для феноменологического описания действия лечебного фактора); в) хотя бы для части входных переменных эксперимент носит активный характер: переменные допускают фиксацию в каждом конкретном наблюдении на определенном уровне, и выбор плана обследования осуществляется с привлечением методов планирования (регрессионных) экспериментов (см., например, ). В некоторых руководствах по общей теории статистики (см., например, [64, с. 274]) этот этап называют этапом «организационно-методической подготовки». Как уже сказано выше, вопросы разработки методологии определения априорной системы показателей, характеризующих исследуемый объект или процесс, вынесены за рамки описываемых здесь этапов и должны быть отнесены к области конкретно-содержательной статистики (экономической, медицинской и т. п.).

Этап 3: сбор исходных статистических данных и их введение в ЭВМ. Одновременно в ЭВМ вносятся полные и краткие (для автоматизированного воспроизводства в таблицах) определения используемых терминов. В пакете должны быть предусмотрены специальдые меры, исключающие или резко уменьшающие возможность появления расчетов не с тем подмножеством данных или не для той подгруппы объектов.

Таким образом, независимо от того, производится ли исследователем выбор метода и плана статистического обследования или он уже располагал результатами так называемого пассивного эксперимента, к моменту определения основного инструментария статистического исследования исследователь в общем случае располагает в качестве массива исходных статистических данных временной последовательностью матриц наблюдений вида

где значение k-го признака, характеризующего состояние t-го объекта в момент времени t. Однако бывают случаи, когда случайны для каждого объекта. Так, например, может быть в медицинских исследованиях, когда

вектор, характеризующий то, как протекает обострение больного, и за один и тот же промежуток времени у различных больных может быть разное число обострений. В этом случае матрицы будут иметь для разных больных (т. е. для разных ) разную размерность.

Более того, в медицинских исследованиях отдельные координаты могут быть записаны не с помощью цифр, а текстом. Подобные особенности в представлении исходных данных характерны и для социологических и, в меньшей степени, для экономических исследований.

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных возможны случаи, когда элементом первичного наблюдения является не состояние объекта в момент а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами отнесенная к моменту времени t. В этом случае исследователь располагает в качестве массива исходных статистических данных временной последовательностью матриц размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

Очевидно, что от формы запису (1.4) можно непосредственно перейти к (1.4) (при наличии заданной метрики

в пространстве объектов и в пространстве признаков). Однозначный обратный переход от (1.4) к (1.4) без дополнительных предположений и специальных методов (скажем, многомерного шкалирования, см. [122]), в общем, невозможен. Возможны и другие формы представления геометрической структуры исходных данных, однако мы не будем здесь на них останавливаться.

В целях упрощения обозначений в наших дальнейших рассуждениях, если специально не оговорено противное, мы будем рассматривать статический вариант схемы, т. е. ситуацию, в которой нас будет интересовать массив исходных данных (1.4) или (1.4), отнесенный лишь к одному какому-то фиксированному моменту времени обозначение которого будем опускать.

Этап 4: первичная статистическая обработка данных.

В ходе первичной статистической обработки данных обычно решаются следующие задачи: а) отображение переменных, описанных текстом, в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; б) статистическое описание исходных совокупностей с определением пределов варьирования переменных; в) анализ резко выделяющихся наблюдений; г) восстановление пропущенных наблюдений; д) проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных; е) унификация типов переменных, когда с помощью различных приемов добиваются унифицированной записи всех переменных; ж) экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация сведений о природе изучаемых распределений (иногда этот этап называют процессом составления сводки и группировки [64, с. 274—275]). Кроме того, этап 4 включает в себя вычислительную реализацию решения следующих вопросов: учет размерности и алгоритмической сложности задачи и одновременно возможностей используемой ЭВМ; формулировку задачи на входном языке пакета и т. п. (см. подробнее об этом в описании этапа 6).

Остановимся на некоторых из затронутых вопросов подробнее.

Анализ резко выделяющихся наблюдений

Часто даже беглый предварительный просмотр (визуальный или автоматизированный) исходных данных (1.4) или (1.4) может вызвать у исследователя сомнения в истинности (или правомерности) отдельных наблюдений, слишком резко

выделяющихся на общем фоне.

В этих случаях возникает вопрос: вправе ли мы объяснить обнаруженные резкие отклонения в исходных данных (аномальные выбросы) лишь обычными случайными колебаниями выборки (которые обусловлены природой анализируемой генеральной совокупности) или здесь дело в существенных искажениях стандартных условий сбора статистических данных, а возможно, и в прямых ошибках регистрации (записи)? В последних двух случаях «подозрительные» наблюдения, очевидно, следует исключить из дальнейшего рассмотрения.

Единственным абсолютно надежным способом решения вопроса об исключении резко выделяющихся результатов наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались.

Однако во многих случаях проведение такого содержательного анализа объективно затруднительно или принципиально невозможно. Тогда необходимо обратиться к соответствующим формальным (статистическим) методам.

Общая логическая схема этих методов следующая: отправляясь от исходных допущений о природе анализируемой совокупности данных, исследователь задается функцией

от всех имеющихся наблюдений X, характеризующей степень аномальности (меру удаленности от основной массы наблюдений) «подозрительных» наблюдений а затем подставляет в (1.

5) реальные значения наблюдений и сравнивает величину с некоторым пороговым значением если то подозрительные наблюдения или полностью исключаются из дальнейшего рассмотрения, или их вклад уменьшается с помощью весовой функций, убывающей по мере роста степени аномальности наблюдений.

С различными вариантами методов анализа резко выделяющихся наблюдений читатель познакомится в § 11.5 (см. также [6], [76]).

Восстановление пропущенных (стертых) наблюдений

В матрицах исходных статистических данных (1.4) или

(1.4) по разным причинам (в том числе и в результате исключения резко выделяющихся наблюдений) могут быть пропуски отдельных элементов или каких-то частей строк или столбцов.

Исключать по этой причине из дальнейшего рассмотрения весь объект (столбец, в котором обнаружены пропуски) или признак (строку, в которой обнаружены пропуски) слишком расточительно с точки зрения потери полезной информации. Поэтому возникает задача наилучшего в некотором смысле восстановления пропущенных (стертых) данных.

Конкретизация критерия качества восстановления стертых данных производится в зависимости от характера последующей обработки исходных данных, т. е. в зависимости от окончательных целей исследования (см. § 11.4, а также [35], [66], [95]).

Проверка однородности нескольких порций исходных данных

Объективные условия сбора исходных статистических данных, особенно в ситуациях пассивного эксперимента, могут быть такими, что общая (-матрица наблюдений (см. (1.

4)) получается составлением -матриц (частных) наблюдений соответственно где каждая из частных матриц задает порцию исходных данных, относящихся к некоторой подсовокупности, состоящей из объектов.

При этом процессы (моменты) обследования этих совокупностей могут быть разделены в пространстве (во времени).

Очевидно, перед тем как подвергать исходные данные основной статистической обработке (т. е.

применять к ним те или иные методы прикладного статистического анализа, выбор которых обусловлен конечными целями исследования), исследователь должен ответить на вопрос: правомерно ли объединение имеющихся в его распоряжении порций (выборок) в один общий массив или же каждая из порций имеет свою специфику и, следовательно, и обрабатывать их надо по отдельности? В рамках математикостатистических моделей этот вопрос сводится к выяснению помощью соответствующих статистических критериев), можно ли считать порции данных различными выборками из одной и той же генеральной совокупности (см., например, [12]). Очевидно, что если причиной дробления на порции массива была временная разделенность соответствующих порций, то речь идет о статистической проверке стационарности соответствующих многомерных временных рядов.

Применение многих статистических методов является правомерным лишь в ситуациях, когда справедливо допущение о статистической независимости обрабатываемого ряда наблюдений Этот же вопрос возникает и применительно к рядам Поэтому, перед тем как подвергнуть имеющиеся результаты наблюдения основной статистической обработке, необходимо выяснить (с помощью соответствующих статистических критериев (см. § 11.3)), являются ли они статистически независимыми или их следует рассматривать как последовательности взаимозависимых величин.

Унификация типа переменных.

Одна из сложностей автоматизированного анализа информации заключается в том, что среди компонент анализируемого многомерного признака могут быть показатели трех разных типов: количественные, качественные (порядковые, ординальные) и классификационные (номинальные). Их определение и сущность, а также основные формы записи их наблюдаемых значений приведены в § 5.3 и 10.2.

В связи с этим возникает вопрос унификации записи единичного наблюдения, снятого с объекта i.

В соответствии с одним из вариантов решения этого вопроса многомерное наблюдение в унифицированной записи представляется вектор-столбцом размерности где — число градаций (интервалов группирования, уровней качества или однородных групп) признака причем компонентами этого вектор-столбца могут быть только нули или единицы. При таком подходе к достижению единообразия записи наблюдений многомерного признака смешанной природы мы вынуждены мириться, во-первых, с элементами субъективизма в выборе способов разбиения диапазонов изменения анализируемых количественных признаков на интервалы группирования и, во-вторых, с определенной потерей информативности исходных данных, связанной с переходом от индивидуальных к группированным значениям по- количественным переменным.

В качестве альтернативного подхода к способу унификации записи исходных данных может быть использована идея, прямо противоположная той, на основании которой построен только что описанный прием. В частности, руководствуясь некоторыми дополнительными соображениями (и допущениями), исследователь пытается преобразовать

качественные и классификационные переменные в количественные, используя процесс так называемой «оцифровки», или шкалирования, неколичественных переменных, а также некоторые специальные модели (Терстоуна, Лазарсфельда и др.), см. § 10.2, а также [31], [57], [88], [134].

Экспериментальный анализ закона распределения исследуемой генеральной совокупности и вопрос ее подходящей параметризации

Эта часть предварительной статистической обработки исходного массива данных, представленных в виде (1.4), включает в себя вычисление основных числовых характеристик распределения: среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, а в многомерном случае — и элементов выборочной ковариационной матрицы.

Кроме того, исследователь проводит численный и графический анализ одномерных законов распределения рассматриваемых показателей, заключающийся в построении соответствующих полигонов частот, гистограмм, эмпирических функций распределения.

Результаты этого экспериментального анализа, дополненные априорными сведениями о природе анализируемой генеральной совокупности, зачастую оказываются достаточными для формулировки одной или нескольких конкурирующих гипотез об общем (параметрическом) виде закона распределения вероятностей, задающего эту генеральную совокупность.

Не следует пренебрегать такой возможностью, поскольку знание общего вида вероятностного распределения в исследуемой генеральной совокупности позволяет сделать наилучший выбор метода статистического оценивания параметров этого распределения, а также метода последующей основной статистической обработки массива исходных данных (из набора конкурирующих методов).

Как известно, выяснение непротиворечивости высказанной исследователем гипотезы об общем виде распределения анализируемых наблюдений с природой и спецификой имеющихся в распоряжении исследователя конкретных исходных данных осуществляется с помощью тех или иных статистических критериев согласия (см. § 10.3 и 11.1).

Этап 5: составление детального плана вычислительного анализа материала. Этап начинается с составления справки по собранному материалу и результатам предварительного анализа. Определяются основные группы, для которых будет проводиться дальнейший анализ. Пополняется и уточняется тезаурус содержательных понятий.

Четко описывается блок-схема анализа с указанием привлекаемых методов. Формулируется оптимизационный критерий, на основании которого выбирается один из альтернативных методов (или одно из альтернативных семейств методов) основной статистической обработки исходных данных (см. § 1.2).

Этап 6: вычислительная реализация основной части статистической обработки данных. Основная забота исследователя на этом этапе — эффективное управление вычислительным процессом путем формулировки задачи обработки и описания данных на входном языке пакета.

Учитываются размерность задачи, алгоритмическая сложность вычислительного процесса, возможности используемой ЭВМ (длина слова, быстродействие, объем оперативной памяти, организация базы данных и т. п.

) и, наконец, особенности данных (степень обусловленности используемых при реализации линейных процедур матриц, надежность априорных оценок параметров и т. п.).

Этап 7: подведение итогов исследования. Этап начинается с построения формального статистического отчета о проведенном исследовании.

При интерпретации результатов применения статистических процедур (оценка параметров, проверка гипотез, отображения в пространство меньшей размерности, классификация и т. п.

) учитывается как место этих процедур в блок-схеме анализа, так и соотношение объемов используемых выборок, размерности пространства наблюдений, числа и значений параметров. Теоретически эти вопросы, несмотря на их крайнюю актуальность, разработаны довольно мало.

Как исключение можно назвать работы [27], [58], [59]. В тех случаях, когда при интерпретации результатов вычислений нельзя опереться на теоретические утверждения, может оказаться полезным использование имитационного статистического моделирования (см. § 3.3 и 6.3).

Затем результаты исследования, его основные выводы формулируются в содержательных терминах.

Если исследование проводилось в рамках математико-статистических методов и моделей, то его выводы формулируются в терминах оценок неизвестных параметров анализируемой системы или в видеответа на вопрос о справедливости проверяемой статистической гипотезы и сопровождаются гарантируемыми количественными оценками степени их достоверности. Если же исследование осуществлялось средствами

анализа данных (т. е. в рамках второго подхода), то его выводы не претендуют на вероятностную интерпретацию.

В заключение проверяется, в какой мере достигнуты намеченные на этапе 1 содержательные цели работы, и, если достигнуты не все из них, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

В некоторых руководствах по общей теории статистики (см., например, [64]) этапы 5, 6 и 7 объединены в одном этапе, названном «Обработка и анализ».

Резюмируя описание общей логической схемы статистического анализа исходных данных, отметим, что основные приемы статистического моделирования и методы первичной статистической обработки являются главными в ходе реализации важнейших этапов 1, 4 и 7, а также по мере необходимости могут привлекаться при реализации этапов 3, 5 и 6.

Источник: http://scask.ru/r_book_om.php?id=4

Scicenter1
Добавить комментарий