Статистическая обработка: одна выборка

Краткое описание:

Библиографическая ссылка для цитирования: Сазонов В.Ф. Статистическая обработка: одна выборка [Электронный ресурс] // Кинезиолог, 2009-2021: [сайт]. Дата обновления: 22.10.2021. URL: http://kineziolog.su/content/statisticheskaya-obrabotka-odna-vyborka (дата обращения: __.__.201_). _________________________Статистическая обработка одной выборки данных. Понятие нормального распределения. Представление результатов статистической обработки выборки (характеристика выборки). Среднее значение, частотное распределение.

Что можно сделать, если в вашем распоряжении только одна выборка, полученная в результате единственного обследования? Или же у вас имеется несколько выборок, но вы хотите вначале обработать только одну из них или всё, но по очереди?

Итак, у вас есть данные обследования, полученные только на одной группе испытуемых (подопытных). И вам надо их как-то упорядочить, обработать, получить какие-то обобщённые данные, сделать выводы.

Надо начать с самого простого и сделать это можно по готовому шаблону: Образец стат.обработки Одной выборки + Шаблон для вставки и обработки своих данных

Вот что можно сделать с вашими данными, полученными на одной группе, в плане статистической обработки:

№	Действие	Результат
1.	Сортировка данных по нарастанию (или убыванию).	Получили упорядоченный список. Сразу видно, какое значение самое большое, а какое самое маленькое.
2.	Построение интервальной шкалы. Получение гистограммы.	Это важный момент. Обычно делят шкалу показателей на 5-7 интервалов и считают, сколько полученных нами показателей в выборке попадают в каждый интервал. За счёт этого мы переходим от измеренных нами количественных показателей к частотам встречаемости определённых показателей в данной выборке, т.е. к *частотному распределению. Гистограмма - это диаграмма, отражающая частотное распределение признака в заданных интервалах значений. Можно просто разделить шкалу на равные интервалы: так, чтобы получилось 5 интервалов. А можно разделить её на интервалы "со смыслом" для каждого интервала в соответствии с количественным значением признака, например: 1) высокое, 2) выше среднего, 3) среднее, 4) ниже среднего, 5) низкое. Построение гистограммы онлайн: Перейти*
3.	Определение вида распределения.	Зная вид распределения, мы можем выбрать подходящий статистический критерий.
4.	Проверка распределения "на нормальность ".	Нормальное / ненормальное. Соответственно методы: параметрические (для нормального) / непараметрические.
5.	Определение "выпадов".	Находим и удаляем из выборки чересчур большие и чересчур маленькие показатели. Получаем более однородную группу данных с более красивыми обобщёнными статистическими параметрами. Учтите: в данном случае это не подтасовка результатов, а полезный приём статистической обработки!
6.	Сравнение полученного эмпирического распределения с предполагаемым теоретическим.	Подтвердждаем или опровергаем свою гипотезу о соответствиии распределения, полученного в результате наших замеров, предполагаемому распределению. Для этого нужно сравнить распределение, полученное в реальной выборке, с теоретически ожидаемым распределением.
7.	Обобщённая характеристика выборки по среднему значению.	Характеризуем выборку тремя основными показателями (если предварительно доказали для неё нормальное распределение): 1. Количество замеров: n=... 2. Среднее значение: Xср.=... 3. Стандартное отклонение: sотклон.=±... Получается примерно так: n=19; 14,8±3,49 Это и есть характеристика вашей выборки, её обобщённые показатели. Иногда также указывают четвёртый показатель: 4. Ошибка среднего значения: sсреднего=±... Кстати, во многих исследовательских работах авторы любят указывать именно этот показатель (ошибку среднего) вместо стандартного отклонения. Так выглядит более красиво, т.к. ошибка среднего всегда получается более маленькой, чем стандартное отклонение. Но это неправильно: вашу конкретную выборку характеризует именно стандартное отклонение, а ошибка среднего является более обобщённым показателем, который характеризует вариации множества выборок, т.е. относится уже к характеристике генеральной совокупности. Лучше привести ошибку среднего дополнительно после характеристике вашей выборки. Получится примерно так: n=19; 14,8±3,49; sсреднего=±0,57 Можно посмотреть образец и воспользоваться готовым шаблоном, скачав прикреплённый ниже файл Obrazets_1vyborkaSrednijeZnachenija.xls (но его могут видеть на этой странице только зарегистрированные пользователи) Или посмотреть прямо в Интернете: Образец стат.обработки Одной выборки + Шаблон для вставки и обработки своих данных
8.	Обобщённая характеристика выборки по частоте встречаемости показателей (частотное распределение).	В этом случае мы характеризуем выборку частотами присутствующих в ней более мелких подгрупп. Для этого используется один из взаимосвязанных вариантов: либо проценты, либо доли единицы. Естественно, что сумма всех частот должна соответственно составлять либо 100%, либо 1 (единицу). Допустим, мы обследовали рост 25 человек, затем разделили шкалу, полученную по показателям их роста на 5 интервалов: 1) 163-165 см, 2) 166-168 см, 3) 169-171 см, 4) 172-174 см, 5) 173-175 см. В каждом интервале оказалась подгруппа из какого-то количества людей: 1) 3, 2) 5, 3) 7, 4) 6, 5) 4. Получится примерно так: n=25, подгруппа 1 = 12%, подгруппа 2 = 20%, подгруппа 3 = 28%, подгруппа 4 = 24%, подгруппа 5 = 16% (в сумме проценты всех 5 групп дают 100%). Или так: n=25, подгруппа 1 = 0,12, подгруппа 2 = 0,2, подгруппа 3 = 0,28, подгруппа 4 = 0,24, подгруппа 5 = 0,16 (в сумме все доли всех 5 групп дают 1 - единицу) Часто как раз используется разделение именно на 5 групп по степени проявления признака: 1) низкое значение, 2) ниже среднего, 3) среднее, 4) выше среднего, 5) высокое значение признака. Частотное распределение может оказаться единственно возможной характеристикой вашей выборки, если вы исследуете не количественные признаки, а качественные. Например, цвет волос у испытуемых. Получится примерно так: n=25, рыжие = 12%, русые = 20%, блондинки = 28%, шатенки = 24%, брюнетки = 16% (в сумме проценты всех 5 групп дают 100%).
9.	Сравнение частотного расределения, обнаруженного в вашей выборке, с теоретически предполагаемым распределением признака.	Вы определите достоверность различий между реальным распределением показателей в вашей выборке (вашем опыте, обследовании) и теоретически ожидаемым распределением. В результате сможете сделать вывод: различия достоверны (или недостоверны), т.е. соответствуют ли ваши данные ожидаемым результатам или нет. Получится примерно так: p<0,05, различия недостоверны. Это означает, что вы получили именно то, что и ожидали, что предполагали теоретически. Если же подтвердится достоверность различий, то это будет означать, что вы получили совсем не то, что предполагали. Сопоставление эмпирического (полученного в вашем опыте) распределения признака с теоретическим Для этого подойдут три метода статистической обработки: 1. χ² - критерий Пирсона хи-квадрат Учтите, количество данных в вашей группе должно быть достаточно большим: п≥30. При п<30 критерий χ² дает весьма приближенные значения. Точность критерия повышается при больших п. 2. λ - критерий Колмогорова-Смирнова 3. m - биномиальный критерий

Нормальное распределение

Нормальность распределения ещё надо доказать (смотри: нормальное распределение). Если доказали, что распределение нормальное - можно кратко охарактеризовать группу. Характерное свойство нормального распределения с характерной колоколообразной формой кривой состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95% всех значений.

Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из проверенных на опыте истин в отношении действительности. Его можно рассматривать как один из фундаментальных законов природы. Для получения точной формы нормального распределения (характерная "колоколообразная кривая") достаточно задать только два параметра: среднее значение и стандартное отклонение. Вот почему при нормальном распределении любую выборку (обследованную группу) можно обобщённо охарактеризовать этими двумя параметрами. Правда, желательно ещё добавить к ним количество обследованных, т.е. объём вашей выборки. Жаль, что некоторые начинающие исследователи считают, что вполне достаточно получить и указать только одно среднее значение. Они не правы: выборку характеризуют три показателя, которые необходимо указывать в результатах своего исследования.

Характеристика группы (выборки) при нормальном распределении:

1. Среднее значение Ср.знач. = (x_i)/n

2. Стандартное отклонение выборки s = [(x_i-xbar)²/n-1]^1/2

xbar (х с чёрточкой сверху: x ) - это выборочное среднее
n - число наблюдений в выборке.

Широко известно также такое понятие как σ ("сигма"). Это тоже стандартное отклонение. Но это стандартное отклонение всей генеральной совокупности, а не вашей выборки.

= [(x_i-µ)²/N]^1/2

где

µ - среднее генеральной совокупности (например, популяции)
N - размер генеральной совокупности (популяции).

3. Количество данных в вашей группе (выборке): n. Это всегда целое число. Синонимы: число наблюдений, объем выборки.

В итоге мы характеризуем обследованную группу (выборку) тремя показателями примерно так:

25,6±1,4; n=48

Это означает следующее: в выборке, состоящей из 48 значений, оцениваемый параметр имеет величину в среднем 25,6 единиц, при стандартном отклонении в 1,4 единицы.

Таким образом, мы охарактеризовали этими тремя показателями нашу выборку. (Ещё раз подчеркну: при нормальном распределении!)

Прикрепленный файл	Размер
Obrazets_1vyborkaSrednijeZnachenija.xls	24 КБ

Метки:

мат.статистика

Поделиться с друзьями:

Ваша оценка:

Статистическая обработка: одна выборка

Комментарии

Комментарии к этой теме

Реклама

Притча наудачу:

Поддержка сайта

Вход на сайт

Вы здесь

Статистическая обработка: одна выборка

Комментарии

Комментарии к этой теме

Реклама

Поиск

Притча наудачу:

Поддержка сайта