Достоверность статистическая. Оценка достоверности результатов статистического исследования

Статистическая значимость

Результаты, полученные с помощью определенной процедуры исследования, называют статистически значимыми , если вероятность их случайного появления очень мала. Эту концепцию можно проиллюстрировать на примере кидания монеты. Предположим, что монету подбросили 30 раз; 17 раз выпал «орел» и 13 раз выпала «решка». Является ли значимым отклонение этого результата от ожидаемого (15 выпадений «орла» и 15 - «решки»), или это отклонение случайно? Чтобы ответить на этот вопрос, можно, например, много раз кидать ту же монету по 30 раз подряд, и при этом отмечать, сколько раз повторится соотношение «орлов» и «решек», равное 17:13. Статистический анализ избавляет нас от этого утомительного процесса. С его помощью после первых 30 киданий монеты можно произвести оценку возможного числа случайных выпадений 17 «орлов» и 13 «решек». Такая оценка называется вероятностным утверждением.

В научной литературе по индустриально-организационной психологии вероятностное утверждение в математической форме обозначается выражением р (вероятность) < (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р < 0,01). Этот факт важен для понимания литературы, но не следует считать, что он говорит о бессмысленности проведения наблюдений, не соответствующих этим стандартам. Так называемые незначимые результаты исследований (наблюдения, которые можно получить случайно более одного или пяти раз из 100) могут быть весьма полезными для выявления тенденций и как руководство к будущим исследованиям.

Необходимо также заметить, что не все психологи соглашаются с традиционными стандартами и процедурами (например, Cohen, 1994; Sauley & Bedeian, 1989). Вопросы, связанные с измерениями, сами по себе являются главной темой работы многих исследователей, изучающих точность методов измерений и предпосылки, которые лежат в основе существующих методов и стандартов, а также разрабатывают новые медики и инструменты. Может быть, когда-нибудь в будущем исследования в этой власти приведут к изменению традиционных стандартов оценки статистической значимости, и эти изменения завоюют всеобщее признание. (Пятое отделение Американской психологической ассоциации объединяет психологов, которые специализируются на изучении оценок, измерений и статистики.)

В отчетах об исследованиях вероятностное утверждение, такое как р < 0,05, связано некоторой статистикой, то есть числом, которое получено в результате проведения определенного набора математических вычислительных процедур. Вероятностное подтверждение получают путем сравнения этой статистики с данными из специальных таблиц, которые публикуются для этой цели. В индустриально-организационных психологических исследованиях часто встречаются такие статистики, как r, F, t, г> (читается «хи квадрат») и R (читается «множественный R»). В каждом случае статистику (одно число), полученную в результате анализа серии наблюдений, можно сравнить числами из опубликованной таблицы. После этого можно сформулировать вероятностное утверждение о вероятности случайного получения этого числа, то есть сделать вывод о значимости наблюдений.

Для понимания исследований, описанных в этой книге, достаточно иметь ясное представление о концепции статистической значимости и необязательно знать, как рассчитываются упомянутые выше статистики. Однако было бы полезно обсудить одно предположение, которое лежит в основе всех этих процедур. Это предположение о том, что все наблюдаемые переменные распределяются приблизительно по нормальному закону. Кроме того, при чтении отчетов об индустриально-организационных психологических исследованиях часто встречаются еще три концепции, которые играют важную роль - во-первых, корреляция и корреляционная связь, во-вторых, детерминант/ предсказывающая переменная и «ANOVA» (дисперсионный анализ), в-третьих, группа статистических методов под общим названием «метаанализ».

Задачей статистического исследования является выявление закономерностей, лежащих в природе исследуемых явлений. Показатели и средние величины должны служить отображением действительности, для чего необходимо определять степень их достоверности. Правильное отображение выборочной совокупностью генеральной совокупности называется репрезентативностью. Мерой точности и достоверности выборочных статистических величин являются средние ошибки представительности (репрезентативности), которые зависят от численности выборки и степени разнообразия выборочной совокупности по исследуемому признаку.

Поэтому для определения степени достоверности результатов статистического исследования необходимо для каждой относительной и средней величины вычислить соответствующую среднюю ошибку. Средняя ошибка показателя m p вычисляется по формуле:

При числе наблюдений менее 30, где

P - величина показателя в процентах, промилле и т.д.

q - дополнение этого показателя до 100, если он в процентах, до 1000, если % 0 и т.д. (т.е. q = 100–P, 1000–P и т.д.)

Например, известно, что в районе в течение года заболело дизентерией 224 человека. Численность населения ― 33000. Показатель заболеваемости дизентерией на

Средняя ошибка этого показателя

Для решения вопроса о степени достоверности показателя определяют доверительный коэффициент (t), который равен отношению показателя к его средней ошибке, т.е.

В нашем примере

Чем выше t, тем больше степень достоверности. При t=1, вероятность достоверности показателя равна 68,3%, при t=2 ― 95,5%, при t=3 ― 99,7%. В медико-статистических исследованиях обычно используют доверительную вероятность (надежность), равную 95,5%–99,0%, а в наиболее ответственных случаях – 99,7%. Таким образом в нашем примере показатель заболеваемости достоверен.

При числе наблюдений менее 30, значение критерия определяется по таблице Стьюдента. Если полученная величина будет выше или равна табличной ― показатель достоверен. Если ниже ― не достоверен.

При необходимости сравнения двух однородных показателей достоверность их различий определяется по формуле:

(от большего числа отнимают меньшее),

где P 1 –P 2 ― разность двух сравниваемых показателей,

― средняя ошибка разности двух показателей.

Например, в районе Б в течении года заболело дизентерией 270 человек. Население района ― 45000. Отсюда заболеваемость дизентерией:

т.е. показатель заболеваемости достоверен.

Как видно, заболеваемость в районе Б ниже, чем в районе А. Определяем по формуле достоверность разницы двух показателей:

При наличии большого числа наблюдений (более 30) разность показателей является статистически достоверной, если t = 2 или больше. Таким образом, в нашем примере заболеваемость в районе А достоверно выше, т.к. доверительный коэффициент (t) больше 2.

Зная величину средней ошибки показателя, можно определить доверительные границы этого показателя в зависимости от влияния причин случайного характера. Доверительные границы определяются по формуле:

P ― показатель;

m ― его средняя ошибка;

t ― доверительный коэффициент выбирается в зависимости от требуемой величины надежности: t=1 соответствует надежности результата в 68,3% случаев, t=2 – 95,5%, t=2,6 – 99%, t=3 – 99,7%, t=3,3 – 99,9Величина называется предельной ошибкой.

Например, в районе Б показатель заболеваемости дизентерией с точностью до 99,7 9 % может колебаться в связи со случайными факторами в пределах т.е. от 49,1 до 70,9 .

Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. (Дж. Бокс)

Основные термины и понятия медицинской статистики

В данной статье мы приведем некоторые ключевые понятия статистики, актуальные при проведении медицинских исследований. Более подробно термины разбираются в соответствующих статьях.

Вариация

Определение. Степень рассеяния данных (значений признака) по области значений

Вероятность

Определение . Вероятность(probability) - степень возможности проявления какого - либо определённого события в тех или иных условиях.

Пример. Поясним определение термина на предложении «Вероятность выздоровления при применении лекарственного препарата Aримидекс равна 70%». Событием является «выздоровление больного», условием «больной принимает Аримидекс», степенью возможности - 70% (грубо говоря, из 100 человек, принимающих Аримидекс, выздоравливают 70).

Кумулятивная вероятность

Определение. Кумулятивная вероятность выживания (Cumulative Probability of surviving) в момент времени t - это то же самое, что доля выживших пациентов к этому моменту времени.

Пример. Если говорится, что кумулятивная вероятность выживания после проведения пятилетнего курса лечения равна 0.7, то это значит, что из рассматриваемой группы пациентов в живых осталось 70% от начального количества, а 30% умерло. Другими словами, из каждой сотни человек 30 умерло в течение первых 5 лет.

Время до события

Определение. Время до события - это время, выраженное в некоторых единицах, прошедшее с некоторого начального момента времени до наступления некоторого события.

Пояснение. В качестве единиц времени в медицинских исследованиях выступают дни, месяцы и годы.

Типичные примеры начальных моментов времени:

    начало наблюдения за пациентом

    проведение хирургического лечения

Типичные примеры рассматриваемых событий:

    прогрессирование болезни

    возникновение рецидива

    смерть пациента

Выборка

Определение. Часть популяции, полученная путем отбора.

По результатам анализа выборки делают выводы о всей популяции, что правомерно только в случае, если отбор был случайным. Поскольку случайный отбор из популяции осуществить практически невозможно, следует стремиться к тому, чтобы выборка была по крайней мере репрезентативна по отношению к популяции.

Зависимые и независимые выборки

Определение. Выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам - зависимые (связные, парные) выборки.

Гипотеза

Двусторонняя и односторонняя гипотезы

Сначала поясним применение термина гипотеза в статистике.

Цель большинства исследований - проверка истинности некоторого утверждения. Целью тестирования лекарственных препараторов чаще всего является проверка гипотезы, что одно лекарство эффективнее другого (например, Аримидекс эффективнее Тамоксифена).

Для предания строгости исследования, проверяемое утверждение выражают математически. Например, если А - это количество лет, которое проживёт пациент, принимающий Аримидекс, а Т -это количество лет, которое проживёт пациент, принимающий Тамоксифен, то проверяемую гипотезу можно записать как А>Т.

Определение. Гипотеза называется двусторонней (2-sided), если она состоит в равенстве двух величин.

Пример двусторонней гипотезы: A=T.

Определение. Гипотеза называется односторонней (1-sided),если она состоит в неравенстве двух величин.

Примеры односторонних гипотез:

Дихотомические (бинарные) данные

Определение. Данные, выражаемые только двумя допустимыми альтернативными значениями

Пример: Пациент «здоров» - «болен». Отек "есть" - "нет".

Доверительный интервал

Определение. Доверительный интервал (confidence interval) для некоторой величины - это диапазон вокруг значения величины, в котором находится истинное значение этой величины (с определенным уровнем доверия).

Пример. Пусть исследуемой величиной является количество пациентов в год. В среднем их количество равно 500, а 95% -доверительный интервал - (350, 900). Это означает, что, скорее всего (с вероятностью 95%), в течение года в клинику обратятся не менее 350 и не более 900 человек.

Обозначение. Очень часто используются сокращение: ДИ 95 % (CI 95%) - это доверительный интервал с уровнем доверия 95%.

Достоверность, статистическая значимость (P - уровень)

Определение. Статистическая значимость результата - это мера уверенности в его "истинности".

Любое исследование проходит на основе лишь части объектов. Исследование эффективности лекарственного препарата проводится на основе не вообще всех больных на планете, а лишь некоторой группы пациентов (провести анализ на основе всех больных просто невозможно).

Предположим, что в результате анализа был сделан некоторый вывод (например, использование в качестве адекватной терапии препарата Аримидекс в 2 раза эффективнее, чем препарата Тамоксифен).

Вопрос, который необходимо при этом задавать: "Насколько можно доверять этому результату?".

Представьте, что мы проводили исследование на основе только двух пациентов. Конечно же, в этом случае к результатам нужно относиться с опасением. Если же были обследовано большое количество больных (численное значение «большого количества» зависит от ситуации), то сделанным выводам уже можно доверять.

Так вот, степень доверия и определяется значением p-уровня (p-value).

Более высокий p- уровень соответствует более низкому уровню доверия к результатам, полученным при анализе выборки. Например, p- уровень, равный 0.05 (5%) показывает, что сделанный при анализе некоторой группы вывод является лишь случайной особенностью этих объектов с вероятностью только 5%.

Другими словами, с очень большой вероятностью (95%) вывод можно распространить на все объекты.

Во многих исследованиях 5% рассматривается как приемлемое значение p-уровня. Это значит, что если, например, p= 0.01, то результатам доверять можно, а если p=0.06, то нельзя.

Исследование

Проспективное исследование - это исследование, в котором выборки выделяются на основе исходного фактора, а в выборках анализируется некоторый результирующий фактор.

Ретроспективное исследование - это исследование, в котором выборки выделяются на основе результирующего фактора, а в выборках анализируется некоторый исходный фактор.

Пример. Исходный фактор - беременная женщина моложе/старше 20 лет. Результирующий фактор - ребёнок легче/тяжелее 2,5 кг. Анализируем, зависит ли вес ребёнка от возраста матери.

Если мы набираем 2 выборки, в одной - матери моложе 20 лет, в другой - старше, а затем анализируем массу детей в каждой группе, то это проспективное исследование.

Если мы набираем 2 выборки, в одной - матери, родившие детей легче 2,5 кг, в другой - тяжелее, а затем анализируем возраст матерей в каждой группе, то это ретроспективное исследование (естественно, такое исследование можно провести, только когда опыт закончен, т.е. все дети родились).

Исход

Определение. Клинически значимое явление, лабораторный показатель или признак, который служит объектом интереса исследователя. При проведении клинических испытаний исходы служат критериями оценки эффективности лечебного или профилактического воздействия.

Клиническая эпидемиология

Определение. Наука, позволяющая осуществлять прогнозирование того или иного исхода для каждого конкретного больного на основании изучения клинического течения болезни в аналогичных случаях с использованием строгих научных методов изучения больных для обеспечения точности прогнозов.

Когорта

Определение. Группа участников исследования, объединенных каким-либо общим признаком в момент ее формирования и исследуемых на протяжении длительного периода времени.

Контроль

Контроль исторический

Определение. Контрольная группа, сформированная и обследованная в период, предшествующий исследованию.

Контроль параллельный

Определение. Контрольная группа, формируемая одновременно с формированием основной группы.

Корреляция

Определение. Статистическая связь двух признаков (количественных или порядковых), показывающая, что большему значению одного признака в определенной части случаев соответствует большее - в случае положительной (прямой) корреляции - значение другого признака или меньшее значение - в случае отрицательной (обратной) корреляции.

Пример. Между уровнем тромбоцитов и лейкоцитов в крови пациента обнаружена значимая корреляция. Коэффициент корреляции равен 0,76.

Коэффициент риска (КР)

Определение. Коэффициент риска (hazard ratio) - это отношение вероятности наступления некоторого («нехорошего») события для первой группы объектов к вероятности наступления этого же события для второй группы объектов.

Пример. Если вероятность появления рака лёгких у некурящих равна 20%, а у курильщиков - 100%, то КР будет равен одной пятой. В этом примере первой группой объектов являются некурящие люди, второй группой - курящие, а в качестве «нехорошего» события рассматривается возникновение рака лёгких.

Очевидно, что:

1) если КР=1, то вероятность наступления события в группах одинаковая

2) если КР>1, то событие чаще происходит с объектами из первой группы, чем из второй

3) если КР<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-анализ

Определение. С татистический анализ, обобщающий результаты нескольких исследований, исследующих одну и ту же проблему (обычно эффективность методов лечения, профилактики, диагностики). Объединение исследований обеспечивает большую выборку для анализа и большую статистическую мощность объединяемых исследований. Используется для повышения доказательности или уверенности в заключении об эффективности исследуемого метода.

Метод Каплана - Мейера (Множительные оценки Каплана - Мейера)

Этот метод был придуман статистиками Е.Л.Капланом и Полем Мейером.

Метод используется для вычисления различных величин, связанных с временем наблюдения за пациентом. Примеры таких величин:

    вероятность выздоровления в течении одного года при применении лекарственного препарата

    шанс возникновения рецидива после операции в течении трёх лет после операции

    кумулятивная вероятность выживания в течение пяти лет среди пациентов с раком простаты при ампутации органа

Поясним преимущества использования метода Каплана - Мейера.

Значение величин при «обычном» анализе (не использующем метод Каплана-Мейера) рассчитываются на основе разбиения рассматриваемого временного интервала на промежутки.

Например, если мы исследуем вероятность смерти пациента в течение 5 лет, то временной интервал может быть разделён как на 5 частей (менее 1 года, 1-2 года, 2-3 года, 3-4 года, 4-5 лет), так и на 10 (по полгода каждый), или на другое количество интервалов. Результаты же при разных разбиениях получатся разные.

Выбор наиболее подходящего разбиения - непростая задача.

Оценки значений величин, полученных по методу Каплана- Мейера не зависят от разбиения времени наблюдения на интервалы, а зависят только от времени жизни каждого отдельного пациента.

Поэтому исследователю проще проводить анализ, да и результаты нередко оказываются качественней результатов «обычного» анализа.

Кривая Каплана -Мейера (Kaplan - Meier curve)- это график кривой выживаемости, полученной по методу Каплана-Мейера.

Модель Кокса

Эта модель была придумана сэром Дэвидом Роксби Коксом (р.1924), известным английским статистиком, автором более 300 статей и книг.

Модель Кокса используется в ситуациях, когда исследуемые при анализе выживаемости величины зависят от функций времени. Например, вероятность возникновения рецидива через t лет (t=1,2,…), может зависеть от логарифма времени log(t).

Важным достоинством метода, предложенного Коксом, является применимость этого метода в большом количестве ситуаций (модель не накладывает жестких ограничений на природу или форму распределения вероятностей).

На основе модели Кокса можно проводить анализ (называемый анализом Кокса (Cox analysis)), результатом проведения которого является значение коэффициента риска и доверительного интервала для коэффициента риска.

Непараметрические методы статистики

Определение. Класс статистических методов, которые используются главным образом для анализа количественных данных, не образующих нормальное распределение, а также для анализа качественных данных.

Пример. Для выявления значимости различий систолического давления пациентов в зависимости от типа лечения воспользуемся непараметрическим критерием Манна-Уитни.

Признак (переменная)

Определение. Х арактеристика объекта исследования (наблюдения). Различают качественные и количественные признаки.

Рандомизация

Определение. Способ случайного распределения объектов исследования в основную и контрольную группы с использованием специальных средств (таблиц или счетчика случайных чисел, подбрасывания монеты и других способов случайного назначения номера группы включаемому наблюдению). С помощью рандомизации сводятся к минимуму различия между группами по известным и неизвестным признакам, потенциально влияющим на изучаемый исход.

Риск

Атрибутивный - дополнительный риск возникновения неблагоприятного исхода (например, заболевания) в связи с наличием определенной характеристики (фактора риска) у объекта исследования. Это часть риска развития болезни, которая связана с данным фактором риска, объясняется им и может быть устранена, если этот фактор риска устранить.

Относительный риск - отношение риска возникновения неблагоприятного состояния в одной группе к риску этого состояния в другой группе. Используется в проспективных и наблюдательных исследованиях, когда группы формируются заранее, а возникновение исследуемого состояния ещё не произошло.

Скользящий экзамен

Определение. Метод проверки устойчивости, надежности, работоспособности (валидности) статистической модели путем поочередного удаления наблюдений и пересчета модели. Чем более сходны полученные модели, тем более устойчива, надежна модель.

Событие

Определение. Клинический исход, наблюдаемый в исследовании, например возникновение осложнения, рецидива, наступление выздоровления, смерти.

Стратификация

Определение. М етод формирования выборки, при котором совокупность всех участников, соответствующих критериям включения в исследование, сначала разделяется на группы (страты) на основе одной или нескольких характеристик (обычно пола, возраста), потенциально влияющих на изучаемый исход, а затем из каждой из этих групп (страт) независимо проводится набор участников в экспериментальную и контрольную группы. Это позволяет исследователю соблюдать баланс важных характеристик между экспериментальной и контрольной группами.

Таблица сопряженности

Определение. Таблица абсолютных частот (количества) наблюдений, столбцы которой соответствуют значениям одного признака, а строки - значениям другого признака (в случае двумерной таблицы сопряженности). Значения абсолютных частот располагаются в клетках на пересечении рядов и колонок.

Приведем пример таблицы сопряженности. Операция на аневризме была сделана 194 пациентам. Известен показатель выраженности отека у пациентов перед операцией.

Отек\ Исход

нет отека 20 6 26
умеренный отек 27 15 42
выраженный отек 8 21 29
m j 55 42 194

Таким образом, из 26 пациентов, не имеющих отека, после операции выжило 20 пациентов, умерло - 6 пациентов. Из 42 пациентов, имеющих умеренный отек выжило 27 пациентов, умерло - 15 и т.д.

Критерий хи-квадрат для таблиц сопряженности

Для определения значимости (достоверности) различий одного признака в зависимости от другого (например, исхода операции в зависимости от выраженности отека) применяется критерий хи-квадрат для таблиц сопряженности:


Шанс

Пусть вероятность некоторого события равна p. Тогда вероятность того, что событие не произойдёт равна 1-p.

Например, если вероятность того, что больной останется жив спустя пять лет равна 0.8 (80%), то вероятность того, что он за этот временной промежуток умрёт равна 0.2 (20%).

Определение. Шанс - это отношение вероятности того, что события произойдёт к вероятности того, что событие не произойдёт.

Пример. В нашем примере (про больного) шанс равен 4, так как 0.8/0.2=4

Таким образом, вероятность выздоровления в 4 раза больше вероятности смерти.

Интерпретация значения величины.

1) Если Шанс=1, то вероятность наступления события равна вероятности того, что событие не произойдёт;

2) если Шанс >1, то вероятность наступления события больше вероятности того, что событие не произойдёт;

3) если Шанс <1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Отношение шансов

Определение. Отношение шансов (odds ratio) - это отношение шансов для первой группы объектов к отношению шансов для второй группы объектов.

Пример. Допустим, что некоторое лечение проходят и мужчины, и женщины.

Вероятность того, что больной мужского пола останется жив спустя пять лет равна 0.6 (60%); вероятность того, что он за этот временной промежуток умрёт равна 0.4 (40%).

Аналогичные вероятности для женщин равны 0.8 и 0.2.

Отношение шансов в этом примере равно

Интерпретация значения величины.

1) Если отношение шансов =1, то шанс для первой группы равен шансу для второй группы

2) Если отношение шансов >1, то шанс для первой группы больше шанса для второй группы

3) Если отношение шансов <1, то шанс для первой группы меньше шанса для второй группы

Рассмотрим типичный пример применения статистических методов в медицине. Создатели препарата предполагают, что он увеличивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата.

По результатам наблюдений строят график зависимости диуреза от дозы (рис. 1.2А). Зависимость видна невооруженным глазом. Исследователи поздравляют друг друга с открытием, а мир - с новым диуретиком.

На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, - не более чем предполо-
зЯ

с

жение. Нельзя сказать, что оно беспочвенно - иначе, зачем ставить эксперименты?

Но вот препарат поступил в продажу. Все больше людей принимают его в надежде увеличить свой диурез. И что же мы видим? Мы видим рис 1.2Б, который свидетельствует об отсутствии какой либо связи между дозой препарата и диурезом. Черными кружками отмечены данные первоначального исследования. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки.

Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполез
ность статистики. Он говорит о другом, о вероятностном характере ее выводов. В результате применения статистического метода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кроме того, каждый статистический метод основан на собственной математической модели и результаты его правильны настолько насколько эта модель соответствует действительности.

Еще по теме ДОСТОВЕРНОСТЬ И СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ:

  1. Статистически значимые отличия показателей качества жизни
  2. Статистическая совокупность. Учетные признаки. Понятие о сплошных и выборочных исследованиях. Требования к статистической совокупности и использованию учетно-отчетных документов
  3. РЕФЕРАТ. ИССЛЕДОВАНИЕ ДОСТОВЕРНОСТИ ПОКАЗАНИЙ ТОНОМЕТРА ДЛЯ ИЗМЕРЕНИЯ ВНУТРИГЛАЗНОГО ДАВЛЕНИЯ ЧЕРЕЗ ВЕКО2018, 2018

Понятие о статистической достоверности

Статистическая достоверность имеет существенное значение в расчетной практике ФКС. Ранее было отмечено, что из одной и той же генеральной совокупности может быть избрано множество выборок:

Если они подобраны корректно, то их средние показатели и показатели генеральной совокупности незначительно отличаются друг от друга величиной ошибки репрезентативности с учетом принятой надежности;

Если они избираются из разных генеральных совокупностей, различие между ними оказывается существенным. В статистике по­всеместно рассматривается сравнение выборок;

Если они отличаются несущественно, непринципиально, не­значительно, т. е. фактически принадлежат одной и той же гене­ральной совокупности, различие между ними называется стати­стически недостоверным.

Статистически достоверным различием выборок называется выборка, которая различается значимо и принципиально, т. е. при­надлежит разным генеральным совокупностям.

В ФКС оценка статистической достоверности различий выбо­рок означает решение множества практических задач. Например, введение новых методик обучения, программ, комплексов упраж­нений, тестов, контрольных упражнений связано с их экспери­ментальной проверкой, которая должна показать, что испытуе­мая группа принципиально отлична от контрольной. Поэтому при­меняют специальные статистические методы, называемые крите­риями статистической достоверности, позволяющие обнаружить наличие или отсутствие статистически достоверного различия между выборками.

Все критерии делятся на две группы: параметрические и непараметрические. Параметрические критерии предусматривают обязательное наличие нормального закона распределения, т.е. имеется в виду обязательное определение основных показателей нормального закона - средней арифметической величины х и среднего квадратического отклонения о. Параметрические крите­рии являются наиболее точными и корректными. Непараметри­ческие критерии основаны на ранговых (порядковых) отличиях между элементами выборок.

Приведем основные критерии статистической достоверности, используемые в практике ФКС: критерий Стьюдента, критерий Фишера, критерий Вилкоксона, критерий Уайта, критерий Ван-дер-Вардена (критерий знаков).

Критерий Стьюдента назван в честь английского ученого К. Госсета (Стьюдент - псевдоним), открывшего данный метод. Критерий Стьюдента является параметрическим, используется для сравнения абсолютных показателей выборок. Выборки могут быть различными по объему.

Критерий Стьюдента определяется так.

1. Находим критерий Стьюдента t по следующей формуле:

где Xi, x 2 - средние арифметические сравниваемых выборок; /я ь w 2 - ошибки репрезентативности, выявленные на основании показателей сравниваемых выборок.

2. Практика в ФКС показала, что для спортивной работы доста­точно принять надежность счета Р = 0,95.

63 Для надежности счета: Р= 0,95 (а = 0,05), при числе степеней; свободы k = «! + п 2 - 2 по таблице приложения 4 находим величи- \ ну граничного значения критерия (^гр).

3. На основании свойств нормального закона распределения в критерии Стьюдента осуществляется сравнение t и t^.

4. Делаем выводы:

Если t > ftp, то различие между сравниваемыми выборками статистически достоверно;

Если t < 7 Ф, то различие статистически недостоверно.

Для исследователей в области ФКС оценка статистической до­стоверности является первым шагом в решении конкретной зада­чи: принципиально или непринципиально различаются между; собой сравниваемые выборки. Последующий шаг заключается в; оценке этого различия с педагогической точки зрения, что опре­деляется условием задачи.