Именно поэтому среднеквадратическое отклонение (s) находится в числителе приведенной выше формулы

.

Аналогично можно ожидать, что стандартная ошибка будет уменьшаться по мере увеличения размера выборки, поскольку большие выборки в меньшей степени подвержены искажению со стороны экстремальных наблюдений («отщепенцев»).

Именно поэтому размер выборки n находится в знаменателе формулы. (Разъяснение причины, по которой в формуле используется корень квадратный из n, мы оставим для более «продвинутых» учебников по статистике; в данном случае для нас важны базовые соотношения.)

В случае данных Americans’ Changing Lives нам фактически известно среднеквадратическое отклонение этой совокупности, однако зачастую так не бывает. В отношении крупных выборок мы можем предположить, что их среднеквадратическое отклонение довольно близко к среднеквадратическому отклонению генеральной совокупности[41].

Наконец, настало время подвести итог сказанному. Поскольку средние значения выборок распределены по нормальному закону (благодаря центральной предельной теореме), мы можем воспользоваться богатым потенциалом кривой нормального распределения. Мы рассчитываем, что примерно 68 % средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем одной стандартной ошибки; 95 % – на расстоянии, не превышающем двух стандартных ошибок; и 99,7 % – на расстоянии, не превышающем трех стандартных ошибок.

Теперь вернемся к отклонению (разбросу) в примере с пропавшим автобусом – правда, на этот раз призовем на помощь не интуицию, а числа. (Сам по себе этот пример остается абсурдным; в следующей главе мы рассмотрим множество более близких к реальности случаев.) Допустим, что организаторы исследования Americans’ Changing Lives пригласили всех его участников на выходные в Бостон, чтобы весело провести время и заодно предоставить кое-какие недостающие данные. Участников распределяют произвольным образом по автобусам и отвозят в тестовый центр, где их взвесят, определят рост и т. п. К ужасу организаторов мероприятия, один из автобусов пропадает где-то по пути в тестовый центр. Об этом событии оповещают в программе новостей местного радио и телевидения. Возвращаясь примерно в то же время в своем автомобиле с Фестиваля любителей сосисок, вы замечаете на обочине дороги сломавшийся автобус. Похоже, его водитель был вынужден резко свернуть в сторону, пытаясь уклониться от столкновения с лосем, неожиданно появившимся на дороге. От столь резкого маневра все пассажиры потеряли сознание или лишились дара речи, хотя никто из них, к счастью, не получил серьезных травм. (Такое предположение понадобилось мне исключительно для чистоты приведенного здесь примера, а надежда на отсутствие у пассажиров серьезных травм объясняется моим врожденным человеколюбием.) Врачи кареты скорой помощи, оперативно прибывшие на место происшествия, сообщили вам, что средний вес 62 пассажиров автобуса составляет 194 фунта. Кроме того, оказалось (к огромному облегчению всех любителей животных), что лось, от столкновения с которым пытался увернуться водитель автобуса, практически не пострадал (если не считать легкого ушиба задней ноги), но от сильного испуга тоже потерял сознание и лежит рядом с автобусом.

К счастью, вам известен средний вес пассажиров автобуса, а также среднеквадратическое отклонение для всей совокупности Americans’ Changing Lives. Кроме того, мы имеем общее представление о центральной предельной теореме и знаем, как оказать первую помощь пострадавшему животному. Средний вес участников исследования Americans’ Changing Lives составляет 162 фунта; среднеквадратическое отклонение равняется 36. На основе этой информации вы можете вычислить стандартную ошибку для выборки из 62 человек (количество пассажиров автобуса, потерявших сознание): s / √62 = 36/7,9, или 4,6.

Разница между средним значением этой выборки (194 фунта) и средним значением совокупности (162 фунта) равна 32 фунта, то есть значительно больше трех стандартных ошибок. Из центральной предельной теоремы вам известно, что 99,7 % средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем трех стандартных ошибок. Таким образом, крайне маловероятно, что встретившийся вам автобус перевозит группу участников исследования Americans’ Changing Lives.

Будучи видным общественным активистом города, вы звоните организаторам мероприятия, чтобы сообщить, что в повстречавшемся вам автобусе, скорее всего, находится какая-то другая группа людей. Правда, в этом случае вы можете опираться на статистические результаты, а не свои «интуитивные догадки». Вы сообщаете организаторам, что отрицаете вероятность того, что найденный вами автобус именно тот, который они разыскивают, с 99,7 % доверительным уровнем. А поскольку в данном случае вы разговариваете с людьми, знакомыми со статистикой, то можете не сомневаться, они понимают, что вы правы. (Всегда приятно иметь дело с умными людьми!)

Сделанные вами выводы находят дальнейшее подтверждение, когда врачи скорой помощи берут пробы крови у пассажиров автобуса и обнаруживают, что средний уровень холестерина в их крови превышает средний уровень холестерина в крови участников исследования Americans’ Changing Lives на пять стандартных ошибок. Из этого следует, что впавшие в бессознательное состояние пассажиры – участники Фестиваля любителей сосисок. (Впоследствии это было неопровержимо доказано.)

[У этой истории оказался счастливый конец. Когда к пассажирам автобуса вернулось сознание, организаторы исследования Americans’ Changing Lives посоветовали им проконсультироваться у специалистов-диетологов относительно опасности употребления в пищу продуктов с высоким содержанием насыщенных жиров. После таких консультаций многие из любителей сосисок решили порвать со своим позорным прошлым и вернуться к более здоровому рациону питания. Пострадавшего лося выходили в местной ветеринарной клинике и выпустили на свободу под одобрительные возгласы членов местного Общества защиты животных. Да, история почему-то умалчивает о судьбе водителя автобуса. Возможно, потому, что статистика не занимается судьбами отдельно взятых людей. Лось – совсем другое дело, замолчать его судьбу не удастся! В случае чего за него может вступиться Общество защиты животных.][42]

В этой главе я пытался говорить только об основах. Вы, наверное, обратили внимание, что центральная предельная теорема применима лишь в случаях, когда размер выборки достаточно велик (как правило, не менее 30). Кроме того, нам требуется относительно большая выборка, если мы намерены предположить, что ее среднеквадратическое отклонение будет примерно таким же, как и среднеквадратическое отклонение генеральной совокупности. Существует немало статистических поправок, которые можно применять в случае несоблюдения указанных условий, но все это похоже на сахарную глазурь на торте (и, возможно, даже на шоколадные крошки, которыми присыпают эту глазурь сверху). «Общая картина» здесь проста и чрезвычайно эффективна.

1. Если вы формируете на основе какой-либо совокупности большие (по объему) случайные выборки, то их средние значения будут распределены по нормальному закону вблизи среднего значения соответствующей совокупности (какой бы вид ни имело распределение исходной совокупности).

2. Большинство средних значений выборок будет расположено достаточно близко к среднему значению совокупности (что именно следует в том или ином случае считать «достаточно близким», определяется стандартной ошибкой).

3. Центральная предельная теорема говорит нам о вероятности того, что среднее значение выборки будет находиться не дальше определенного расстояния от среднего значения совокупности. Относительно маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние двух стандартных ошибок, и крайне маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние трех и более стандартных ошибок.

4. Чем меньше вероятность того, что какой-то исход оказался чисто случайным, тем больше мы можем быть уверены в том, что здесь не обошлось без воздействия какого-то другого фактора.

В этом по большому счету и заключается сущность статистического вывода. Центральная предельная теорема главным образом делает все это возможным. И до тех пор, пока Леброн Джеймс не станет столько раз чемпионом НБА, сколько Майкл Джордан (шесть), центральная предельная теорема будет производить на нас гораздо большее впечатление, чем знаменитый баскетболист.

<< | >>
Источник: Чарльз Уилан. Голая статистика. Самая интересная книга о самой скучной науке. 2016

Еще по теме Именно поэтому среднеквадратическое отклонение (s) находится в числителе приведенной выше формулы:

  1. Таким образом, как уже было показано выше на рис. 15, в период, когда котировки большинства ценных бумаг снижаются, нужно больше слушать не страх, а жадность, ведь кризис бывает не так часто, поэтому «распродажа» на фондовом рынке тоже, как и обычная распродажа, имеет ограниченный период действия, поэтому инвестиции в ценные бумаги во время кризиса достаточно привлекательны.
  2. Именно поэтому кризис 2008 года совсем иной, он – по всему миру, и выбрать какую-то одну валюту для хранения сбережений, либо одну страну для вложений уже невозможно.
  3. Именно поэтому банковский вклад должен использоваться по назначению – для размещения резервного фонда, накопления на краткосрочные цели, а также для накопления средств на крупные инвестиции.
  4. Рис. 15. Расчёт 10-дневного ЕМА Начните с расчёта простого скользящего среднего. Первое число в колонке 3 – это простое МА. Затем по формуле, приведённой в этой главе, подсчитывайте экспоненциальный показатель среднего движения курса.
  5. 3. Из списка выше выберите самую важную сферу, над которой хотели бы начать работать прямо сейчас, и самого важного наставника. ______________________________________________________________ 4. Возьмите чистый лист бумаги и по примеру, приведенному в этой главе, создайте план первого контакта с наставником. Потренируйтесь по телефону с другом. Повторяйте, пока не начнете справляться с этим легко. Теперь выберите точное время и позвоните!
  6. Почему клиент должен купить именно у вас, а не у кого-нибудь из ваших конкурентов? И почему он вообще должен именно сейчас что-то купить, а не сэкономить деньги и не пройти мимо?
  7. 4.2. Чистый приведенный доход (прибыль)
  8. 5.4. Вычисление отклонений и их анализ
  9. Отклонения
  10. Допустимое отклонение
  11. Анализ отклонений по прибыли
  12. Первоначально выявленные эвристики и отклонения
  13. 5.5. Запись отклонений в учетных регистрах
  14. Расчет чистой приведенной стоимости INPV)
  15. Задание 3 Пользуясь приведенными в табл. 18.3 исходными данными, определить
  16. Эвристики и отклонения, выявленные позже
  17. Отклонение из-за позитивной реакции на неопределенность