Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Грима Пере (мир книг .TXT) 📗
Фактическое и теоретическое (вычисленное по модели Пуассона) распределение числа мячей, забитых каждой командой в 380 матчах сезона 2008–2009 чемпионата Испании по футболу.
Диаграммы очень похожи. Модель Пуассона хорошо объясняет изменение числа мячей, забитых командой в течение матча.
Колокол Гаусса, или нормальное распределение
Колокол Гаусса встречается в математике очень часто. Его форма соответствует форме гистограммы, на которой представлено большое множество значений, подчиняющихся так называемому нормальному распределению. Например, мешки с сахаром весом 1 кг весят не ровно 1000,000… г — некоторые весят немного больше, другие — немного меньше. Подобное колебание веса неизбежно. Оно вызвано множеством незначительных факторов, по отдельности незаметных, но в сумме имеющих ощутимый эффект. На диаграмме ниже показано, что большинство значений находятся вблизи центрального значения, и по мере удаления от него соответствующие значения встречаются все реже и реже. Это классический колокол Гаусса, или диаграмма нормального распределения.
Возможное распределение фактического веса мешков с сахаром весом 1 кг. Диаграмма имеет форму колокола Гаусса.
Математическое выражение, описывающее форму этого колокола, впервые получил французский математик Абрахам де Муавр в 1733 году. Однако эта диаграмма носит имя немецкого математика Карла Фридриха Гаусса, который использовал ее в 1809 году в своей теории ошибок измерения, в частности ошибок, возникающих при астрономических наблюдениях. Гаусс показал, что вне зависимости от расстояния до измеряемого объекта и от его размеров при повторении измерений в одних и тех же условиях полученные значения будут распределяться особым образом.
Однако нормальное распределение занимает в статистике особое место не только потому, что оно используется в теории ошибок, но и потому, что оно очень часто встречается в природе.
Портрет Гаусса на банкноте в 10 немецких марок. В центре изображена диаграмма нормального распределения.
Говоря об истоках современной статистики, следует упомянуть имя бельгийского ученого Адольфа Кетле (1796–1874), который в XIX веке провел множество исследований, стремясь обнаружить статистические закономерности, которым подчиняется число преступлений, количество новорожденных, умерших и так далее. В поиске данных, подчиняющихся нормальному распределению, его ждал неожиданный сюрприз: в шотландском журнале были опубликованы данные о росте и охвате грудной клетки более чем 5000 солдат из различных шотландских полков. Эти данные подчинялись тому же закону, что и ошибки астрономических наблюдений.
Адольф Кетле, один из крупнейших статистиков XIX века.
По словам самого Кетле, «если неподготовленный человек измерил бы одного солдата 5738 раз, то результаты не распределились бы столь равномерно… как результаты 5738 измерений шотландских солдат. Если бы нам представили два ряда чисел, не снабдив их какими-либо комментариями, мы бы могли с уверенностью определить, какой ряд чисел соответствует результатам измерений 5738 разных солдат, а какой получен в результате неумелых измерений единственного солдата».
* * *
ЗАКОН ЭПОНИМОВ СТИГЛЕРА
Многие законы, теоремы, заболевания, научные открытия и постоянные носят имена их первооткрывателей. Так, известны болезнь Альцгеймера, постоянная Эйлера, великая теорема Ферма, комета Галлея и колокол Гаусса. Название события или закона по имени человека называется эпонимом.
Стивен Стиглер, преподаватель статистики Чикагского университета и известный историк статистики, открыл закон, который вкратце звучит так: «Ни одно открытие не носит имя того, кто в действительности его совершил». Если говорить об упомянутых нами примерах, то болезнь Альцгеймера, названная в честь Алоиса Альцгеймера, была описана до него минимум пятью учеными.
Постоянная Эйлера была открыта Якобом Бернулли, великая теорема Ферма в действительности не теорема, а гипотеза Ферма, а доказал ее Эндрю Уайлс в 1995 году. Комета Галлея была известна астрономам еще до Рождества Христова, хотя именно Эдмунд Галлей вычислил ее орбиту и предсказал дату ее возвращения. Если говорить о статистике, то нормальное распределение и диаграмма в форме колокола были открыты и подробно описаны не Гауссом, а французским математиком Абрахамом де Муавром, который опубликовал свои труды по этой теме в 1733 году, почти на 80 лет раньше Гаусса.
Это не означает, что одним ученым незаслуженно достаются лавры других. Некоторые совершают важный вклад в науку или объясняют уже открытое, но не очень известное явление, и по этой причине имена этих ученых остаются в истории. Профессор Стиглер опубликовал статью, посвященную этой теме, но он был не первым: до него об этом писали многие другие ученые, в частности Роберт Мертон, которого нередко цитирует Стиглер. Получается, что закон Стиглера подчиняется сам себе.
Портрет Абрахама де Муавра, который открыл так называемый колокол Гаусса за много лет до этого знаменитого немецкого математика.
* * *
«Живая» гистограмма. Каждый человек стоит в колонне, соответствующей его росту.
(источник: Эдвард Тафти. Наглядное отображение количественной информации. Цитируется работа Brian L. Joiner «Living Histograms», опубликованная в 1975 году в журнале International Statistical Review.)
Есть и еще одна причина, по которой нормальное распределение играет столь значительную роль. Очень часто в статистических исследованиях основное внимание уделяется средним значениям: анализируется средняя урожайность в зависимости от использованного удобрения, среднее значение выборки сравнивается с предполагаемым средним значением генеральной совокупности и так далее. Средние значения варьируются в зависимости от того, каким образом была взята выборка. Их вариацию на практике можно описать с помощью закона нормального распределения, даже если исходные данные генеральной совокупности не подчиняются этому закону. Например, число очков, выпадающее при броске игральной кости, совершенно не подчиняется закону нормального распределения. Это дискретное распределение с шестью возможными значениями: 1, 2, 3, 4, 5 и 6. Вероятность выпадения каждого из них одинакова. Если мы бросаем два кубика и анализируем среднее число выпавших очков, то частота выпадения различных средних значений уже не будет одинаковой.
Наиболее вероятно, что среднее значение будет равно 3,5. Если мы бросаем четыре кубика, то столбиковая диаграмма, представляющая вероятность возможного среднего числа выпавших очков, будет напоминать колокол Гаусса. Если мы будем бросать 10 кубиков, что равносильно взятию выборки величиной 10, то на диаграмме будет очевидно вырисовываться колокол Гаусса. Таким образом, распределение средних значений подчиняется нормальному закону.