Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Грима Пере (мир книг .TXT) 📗
То, что нам уже знакомо: биномиальное распределение С помощью общих правил вычисления вероятностей мы смогли установить вероятность выпадения 3 решек и 2 орлов (в произвольном порядке) при 5 бросках монеты с помощью следующего выражения:
В целом число успешных исходов при выполнении n опытов (вероятность успешного исхода неизменна и равна р) — это случайная величина, которая подчиняется очень известному закону распределения вероятностей. Это распределение называется биномиальным. Если мы сталкиваемся с этим распределением, нам не нужно выводить новые формулы для вычисления вероятностей.
* * *
ОДНА ОЧЕНЬ ПОЛЕЗНАЯ ФОРМУЛА
Если мы отойдем от конкретных чисел и попытаемся вычислить вероятность выпадения х решек при n бросках, где р — вероятность выпадения решки, (1 — р) — вероятность выпадения орла, мы получим следующую формулу:
Интересно, что ее можно использовать не только для решения задач о броске монеты, но и для любых задач, которые подчиняются нижеприведенной схеме:
* * *
Рассмотрим три задачи.
1. При производстве на конвейере выпускается 1 % бракованных деталей. Если детали упаковываются в коробки по 50 деталей, какова вероятность того, что в одной коробке окажутся сразу две бракованные детали?
2. Баскетболист забивает 75 % штрафных бросков. Какова вероятность того, что он попадет 8 раз из 10?
3. В семье четверо детей. Какова вероятность того, что ровно двое из них — мальчики?
Что общего у этих задач? Все они следуют описанному нами сценарию, следовательно, их очень легко решить.
Расчеты можно произвести с помощью электронных таблиц. В Excel ответ можно найти, используя следующую функцию:
Последняя переменная, которая следует за вероятностью успеха, указывает, хотим ли мы вычислить только вероятность для указанного числа успешных событий (например, ровно 2 бракованные детали; в этом случае эта переменная равна 0) или же накопленную вероятность (число бракованных деталей равно 2 и менее, в таком случае этой переменной нужно присвоить значение 1).
В задаче про игрока в баскетбол мы предполагаем, что вероятность попадания со штрафного броска постоянна, то есть не зависит от давления зрителей, нервов или хода игры (одно из преимуществ хорошего игрока — сохранять процент попаданий неизменным вне зависимости от этих условий). Многие думают, что в задаче о сыновьях и дочерях наиболее вероятно, что в семье два мальчика и две девочки, однако вероятность этого исхода равна всего 38 %. Наиболее вероятным (62 %) является любое другое сочетание.
От числа погибших от удара копытом лошади в прусской армии к числу забитых мячей в чемпионате Испании по футболу: распределение Пуассона Если переменная подчиняется биномиальному закону распределения, можно подсчитать, сколько раз она примет определенное значение (число качественных и число бракованных деталей). Эта переменная также будет иметь предельное значение: число качественных деталей не может превышать общего числа деталей в партии.
Иногда мы сталкиваемся с переменными, которые обозначают число событий, произошедших в единицу времени или на единицу площади. Такие переменные не имеют верхней границы, по крайней мере с теоретической точки зрения. К классическим примерам подобных переменных относится число посещений интернет-страницы в день, число поломок лифта в год, число звонков на АТС в час и, разумеется, число писем, ежедневно приходящих вам по электронной почте. К примерам событий, происходящих в пространстве, можно отнести следующие: число точек, пораженных ржавчиной, на метр проволоки, число дефектов на квадратный метр (или 10 квадратных метров) ткани, число изюминок в ложке с хлопьями, которые вы едите на завтрак.
В 1837 году французский математик Симеон Пуассон решил найти способ изменить формулу биномиального распределения так, чтобы ее можно было применить к подобным ситуациям. Он открыл любопытное выражение, в котором для расчета вероятности любого числа событий достаточно знать лишь среднее число событий (λ). Формула вычисления вероятности того, что некое событие произойдет х раз, выглядит так:
Французский математик XIX века Симеон Пуассон.
Так, если лифт ломается в среднем два раза в год (λ = 2), вероятность того, что в течение года он не сломается ни разу, такова:
Если на интернет-страницу в среднем заходит 100 посетителей в день (будем считать, что число посетителей неизменно в любой день недели, хотя очевидно, что будет существовать определенная разница между рабочими и выходными днями), то вероятность того, что в конкретный день страницу посетит менее 80 человек, такова:
Выполнять расчеты по этой формуле не очень удобно, но нам опять помогут электронные таблицы:
В 1898 году русский экономист и статистик Владислав Борткевич опубликовал книгу, в которой доказал, что распределение Пуассона можно использовать для объяснения статистической закономерности, наблюдаемой при редких событиях. Он использовал данные о самоубийствах и несчастных случаях со смертельным исходом, но самым известным примером его работ является анализ числа солдат, умерших от удара копытом лошади в 14 корпусах прусской армии за 20 лет (с 1875 по 1894 год).
Владислав Борткевич, русский статистик, открывший новые способы применения распределения Пуассона.
В следующей таблице фактическая частота соответствует числу армейских корпусов, умноженному на число лет (14·20 = 280). Среднее число умерших за год в пересчете на один корпус равно (91 + 2·32 + 3·11 + 4·2)/280. Используя это значение в вышеприведенной формуле, получим теоретические значения частоты, приведенные в таблице.
Если мы хотим найти более современный пример, то можно рассмотреть число голов, забитых командой во время футбольного матча. Эта переменная прекрасно соответствует требованиям распределения Пуассона: события происходят в течение четко обозначенного периода времени (футбольного матча), предельного числа событий не существует, а число незабитых голов подсчитать нельзя. Так, на диаграмме слева представлено число голов, забитых каждой командой в каждом из 380 матчей испанского чемпионата 2008–2009 годов. На диаграмме справа представлены данные, вычисленные по нашей формуле.