Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Грима Пере (мир книг .TXT) 📗
Перцентили
15-я перцентиль — это значение, меньше которого ровно 15 % упорядоченного множества данных. Очевидно, что 85 % значений будут больше него. Если ваша зарплата равна 70-й перцентили, это означает, что зарплата 70 % сотрудников меньше вашей, или, что аналогично, 30 % получают больше вас — если вы из тех, для кого стакан всегда наполовину пуст. Перцентили также используются при оценке результатов тестов на интеллект. Если вы находитесь в 90-й перцентили, это означает, что 90 % участников справились с тестом хуже, чем вы.
Многие впервые сталкиваются с перцентилями, когда педиатр говорит, что, например, рост вашего сына находится в 45-й перцентили. Это означает, что 45 % мальчиков (значения для мальчиков и девочек отличаются) того же возраста ниже вашего ребенка. Всемирная организация здравоохранения составляет справочные таблицы и графики, в которых указывается рост детей разного возраста.
Графики роста девочек (вверху) и мальчиков (внизу) в возрасте от 5 до 19 лет, составленные Всемирной организацией здравоохранения, с медианой и 3-й, 15-й, 85-й и 97-й перцентилями.
Чтобы выделить какой-либо важный аспект множества данных, используются проценты («65 % подростков в возрасте от 10 до 17 лет признаются, что пользовались видеоиграми для взрослых»), но в книгах по статистике эта тема не рассматривается: считается, что она либо выходит за рамки статистики, либо слишком проста и поэтому не заслуживает упоминания. Знак процента можно встретить на простейших калькуляторах. Кажется, что процентами может оперировать любой, однако они часто вызывают путаницу, поэтому будет нелишним рассказать о них подробнее.
Общие вопросы
Нужно всегда помнить, от какой величины рассчитывается процент. Рассмотрим пример. Гель для душа раньше продавался в бутылках по 750 мл, теперь же — в бутылках по 1000 мл по той же цене. Сколько процентов вы получаете в подарок?
Правильный ответ зависит от того, от какого значения будет рассчитываться процент. Мы получаем бесплатно 33 % от исходного объема и 25 % от нового.
Также следует различать проценты и процентные пункты. Так, если прибыль предприятия возросла с 2 до 4 %, то говорят, что она возросла на 2 процентных пункта (но не на 2 %!).
Аналогично нужно различать проценты от исходной величины и проценты ее изменения. Лучше понять это различие вам поможет следующий пример. Объем продаж в прошлом году составил 10 миллионов евро. Цель на текущий год — увеличение объема продаж на 6 %. Объем продаж в нынешнем году составил 10,3 миллиона евро. На сколько процентов продавец выполнил намеченную цель?
Если целью продавца является рост дохода, то она выполнена всего на 50 %. Однако если мы будем считать целевым значением объем продаж в 10,6 миллиона, а фактическим — 10,3, то получается, что цель выполнена на 97,2 %.
Операции с процентами также стоит выполнять очень внимательно.
1. Если цена товара увеличилась на 20 %, а затем снизилась на 20 %, каким будет соотношение начальной и конечной цены? Цена товара изменится: она уменьшится на 4 %. Обозначив исходную цену за х, получим, что итоговая цена равна (х + 0,2х) — 0,2(х + 0,2х) = х — 0,04х.
2. Товар состоит из 10 компонентов. Стоимость каждого компонента возросла на 2 %. На сколько увеличится стоимость товара? Она возрастет на 2 %. Цена отдельных компонентов в этом случае не имеет значения. Если вы все еще сомневаетесь, выполните расчеты вручную и убедитесь в этом самостоятельно.
3. Если Иван зарабатывает на 1000 % больше Петра, он получает в 11 раз больше, а не в 10, как может показаться. Если он зарабатывает на 100 % больше, он получает в два раза больше, если на 200 % больше — то в три раза больше.
В действительности всё не так. Парадокс Симпсона
Когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, может показаться, что налицо определенная зависимость. Однако истинная зависимость будет прямо противоположной. Это явление известно под названием парадокс Симпсона. Рассмотрим пример.
Крупная компания открывает новый завод и создает 250 рабочих мест в службе продаж, монтажа и в складской службе. На рабочие места претендовали 355 мужчин и 325 женщин. Работу получили 190 мужчин (53,5 %) и 60 женщин (18,5 %). Уровень подготовки мужчин и женщин был абсолютно одинаков. Можно ли утверждать, что имеет место дискриминация женщин при приеме на работу? Нет, это не так. Исходные данные таковы:
В действительности процент принятых на работу в каждом отделе выше среди женщин. Причина в том, что в службе, куда было принято больше всего сотрудников, рабочие места получили много мужчин и мало женщин, а в других службах, где требовалось меньше сотрудников, ситуация была обратной.
В начале раздела мы приводили цитату о том, что 65 % молодых людей 10–17 лет пользовались видеоиграми для взрослых. Взята она из реального газетного заголовка. В статье объясняется, откуда взята цифра в 65 %: автор сложил положительные ответы 50 % юношей и 15 % девушек! Любопытно, каков был бы результат, если бы на этот вопрос положительно ответили 50 % юношей и 60 % девушек?
Решим еще одну задачу. Владелец пекарни обеспокоен тем, что, как ему кажется, вес готовых булок различается слишком сильно и некоторые булки могут весить меньше, чем допускается стандартом. Для выпечки используются две печи, в которых выпекают хлеб два оператора. В какие-то дни работает первый оператор, в какие-то — второй. В следующей таблице указан вес (в граммах) для выборки булок. Измерения производились в течение 20 дней:
Вес булки должен равняться (220 ± 10) граммов. Допустим, что представленная выборка является репрезентативной. Нужно ответить на вопросы, действительно ли существует проблема; что происходит; что нужно сделать, чтобы устранить проблему, если она вообще существует.
Если вы попытаетесь сделать какие-то выводы «на глаз» на основании данных, представленных в таблице, то, скорее всего, ошибетесь. Хотя речь идет всего о 160 значениях, выводы, сделанные «на глаз», скорее всего, будут неточными. Также не следует погружаться в объемные вычисления или использовать сложные методы. Достаточно представить данные графически, как показано далее.
Гистограмма веса 160 хлебобулочных изделий.
Эта диаграмма называется гистограммой. Она крайне полезна для анализа вариации данных.
В нашем примере гистограмма указывает, что проблема действительно существует, так как вес некоторых булок меньше минимально допустимого. Иными словами, речь идет не об исключениях, а о естественной вариации веса булок.
На следующих гистограммах представлены данные по каждой печи и по каждому оператору в отдельности. Из них четко видно, что неполадки присутствуют в печи № 2, так как центральное значение на соответствующей диаграмме смещено. С печью № 1 все в порядке, и данные для обоих операторов практически совпадают.