Решим еще одну задачу. Владелец пекарни обеспокоен
тем, что, как ему кажется, вес готовых булок различается слишком сильно и
некоторые булки могут весить меньше, чем допускается стандартом. Для
выпечки используются две печи, в которых выпекают хлеб два оператора. В
какие-то дни работает первый оператор, в какие-то — второй. В следующей
таблице указан вес (в граммах) для выборки булок. Измерения
производились в течение 20 дней:
Вес булки должен равняться (220 ± 10) граммов.
Допустим, что представленная выборка является репрезентативной. Нужно
ответить на вопросы, действительно ли существует проблема; что
происходит; что нужно сделать, чтобы устранить проблему, если она вообще
существует.
Если вы попытаетесь сделать какие-то выводы «на глаз»
на основании данных, представленных в таблице, то, скорее всего,
ошибетесь. Хотя речь идет всего о 160 значениях, выводы, сделанные «на
глаз», скорее всего, будут неточными. Также не следует погружаться в
объемные вычисления или использовать сложные методы. Достаточно
представить данные графически, как показано далее.
Гистограмма веса 160 хлебобулочных изделий.
Эта диаграмма называется гистограммой. Она крайне полезна для анализа вариации данных.
В нашем примере гистограмма указывает, что проблема
действительно существует, так как вес некоторых булок меньше минимально
допустимого. Иными словами, речь идет не об исключениях, а о
естественной вариации веса булок.
На следующих гистограммах представлены данные по
каждой печи и по каждому оператору в отдельности. Из них четко видно,
что неполадки присутствуют в печи № 2, так как центральное значение на
соответствующей диаграмме смещено. С печью № 1 все в порядке, и данные
для обоих операторов практически совпадают.
Вес булок для каждой печи и каждого оператора в отдельности.
Даже для очень малого объема данных, например для такого:
21,1; 17,8; 19,7; 18,6; 16,8; 21,7; 28,7; 20,1; 19,5; 17,8,
на простой точечной диаграмме видны подробности,
которые можно упустить при простом анализе данных «на глаз». В этом
случае видно, что одно значение существенно отличается от остальных, и
следует проанализировать причины подобного отклонения (возможно, это
простая опечатка: оператор ввел 28,7 вместо 18,7). Эти вопросы крайне
важны, так как ошибка в исходных данных может перечеркнуть всю
проделанную работу.
Представление множества данных с помощью точечной диаграммы.
Если мы хотим учесть порядок выборки данных,
гистограммы и точечные диаграммы нам не помогут. Для этого нужно
представить данные в виде временного ряда, как показано на следующем
рисунке, где четко заметно увеличение среднего роста населения Испании
на протяжении XX века. Разумеется, на основе графиков подобного типа
нельзя делать экстраполяции: вовсе не факт, что через 1000 лет средний
рост будет находиться у отметки 2 м 70 см.
Изменение среднего роста населения Испании в период с 1910 по 1982 год.
(Источник: X. Спийкер, X. Перес и А. Камара.
Изменение среднего роста населения Испании в XX веке по результатам
исследования министерства здравоохранения. Журнал Estadistica Espahola,
№ 169, 2008 г.)
Помимо стандартных графиков, которые мы только что
рассмотрели, круговых и им подобных диаграмм, можно использовать и
другие, не столь известные. Существует, например, диаграмма «стебель —
листья».
Рассмотрим практический пример. Группу из 92
студентов попросили измерить пульс. На гистограмме на следующей странице
представлены полученные значения (все данные, использованные в этом
примере, содержатся в файлах примеров пакета статистических программ Minitab).
Гистограмма и диаграмма «стебель — листья», на которых представлены данные о пульсе для группы из 92 студентов.
При построении диаграммы «стебель — листья» все
значения делятся на две части. Наименее значимая часть (в этом случае
единицы) образует «листья», другая (десятки и сотни) — «стебель».
Наименьшим значением является 48, далее следует 54 и снова 54, затем три
раза 58 и так далее до последнего значения, равного 100. Заметим, что
строки диаграммы имеют ту же форму, что и столбцы гистограммы.
Следовательно, диаграмма «стебель — листья» содержит информацию,
представленную на гистограмме, и кроме этого обладает следующими
свойствами.
1. Исходные данные можно восстановить. При взгляде на
гистограмму можно увидеть, что существует значение в интервале между 45
и 50, но мы не можем сказать, чему оно равно. В диаграмме «стебель —
листья» эта информация не теряется.
2. Диаграмма «стебель — листья» позволяет увидеть
детали, которые остаются незамеченными на других графиках. Например, не
следует думать, что студенты измеряли свой пульс в течение одной минуты.
Если бы это было так, то примерно половина значений были бы четными, а
половина — нечетными. Однако мы видим, что все значения четные. Это
означает, что студенты измеряли пульс в течение 15 или 30 секунд, а
затем умножали результат на 2 или на 4. Результаты, полученные таким
образом, имеют большую погрешность по сравнению с результатами,
полученными реальным измерением в течение одной минуты.
Иногда ученые разрабатывают особые диаграммы для
определенных задач. В качестве примера можно привести диаграммы,
которыми сопровождаются футбольные трансляции. С помощью ряда переменных
на них отображается ход матча, указываются голевые моменты каждой
команды, а также другая информация — от числа пасов в штрафную зону до
забитых голов и незабитых пенальти.
Ход атак во время футбольного матча.
(источник: Elpais.com)
При построении графиков чаще всего используются
компьютерные программы. Это могут быть пакеты статистических программ,
программы для работы с электронными таблицами или системы обработки
текстов.
Текстовый редактор, использованный при написании этой
книги, позволяет с легкостью создавать и применять в расчетах
диаграммы. С его помощью можно строить красивейшие трехмерные графики
или простые плоские диаграммы. Нужно учитывать, что трехмерные
диаграммы, как правило, более эффектны, но могут быть менее понятны. Тип
диаграммы следует выбирать в зависимости от контекста и из соображений
наглядности.
Графики, построенные в текстовом редакторе Word.
В завершение этого раздела, посвященного графическому
представлению значений одной переменной, вернемся к нашему примеру с
пекарней. Допустим, что в пекарне есть третья печь, для которой также
были произведены измерения веса 80 готовых булок (столько же измерений
было проведено для печи № 1). Как вы охарактеризуете вариацию веса
хлеба, выпеченного в новой печи, по сравнению с печью № 1?
Как вы оцените печь № 3 по сравнению с печью № 1?
Если вам кажется, что вес хлеба, выпеченного в печи
№ 3, варьируется сильнее, чем вес хлеба, выпеченного в печи № 1, вы
ошибаетесь. На обеих гистограммах представлено одно и то же множество
данных. Они выглядят по-разному, так как был выбран разный масштаб. Вас
сбил с толку выбранный способ представления данных. Мораль: при
построении диаграмм для сравнения различных данных убедитесь, что
диаграммы имеют одинаковый масштаб. Программа по умолчанию изменяет
масштаб с учетом вариации данных. Нужно скорректировать масштаб вручную,
иначе диаграммы будут неверно представлять данные и, образно говоря, вы
попадете в сети, которые сами же и расставили. |