Существует несколько весьма распространенных
предположений о размере выборки, которые тем не менее полностью
ошибочны. Например, результаты опросов иногда ставятся под сомнение, так
как «выборка нерепрезентативна, потому что не охватывает даже 10 %
совокупности». Подобные цифры, как, например, 10 % в этом случае,
выбираются произвольно. Профессор Роберто Беар из Universidad del Valle в Кали (Колумбия) объясняет истинное положение вещей на нескольких наглядных примерах.
Нужно ли солить суп?
Мы готовим суп в небольшой кастрюле и, чтобы
определить, готов ли он, пробуем его из ложки. Если к нам пришли гости и
мы готовим суп в большой кастрюле, значит ли это, что суп нужно
пробовать из большой ложки? Разумеется, нет. Мы используем одну и ту же
ложку и пробуем суп одинаково, не важно, готовится ли он в маленькой
кастрюле или в большой. Размер выборки не зависит от величины
генеральной совокупности.
Однако вне зависимости от размера кастрюли нужно как
следует перемешать суп, чтобы любая выборка содержала одну и ту же
информацию. Перед тем как попробовать суп, важнее тщательно размешать
его, а не взять ложку побольше. Это очевидно для всех. Также очевидно,
что если мы не размешаем суп, то это не исправить, взяв ложку побольше.
Если выборка нерепрезентативна, то увеличение ее размера не решает
проблему.
Какая у меня группа крови?
Чтобы безошибочно определить группу крови человека,
достаточно всего одной капли, так как все капли крови человека
одинаковы. Однородность совокупности и в этом случае намного важнее
размера выборки. И у новорожденного весом чуть больше 2,5 кг, и у его
отца, который может весить больше 100 кг, на анализ берется один и тот
же объем крови.
Однако связь между размером выборки и величиной
генеральной совокупности можно оценить не только интуитивно, но и с
помощью формулы. Если генеральная совокупность невелика, с увеличением
ее размера объем выборки быстро возрастает, однако затем, начиная с
определенного значения, он практически не меняется.
* * *
ЛЕВШИ ЖИВУТ МЕНЬШЕ (ИЛИ НЕТ?)
4 апреля 1991 года на первой странице газеты Washington Post
была опубликована статья об исследовании, согласно которому левши в
среднем живут на 9 лет меньше правшей. В исследовании использовались
данные о продолжительности жизни левшей и правшей в двух округах штата
Калифорния. Правши часто доживали до преклонного возраста, а среди
левшей долгожителей было намного меньше.
Новость имела значительный эффект, и вскоре
появились объяснения этому результату: якобы левши более подвержены
определенным заболеваниям и чаще получают серьезные травмы. Одной из
причин этому может быть тот факт, что все устройства, которые мы
используем ежедневно, предназначены для правшей. Из-за этого левши чаще
получают серьезные травмы, попадают в несчастные случаи и, как
следствие, живут существенно меньше.
Однако в феврале 1993 года в журнале American Journal of Public Health
была опубликована обширная статья, подкрепленная множеством источников,
и всё сразу встало на свои места: разницу в продолжительности жизни
можно объяснить разницей в распределении возраста левшей и правшей. В
начале XX века левшей переучивали держать ручку, ложку и так далее в
правой руке, поэтому на момент проведения исследования число пожилых
левшей было крайне невелико. Следовательно, до преклонного возраста
доживали немногие левши — не потому, что они умирали раньше, а потому,
что их переучивали и они становились правшами. Эта статья не попала на
передовицы газет, подтвердив правило, согласно которому наибольшее
внимание приковывают удивительные и неожиданные новости. Этот пример
показывает, как просто порой бывает найти правдоподобную причину той или
иной закономерности. Вспомним хотя бы об аналитиках, которые объясняют,
почему биржевые индексы падают или растут.
* * *
Для предельной ошибки в 3 % и надежности в 95 % из
генеральной совокупности объемом 10 000 элементов достаточно выбрать
всего 1000. Начиная с этого значения требуемый объем выборки практически
не увеличивается. Для генеральной совокупности из 100 000 элементов
потребуется выборка в 1056 элементов, для совокупности из 1000 000 —
1066 элементов, для 50 000 000 — 1068 элементов. И для небольшого
города, и для всей страны размер выборки будет одинаков.
Соотношение между размером генеральной совокупности и размером выборки для предельной ошибки в 3% и надежности 95 %.
Но при этом выборка обязательно должна быть
репрезентативной. Если суп хорошо перемешать, не имеет значения, из
какой ложки мы будем его пробовать. |