Как правильно рассчитать объем выборки? Генеральная совокупность и выборочное исследование. Статистическая достоверность Показательная выборка

Понятие «репрезентативность» применительно к социологическим опросам - опросам общественного мнения - обладает почти магическим действием на людей. Сам термин «репрезентация» имеет кроме научного еще и явно политическое значение.

В чем причина? Все дело в том, что предполагается, что выборка (группа людей, отобранная для опроса) может репрезентировать (представлять) всю генеральную совокупность. Генеральной совокупностью в случае общероссийских опросов является все население страны. Теперь представим, что речь идет о политическом решении - поддержке законопроекта или голосовании на выборах. С помощью выборочного опроса мы получаем отличный механизм политической репрезентации - механизм, при котором небольшая группа людей может представлять мнение или позицию всего населения страны. Поэтому репрезентативности исследования отводится такое важное место.

Понятие репрезентативности используется, разумеется, не только в политических исследованиях. Термин применяется практически всегда, когда речь идет о больших исследованиях, будь то в сфере маркетинга, экономического поведения или образования.

Методология репрезентативных опросов

Как, опросив 1500 человек, можно делать выводы обо всех россиянах, которых более 140 миллионов (и даже избирателей более 110 миллионов)? Технология, которая стоит за репрезентативными опросами, основана на статистических законах. Ближайшим основанием служит закон больших чисел, или теорема Бернулли.

Упрощенно его смысл можно передать так. Предположим, у нас имеется некоторый признак, например количество осадков за день в Екатеринбурге в течение ХХ века. Если мы выпишем все его значения вместе с их частотой (это называется распределением), а затем случайно возьмем достаточно большое число случаев (то есть не все дни в ХХ веке, но достаточно много), то мы увидим, что распределение в нашей выборке будет очень похожим на распределение за весь ХХ век. Таким образом, если мы отбираем из совокупности некоторые единицы, они действительно могут представлять всю совокупность, и на самом деле нет необходимости собирать данные по всем случаям.

Однако имеется ключевое условие: это верно, только если производить отбор строго случайным образом. Единственной проблемой здесь может быть отклонение от случайности. Так, если мы возьмем только данные по осадкам за последние годы (например, потому что эти данные проще найти) или опросим 1500 своих знакомых (потому что с ними проще связаться), а не случайных людей, то выборка, конечно, не будет репрезентативной.

Представьте, что из 143,5 миллионов россиян вы случайным образом отбираете необходимые вам 1500 человек. Тогда, например, доля менеджеров среднего звена среди них будет приблизительно равна доле менеджеров среднего звена в генеральной совокупности, что и показывает, что ваша выборка может представлять всю совокупность. Может ли так получиться, что эти два показателя будут сильно различаться? Например, среди россиян он составляет 14%, а в выборке он составит только 1%? Теоретически это возможно, однако вероятность этого настолько мала, что ею можно пренебречь (примерно как встретить дракона на улице).

Более того, самое приятное в этой вероятности даже не то, что она мала, а то, что для случайных процессов эту вероятность можно вычислить. Мы можем сказать, с какой вероятностью наше выборочное значение отклонится от значения в генеральной совокупности на 13% (как в примере выше), а с какой, скажем, на 2,5%. Обычно, впрочем, делают наоборот: сначала определяют вероятность, с которой мы хотим, чтобы наше значение не отклонялось от значения в генеральной совокупности (чаще всего его фиксируют на уровне 95%), а потом уже смотрят, какова величина отклонения при том или ином размере выборки. Это отклонение называется доверительным интервалом, иногда его называют ошибкой выборки или статистической погрешностью - его часто приводят рядом с результатами опроса.

Итак, вероятность отклонения, величина отклонения (доверительный интервал) и размер выборки связаны между собой. Исходя из этого, формула для расчета размера выборки выглядит следующим образом:

где n - размер выборки, Δ - доверительный интервал, z - значение функции нормального распределения для данной вероятности отклонения (для вероятности 5% это значение составляет 1,96).

Это упрощенная формула, в реальных опросах используются несколько более сложные формулы. Эта формула также может давать сбой, если значение показателя сильно отличается от 50% (поэтому, например, эта формула не подойдет для того, чтобы оценить долю больных редким заболеванием в стране).

Вот что будет, если подставить в эту формулу некоторые значения:

Иными словами, если мы взяли случайную выборку россиян размером в 1600 человек и оценили какой-то показатель, например готовность голосовать за определенного политика, то с вероятностью 95% наша оценка не будет отличаться от готовности проголосовать за него среди всех россиян более чем на 2,45%.

Размер выборки

Итак, чем больше размер выборки, тем больше вероятность того, что мы будем ближе к доле в генеральной совокупности. Казалось бы, это значит, что нам нужно стараться приблизить выборку к 143,5 млн. На самом деле, как можно видеть из таблицы, природа случайных процессов такова, что с определенного момента вероятность попасть в интервал начинает повышаться очень медленно (и этот момент наступает довольно быстро). После того как мы отбираем 1500 единиц, как бы мы сильно ни увеличивали объем выборки, вероятность, что наше значение по выборке попадет в значение по генеральной совокупности, будет возрастать очень и очень медленно.

Фактически разницы между 1500 и 10 000 опрошенных почти нет. Где-то к 1500 мы уже можем говорить о том, что наши оценки будут отличаться от доли в генеральной совокупности на 2–3%. Если мы увеличиваем выборку дальше, то эта возможная ошибка будет уменьшаться, но очень незначительно. Иными словами, выборка в 100 000 лучше, чем выборка в 2500, но разница настолько мала, что не имеет смысла, а в случае социальных обследований и экономически не обоснована. Обычно увеличение выборки стоит дорого, и поэтому ее не имеет смысла раздувать ради того, чтобы выиграть один процентный пункт в величине доверительного интервала.

Важно, что в формуле вообще не фигурирует размер генеральной совокупности. Дело в том, что, когда генеральная совокупность велика (более 20 000), он практически не влияет на размер выборки. Таким образом, нам не нужно знать, сколько людей живет в России, чтобы построить репрезентативную выборку. Понятно, что выбирать 1500 из 2000, скорее всего, не имеет смысла - проще обследовать 2000 и получить точную оценку. Но, делая в случае необходимости выборку, мы получаем возможность обобщать ее результаты для генеральной совокупности. И по этой же причине размер выборки не будет отличаться для больших и маленьких стран.

Репрезентативность и точность

Чтобы понять смысл понятия «репрезентативность», давайте рассмотрим выборку в 15 человек. Как ни странно, если вы сделали ее случайно, она тоже репрезентативна. Более того, вы можете сделать выборку в одну единицу. Представьте ящик с шарами, откуда вы случайным образом берете один шар. Если это случайно выбранный шар, то он тоже будет репрезентировать все шары, что есть в этом ящике. Просто он будет репрезентировать их неточно . Почему? Потому что есть очень большая вероятность ошибиться. В следующий раз мы можем вытащить другой шар и получить другое представление о шарах в ящике. Репрезентировать неточно означает иметь большой разброс оценок.

Точно так же и 15 человек репрезентируют любую генеральную совокупность, но они репрезентируют ее неточно, потому что погрешность, доверительный интервал очень велики. Нам придется добавлять по +/- 33%, чтобы получить 95% вероятности того, что мы попадем в интервал. Если мы готовы это допустить, то берем 15 человек, выясняем, что 7 из них - это менеджеры среднего звена, а далее получаем оценку, что 7/15 от совокупности, то есть 47% +/- 33%, - это и есть оценка доли менеджеров в генеральной совокупности, и это абсолютно корректный вывод. Просто он не имеет никакой ценности. Это мы могли сказать и без обследования. Поэтому, планируя выборку, имеет смысл достигать такого объема, который будет целесообразным с точки зрения соотношения затрат и эффективности.

Все сказанное призвано донести одну простую мысль, которую очень часто не осознают: объем выборки не связан с ее репрезентативностью .

Маленькая выборка неточна, но она все равно может быть репрезентативной. Объемы выборок, которые используются сегодня в массовых опросах в России, почти всегда обладают достаточно высокой точностью.

Угрожает же репрезентативности выборки не ее объем, а смещение, то есть отклонение от принципа случайности.

Нарушение принципа случайности

Если мы начинаем выбирать единицы неслучайным образом, выборка становится нерепрезентативной. Например, если что-нибудь мешает нам отбирать их случайно. Представим себе, что мы хотим отобрать шары из нашего ящика случайным образом, но тут оказывается, что часть шаров кусается. Механизм, при котором мы будем брать только те шарики, которые даются нам в руки, - это механизм, нарушающий случайность и поэтому нарушающий репрезентативность. В этом случае, сколько бы мы шариков ни взяли из ящика (даже если мы возьмем все шарики, которые не кусаются), у нас будет нерепрезентативная выборка, потому что мы не учтем ни одного из тех, что кусаются, - они просто минуют нашу выборку.

Самая большая проблема с кусающимися шарами состоит в том, что они могут отличаться от тех, которые идут к нам в руки, и отличаться как раз по тому признаку, который нас интересует. Такая ситуация называется систематической ошибкой выборки.

Нужно отличать ситуацию неточной репрезентации, которую мы описали выше, от ситуации нерепрезентативности. Это разные проблемы, и у них разные способы решения. Нельзя решить одну из них путем решения другой. Если выборке не хватает репрезентативности, бесполезно ее увеличивать. Более того, большие выборки в социальных обследованиях имеют свойство накапливать ошибки, поэтому с помощью сильного увеличения выборки проблему репрезентации можно только усугубить.

Почему репрезентативность невозможна

В примечаниях к таблицам с результатами опросов часто можно увидеть, что «объем выборки составляет 1600 человек, выборка репрезентативна по полу и возрасту». Из сказанного выше очевидно, что это два разных параметра: указание на репрезентативность не связано с объемом выборки. На самом деле здесь имеется в виду то, что выполнялись определенные процедуры, для того чтобы обеспечить соответствие между выборкой и генеральной совокупностью. Например, чтобы обеспечить репрезентативность по полу, в выборку набирают мужчин и женщин в таких же соотношениях, какие существуют среди россиян по данным переписи. Но репрезентативность по полу не означает репрезентативности, например, по политическим взглядам.

Почему приходится выравнивать выборку по полу и другим социально-демографическим категориям? Потому что подлинную репрезентативность может обеспечить только случайная выборка, а реализовать ее на практике невозможно по массе причин. Как только вы попытаетесь это сделать, вы столкнетесь с множеством проблем - неважно, каким методом вы захотите воспользоваться. Часть респондентов вообще окажется недоступной для вашего метода (скажем, для личных интервью большой проблемой являются дома с домофонами и охраной), еще часть будет отсутствовать, не отвечать или предпочтет заниматься своими делами. Есть люди, у которых есть языковые проблемы, и они не могут с нами говорить. Есть люди, которые не понимают, зачем это нужно, и они не хотят с нами говорить. Все это - серьезные нарушения случайности, которые делают ее реализацию невозможной.

Те, кто сводит проблему репрезентации в массовых опросах к статистике, забывают о том, что люди - это очень специфические шарики. Есть шарики, которые убегают и прячутся. Есть шарики, которые кусаются. Они не пассивные объекты, они дают сдачи. Они говорят: «Я не хочу участвовать в твоем опросе», тем самым нарушают случайность. Поэтому в строгом смысле слова репрезентативность в массовых опросах, конечно, невозможна ни в каком виде.

Выработан механизм, с помощью которого обычно обеспечивается видимость репрезентативности: мы выравниваем выборку по некоторым категориям и делаем вид, что по всем остальным возможным категориям она тоже выровнена. На самом деле у нас нет никаких оснований это утверждать. Но проблема в том, что нет и никакой возможности это проверить - опять же в силу того, что некоторые шарики кусаются. Для того чтобы проверить наличие систематической ошибки, проверяющему пришлось бы сходить к тем, кого мы не опросили, и опросить их. Но они, как мы помним, совсем не хотят, чтобы их опрашивали. Опросить тех, кто категорически не отвечает, невозможно. Поэтому все работают на предположении, что, если мы выровняли выборку по двум-трем параметрам, она репрезентирует всю совокупность, хотя у этого предположения и нет никаких серьезных оснований.

Репрезентативная выборка - технология, заимствованная социологами из статистики. Поэтому она неизбежно несет в себе элементы математико-статистической картины мира. Пожалуй, самое сильное допущение состоит в том, что сам по себе выборочный опрос политически и социологически нейтрален: участие и неучастие в опросе не несет в себе политического смысла и не связано с другими социологически важными параметрами. Но сегодня опросы стали одним из главных политических институтов и превратились в ключевого посредника между крупными корпорациями и потребителями. В этих условиях верить в их политическую стерильность уже невозможно. Однако мы по-прежнему мало знаем о том, как опросы понимаются в современных обществах и что они в действительности репрезентируют.

Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 1. Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 5. Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

В статистике выделяют два основных метода исследования — сплошной и выборочный. При проведении выборочного исследования обязательным является соблюдение следующих требований: репрезентативность выборочной совокупности и достаточное число единиц наблюдений. При выборе единиц наблюдения возможны Ошибки смещения , т. е. такие события, появление которых не может быть точно предсказуемым. Эти ошибки являются объектив­ными и закономерными. При определении степени точности выборочно­го исследования оценивается величина ошибки, которая может прои­зойти в процессе выборки — Случайная ошибка репрезентативности (M ) — Является фактической разностью между средними или относительными величинами, полученными при проведении выборочного исследования и аналогичными величинами, которые были бы получены при проведении исследования на гене­ральной совокупности.

Оценка достоверности результатов исследования предусматривает определение:

1. ошибки репрезентативности

2. доверительных границ средних (или относительных) величин в генеральной совокупности

3. достоверности разности средних (или относительных) величин (по критерию t)

Расчет ошибки репрезентативности (mм) средней арифмети­ческой величины (М):

Где σ — среднее квадратическое отклонение; n — численность выборки (>30).

Расчет ошибки репрезентативности (mР) относительной величины (Р):

Где Р — соответствующая относительная величина (рассчитанная, например, в %);

Q =100 — Ρ% — величина, обратная Р; n — численность выборки (n>30)

В клинических и экспериментальных работах довольно часто приходится использовать Малую выборку, Когда число наблюдений меньше или равно 30. При малой выборке для расчета ошибок репрезентатив­ности, как средних, так и относительных величин, Число наблюде­ний уменьшается на единицу, т. е.

; .

Величина ошибки репрезентативности зависит от объема выборки: чем больше число наблюдений, тем меньше ошибка. Для оценки достоверности выборочного показателя принят следующий подход: показатель (или средняя величина) должен в 3 раза превышать свою ошибку, в этом случае он считается достоверным.

Знание величины ошибки недостаточно для того, чтобы быть уве­ренным в результатах выборочного исследования, так как конкрет­ная ошибка выборочного исследования может быть значительно больше (или меньше) величины средней ошибки репрезентативности. Для оп­ределения точности, с которой исследователь желает получить ре­зультат, в статистике используется такое понятие, как вероят­ность безошибочного прогноза, которая является характеристикой надежности результатов выборочных медико-биологических статистических исследований. Обычно, при проведении медико-биологических статистических исследований используют вероятность безошибочного прогноза 95% или 99%. В наиболее ответственных случаях, когда необходимо сделать особенно важные выводы в теоретическом или практическом отношении, используют вероятность безошибочного прогноза 99,7%

Определенной степени вероятности безошибочного прогноза соот­ветствует определенная величина Предельной ошибки случайной выборки (Δ — дельта) , которая определяется по формуле:

Δ=t * m, где t — доверительный коэффициент, который при большой выборке при вероятности безо­шибочного прогноза 95% равен 2,6; при вероятности безоши­бочного прогноза 99% — 3,0; при вероятности безошибочно­го прогноза 99,7% — 3,3, а при малой выборке определяется по специальной таблице значений t Стьюдента.

Используя предельную ошибку выборки (Δ), можно определить До­верительные границы , в которых с определенной вероятностью безо­шибочного прогноза заключено действительное значение статистичес­кой величины, Характеризующей всю генеральную совокупность (сред­ней или относительной).

Для определения доверительных границ используются следующие формулы:

1) для средних величин:

Где Мген — доверительные границы средней величины в генеральной со­вокупности;

Мвыб — средняя величина, Полученная при проведении исследова­ния на выборочной совокупности; t — доверительный коэффициент, значение которого определяет­ся степенью вероятности безошибочного прогноза, с кото­рой исследователь желает получить результат; mM — ошибка репрезентативности средней величины.

2) для относительных величин:

Где Рген — доверительные границы относительной величины в гене­ральной совокупности; Рвыб — относительная величина, полученная при проведении иссле­дования на выборочной совокупности; t — доверительный коэффициент; mP — ошибка репрезентативности относительной величины.

Доверительные границы показывают, в каких пределах может колебаться размер выборочного показателя в зависимости от причин случайного характера.

При малом числе наблюдений (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Указывающей на имеющееся число степеней свободы (n), Которое равно n-1.