Типы выборок и их применение. Понятие выборки, типы выборки Психометрическая адаптация методики SAT-M на Российской выборке старшеклассников с разной успешность

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в статистике и при статистических исследованиях. Проверить полностью определенное социальное явление чаще всего бывает невозможным. Например, как узнать мнение населения или всех жителей определенного города по какому-либо вопросу? Спрашивать абсолютно всех - дело практически невозможное и очень трудоемкое. В таких случаях нам и необходима выборка. Это именно то понятие, на котором основаны практически все исследования и анализы.

Что такое выборка

При анализе конкретного социального явления необходимо получить информацию о нем. Если взять любое исследование, то можно заметить, что исследованию и анализу подлежит не каждая единица совокупности объекта исследования. Во внимание берется только определенная часть всей этой совокупности. Вот этот процесс и является выборкой: когда исследуются только определенные единицы из множества.

Конечно же, многое зависит от вида выборки. Но есть и основные правила. Главное из них гласит, что отбор из совокупности должен быть абсолютно случайным. Единицы совокупности, которые будут использованы, не должны быть выбраны из-за какого-либо критерия. Грубо говоря, если необходимо набрать совокупность из населения определенного города и отобрать только мужчин, то в исследовании будет ошибка, потому что отбор был проведен не случайно, а отобран по гендерному признаку. Практически все методы выборки основаны на этом правиле.

Правила выборки

Для того чтобы отобранная совокупность отражала основные качества всего явления, она должна быть построена по конкретным законам, где основное внимание необходимо уделять следующим категориям:

  • выборка (выборочная совокупность);
  • генеральная совокупность;
  • репрезентативность;
  • ошибка репрезентативности;
  • единица совокупности;
  • способы построения выборки.

Особенности выборочного наблюдения и составления выборки заключаются в следующем:

  1. Все полученные результаты основаны на математических законах и правилах, то есть при правильном проведении исследования и при правильных расчетах результаты не будут искажены по субъективному признаку
  2. Дает возможность значительно быстрее и с меньшими затратами времени и ресурсов получить результат, изучая не весь массив событий, а только их часть.
  3. Может быть применено для изучения различных объектов: от конкретных вопросов, например, возраст, пол интересующей нас группы, к изучению общественного мнения или уровня материального обеспечения населения.

Выборочное наблюдение

Выборочное - это такое статистическое наблюдение, при котором исследованию подвергается не вся совокупность изучаемого, а лишь некоторая, отобранная определенным образом ее часть, а полученные результаты изучения этой части распространяются на всю совокупность. Эта часть называется выборочной совокупностью. Это единственный способ изучения большого массива объекта исследования.

Но выборочное наблюдение может использоваться только в тех случаях, когда необходимо исследовать лишь малую группу единиц. Например, при исследовании соотношения мужчин к женщинам в мире, будет использоваться выборочное наблюдение. По понятным причинам - взять во внимание каждого жителя нашей планеты невозможно.

А вот при таком же исследовании, но не всех жителей земли, а определенного 2 «А» класса в конкретной школе, определенного города, определенной страны, может обойтись без выборочного наблюдения. Ведь проанализировать весь массив объекта исследования - вполне возможно. Необходимо посчитать мальчиков и девочек этого класса - вот и будет соотношение.

Выборочная и генеральная совокупность

На самом деле все не так сложно, как звучит. В любом объекте изучения есть две системы: генеральная и выборочная совокупность. Что же это такое? Все единицы относятся к генеральной. А к выборочной - те единицы общей совокупности, которые были взяты для выборки. Если все правильно сделано, то отобранная часть будет составлять уменьшенный макет всей (генеральной) совокупности.

Если говорить о генеральной совокупности, то можно выделить всего две ее разновидности: определенная и неопределенная генеральная совокупность. Зависит от того, известно ли общее количество единиц данной системы или нет. Если это определенная генеральная совокупность, то выборку будет делать легче из-за того, что известно, какой процент от общего количества единиц будет составлять выборка.

Этот момент очень необходим в исследованиях. Например, если необходимо исследовать процент недоброкачественной продукции кондитерских изделий на конкретном заводе. Допустим, что генеральная совокупность уже определена. Точно известно, что в год это предприятие производит 1000 кондитерских изделий. Если сделать выборку 100 случайных кондитерских изделий из этой тысячи и отправить их на экспертизу, то погрешность будет минимальной. Грубо говоря, исследованию подлежало 10 % всей продукции, и по результатам можем, приняв во внимание ошибку репрезентативности, говорить о недоброкачественности всей продукции.

А если провести выборку 100 кондитерских изделий из неопределенной генеральной совокупности, где их на самом деле было, допустим, 1 млн единиц, то результат выборки и самого исследования будет критически неправдоподобным и неточным. Чувствуете разницу? Поэтому определенность генеральной совокупности в большинстве случаев крайне важна и очень сильно влияет на результат исследования.

Репрезентативность совокупности

Итак, теперь один из самых главных вопросов - какой должна быть выборка? Это самый главный момент исследования. На этом этапе необходимо рассчитать выборку и отобрать единицы из общего числа в нее. Совокупность была отобрана правильно, если определенные особенности и характеристики генеральной совокупности остается и в выборочной. Это называется репрезентативностью.

Иными словами, если после отбора часть сохраняет те же самые тенденции и особенности что и все количество исследуемого, то такая совокупность называется репрезентативной. Но не каждая определенная выборка может быть отобрана из репрезентативной совокупности. Бывают и такие объекты исследования, выборка которых просто не может быть репрезентативной. Отсюда и возникает понятие ошибки репрезентативности. Но об этом поговорим подробнее чуть больше.

Как сделать выборку

Итак, чтобы репрезентативность была максимальной, выделяют три основные правила выборки:


Погрешность (ошибка) репрезентативности

Главной характеристикой качества выбранной выборки является понятие «погрешности репрезентативности». Что же это такое? Это определенные расхождения между показателями выборочного и сплошного наблюдения. По показателям погрешности репрезентативность делят на надежную, обычную и приближенную. Иначе говоря, допустимыми являются отклонения в размере до 3 %, от 3 до 10 % и от 10 до 20 % соответственно. Хотя в статистике желательно, чтобы погрешность не превышал 5-6 %. В противном случае есть повод говорить о недостаточной репрезентативности выборки. Для вычисления погрешности репрезентативности и того, как она влияет на выборочную или генеральную совокупность, во внимание берутся многие факторы:

  1. Вероятность, с которой необходимо получить точный результат.
  2. Количества единиц выборочной совокупности. Как уже упоминалось ранее, чем меньше единиц составит выборка, тем больше будет ошибка репрезентативности, и наоборот.
  3. Однородность исследуемой совокупности. Чем более разнородной является совокупность, тем больше будет погрешность репрезентативности. Возможность совокупности быть репрезентативной зависит от однородности всех ее составляющих единиц.
  4. Способ отбора единиц в выборочную совокупность.

В конкретно заданных исследованиях процент погрешности среднего значения обычно задается самим исследователем на основании программы наблюдения и согласно данным ранее проведенных исследований. Как правило, считается допустимой предельная ошибка выборки (ошибка репрезентативности) в пределах 3-5 %.

Больше - не всегда лучше

Также стоит помнить, что главное при организации выборочного наблюдения - это доведение его объема до допустимого минимума. При этом не следует стремиться к чрезмерному уменьшению границ погрешности выборки, так как это может привести к неоправданному увеличению объема данных выборки и, следовательно, к повышению расходов на проведение выборочного наблюдения.

В то же время нельзя и чрезмерно увеличивать размер погрешности репрезентативности. Ведь в этом случае, хотя и произойдет уменьшение объема выборочной совокупности, это приведет к ухудшению достоверности полученных результатов.

Какие вопросы обычно ставится перед исследователем

Любое исследование если и проводится, то для какой-то цели и для получения каких-то результатов. При проведении выборочного исследования, как правило, ставятся начальные вопросы:


Способы отбора единиц исследования в выборку

Не каждая выборка является репрезентативной. Иногда один и тот же признак по-разному выражен в целом и в ее части. Для достижения требований репрезентативности целесообразным является использование различных приемов создания выборки. Причем использование того или иного способа зависит от конкретных обстоятельств. Среди таких приемов создания выборки выделяют:

  • случайный отбор;
  • механический отбор;
  • типичный отбор;
  • серийный (гнездовой) отбор.

Случайный отбор представляет собой систему мероприятий, направленных на случайный отбор единиц совокупности, когда вероятность попасть в выборку является равной для всех единиц генеральной совокупности. Этот прием целесообразно применять только в случае однородности и небольшого количества присущих ей признаков. В противном случае некоторые характерные черты рискуют быть не отраженным в выборке. Признаки случайного отбора лежат в основе всех других способов построения выборки.

При механическом отбор единиц проводится через определенный интервал. Если необходимо сформировать выборку конкретных преступлений, можно изымать из всех карточек статистического учета зарегистрированных преступлений каждую 5-ю, 10-ю или 15-ю карточку в зависимости от их общего количества и имеющихся размеров выборки. Недостатком этого способа является то, что перед отбором необходимо иметь полный учет единиц совокупности, затем нужно провести ранжирование и только после этого можно проводить выборку с определенным интервалом. Этот метод занимает много времени, поэтому он и не часто используется.

Типичный (районированный) отбор - вид выборки, при котором генеральную совокупность разделяют на однородные группы по определенному признаку. Иногда исследователи употребляют вместо «групп» другие термины: «районы» и «зоны». Затем из каждой группы в случайном порядке отбирается определенное количество единиц пропорционально удельному весу группы в общей совокупности. Типичный отбор часто осуществляется в несколько этапов.

Серийный отбор - это такой метод, при котором отбор единиц проводится группами (сериями) и обследованию подлежат все единицы отобранной группы (серии). Преимуществом этого способа является то, что иногда отобрать отдельные единицы сложнее, чем серии, например, при изучении личности, которая отбывает наказание. В рамках отобранных районов, зон применяется изучение всех единиц без исключения, например, изучение всех лиц, отбывающих наказание в каком-то определенном учреждении.

На сегодняшний день существует огромное количество классификаций типов выборки, различные исследователи по-разному классифицируют свои и чужие способы формирования выборочной совокупности. В разных изданиях можно столкнуться с различными названиями одной и той же выборки, что затрудняет процесс их изучения. Рассмотрим одну из этих классификаций, объединяющую в себе все те, которые встречаются в используемой литературе.

Случайная выборка.

Такая выборка является наиболее точной, репрезентативность (способность выборки «правильно отражать состояние дел в генеральной совокупности, из которой она извлечена и для изучения которой предназначена») её достигается при помощи математических методов. Особенность случайной выборки заключается в том, что все единицы генеральной совокупности имеют равную вероятность попасть в выборочную совокупность. По определению, при случайной выборке выполняется принцип случайности. «Равенство шансов попасть в выборочную совокупность - насколько необходимое, настолько же и сложно осуществимое требование. Для обеспечения этой «статистической демократии» равенства шансов социолог, как правило, формирует основу выборки», то есть полный и точный перечень или пронумерованный список всех элементов генеральной совокупности. Например, основой выборки могут выступать списки работников предприятия, телефонные справочники, регистрационные списки владельцев автомобилей, списки избирателей на избирательных участках, домовые книги, а так же составленные самим социологом различные списки в зависимости от целей исследования (список улиц, на которых потом проводится отбор респондентов).

Случайная выборка обычно применяется при опросах общественного мнения перед выборами, референдумами и другими массовыми мероприятиями.

Плюсом данного метода является полное соблюдения принципа случайности и, как следствие - избежание систематических ошибок.

Случайная выборка обладает рядом недостатков, которые затрудняют ее применение на практике:

  • 1. Необходимость наличия списка элементов генеральной совокупности. Трудность здесь заключается в том, что получить такой список далеко не всегда представляется возможным. Следовательно, в тех случаях, когда невозможно получить список элементов генеральной совокупности, невозможно проводить и случайный отбор.
  • 2. Сложность проведения опроса. Процедура опроса при случайном отборе является очень громоздкой и требующей много времени. Ведь в результате случайного отбора исследователь получает на выходе список фамилий респондентов (телефонов, адресов и т.д.), которых необходимо опросить. То есть, интервьюерам приходится «бегать» за каждым респондентом и добиваться от него согласия ответить на «парочку вопросов».

Усложняет эту задачу и то, что респондентов порой бывает не так просто найти; в случае отсутствия респондента его приходится посещать по нескольку раз (по крайней мере, не менее трех раз).

Все вышеперечисленное ведет к повышенным временным затратам на проведение опроса. Временные затраты можно уменьшить только благодаря привлечению дополнительных интервьюеров, т.е. только за счет дополнительных денежных расходов. Кроме этого возникает еще так называемая проблема не ответивших.

3. Сравнительно большой объем выборки. Для получения результатов со сравнительно высокой степенью точности случайный отбор требует достаточно большого объема выборки по сравнению с другими видами отбора. Другими словами, случайный отбор обладает меньшей степенью точности, что, в конечном счете, является причиной его меньшей эффективности. А выборка считается более эффективной, если: при одинаковых расходах она более точна, а при одинаковой точности она более дешевая.

Простой случайный отбор.

«Простой случайный отбор из генеральной совокупности предполагает что:

  • · генеральная совокупность однородна;
  • · все её элементы доступны для исследования в одинаковой степени;
  • · имеется полный список элементов, составляющих генеральную совокупность (или хотя бы репрезентативная основа выборки);
  • · к этому списку применяются процедуры случайного отбора, с использованием таблиц или компьютерных генераторов случайных чисел».

Метод систематической выборки.

Этот метод заключается в том, что из основы выборки, которая представляет собой полный пронумерованный список элементов генеральной совокупности, через равные интервалы (шаги), например каждый второй, третий или десятый, осуществляется отбор заданного числа респондентов.

Интервал (k) рассчитывается по формуле:

где N - полное число элементов генеральной совокупности, а n - число элементов выборочной совокупности.

Первый респондент непременно отбирается случайным образом, по таблице случайных чисел.

Этот метод может привести к систематической ошибке, если список ранжирован по какому-либо признаку, так как тогда само определение места начала случайного отбора будет влиять на средние характеристики всей выборки. Когда генеральная совокупность слишком велика или исследователю известен не полный её список, необходимо знать правило упорядочивания элементов в генеральной совокупности, так как интервал отбора может совпасть со скрытой периодичностью распределения признака в генеральной совокупности, а это приведет в свою очередь к смещениям.

Метод систематической выборки позволяет даже при не большом объёме выборки изучить достаточно большие генеральные совокупности с помощью простой техники отбора.

Серийная выборка.

При серийной выборке единицами отбора выступают не сами индивиды, а группы (кластеры или гнёзда). Обычно генеральную совокупность расчленяют на естественные гнезда, так как «при формировании искусственных гнезд создаётся трудность отнесения каждого отдельного элемента генеральной совокупности только к одному гнезду и обеспечения приблизительно одинаковых размеров гнезд» по определённому признаку. В качестве кластеров выступают семьи, бригады, классы, студенческие группы, школы - при изучении школьников, и больницы - при изучении пациентов, а так же районы, города и такое прочее.

Применение кластерной процедуры основано на четырёх обязательных условиях:

  • 1) каждый элемент генеральной совокупности может принадлежать только к одному кластеру;
  • 2) должно быть известно или поддаваться оценке с приемлемой степенью точности число элементов генеральной совокупности каждого кластера;
  • 3) кластеры должны быть не разбросаны пространственно и не слишком велики, иначе кластерная выборка теряет свои преимущества в финансовом смысле;
  • 4) выбор кластеров должен быть осуществлен так, что бы рост выборочной ошибки был минимальным (разные кластеры не должны быть однородными по исследуемому признаку и слишком большими).

После отбора кластеров они, как правило, подвергаются сплошному исследованию, но при необходимости осуществляют выборку из гнезда.

«Число респондентов, отбираемых из серии, пропорционально общему числу элементов в ней. Из каждой (серии) можно осуществить отбор единиц анализа при помощи собственно-случайной или механической выборки. Количество респондентов, подлежащих отбору из каждой серии в отдельности, определяется из соотношения:

где i - число серий, выделенных в генеральной совокупности, Ni - число единиц в серии».

Достоинствами гнездового отбора можно назвать - организационную простоту и удобство опроса респондентов, которые находятся вместе, а не разбросаны пространственно, а так же то, что респонденты изучаются в их естественном окружении, а это, конечно, влияет на качество получаемой первичной информации. Иногда гнёзда подвергаются сплошному исследованию, а это гораздо проще, чем бегать за каждым респондентом, и при этом мы получаем выигрыш и в средствах, и во времени.

Но при этом необходимо следить, чтобы количество групп в генеральной совокупности было достаточно большим, иначе ни о каком принципе случайности не может быть и речи. Кроме того, возможны неточности из-за того, что на момент опроса не удается застать всех членов группы.

Стратифицированная выборка.

Применяется в тех случаях, «когда цели и задачи исследования требуют вероятностного отбора респондентов по каким-либо групповым критериям», или когда мы имеем дело с неоднородной генеральной совокупностью, или когда она слишком велика, или имеет сложную структуру, и основу выборки для всей генеральной совокупности получить сложно, чем для отдельных её частей. Для повышения точности результатов отбора процедура такой выборки состоит из деления генеральной совокупности на страты («страта» - это социальная, возрастная, или иная группа, буквально «слой»), которые являются однородными и используются для изучения электоральных намерений, социального класса и возраста, отношений к уровню доходов и другое. После определения страт в каждой из них осуществляется простая случайная или систематическая выборка, при наличии собственной основы выборки.

Выделяют три способа размещения выборки (для того чтобы выборка не теряла свой случайный характер):

  • 1. Пропорциональное размещение выборки: из каждой страты отбирается определённый процент (5-10%) единиц отбора, «объем выборки из страты пропорционален размеру страты в генеральной совокупности». Этот способ очень простой и надёжный.
  • 2. Равномерное размещение выборки: из каждой страты отбирается одинаковое число единиц (например, по 200-300). Применяется в случаях, когда исследователю неизвестны объемы страт исходной совокупности.
  • 3. Оптимальное размещение выборки: считается, что самые неоднородные страты должны быть представлены в выборке наибольшим объёмом единиц, а однородные - наименьшим. Этот же способ используется очень редко, так как на практике он трудно реализуется из-за отсутствия информации о вариации признаков в генеральной совокупности.

Когда стратифицированную выборку называют районированной, значит стратификация проходит по территориальному принципу. Например, при опросах часто применяют районирование по областям.

Этот метод особенно хорош, когда генеральная совокупность неоднородна. Однако стратифицированная выборка может быть применена лишь при наличии дополнительной информации о генеральной совокупности (например, нам необходимо процентное соотношение мужчин и женщин, в случае, если мы хотим стратифицировать выборку по полу). Отсутствие такой информации делает применение стратифицированной выборки невозможным. Еще один недостаток стратифицированного отбора - это возможность систематической ошибки.

Неслучайная выборка.

При таком способе отбора единиц мы не можем заранее рассчитать вероятность каждого элемента попасть в состав выборочной совокупности, что не даёт возможности рассчитать репрезентативность выборки. В этом случае она является не обязательной, так как количественные параметры объекта не играют решающей роли в исследовании, а целью его будет - углублённое качественное описание какого-либо отдельного социального феномена.

Обычно неслучайный отбор применяют в следующих случаях:

  • 1. Невозможно провести случайный отбор вследствие :
    • · Ограниченности ресурсов (недостаток денежных средств, нехватка времени, отведённого на проведение исследования, отсутствие списков единиц генеральной совокупности и так далее)
    • · Этических проблем (нельзя заставить респондента отвечать, если он отказывается)
  • 2. Отсутствие необходимости проведения случайного отбора.

Отбор в такой выборке осуществляется не по принципам рандомизации (которые обеспечивают «случайность» отбора элемента генеральной совокупности в выборку. К ним относятся, например, случайный выбор первого адреса из списка, запрет на обследование подряд однотипных квартир, процедуры случайного отбора респондентов в семье»), а по субъективным критериям - доступности, типичности, равного представительства и такое прочее. Главный недостаток неслучайных методов заключается в том, что не существует строгих статистических методов, которые позволили бы обобщить полученные результаты. Оценка точности и валидности таких результатов (и выводов в исследовании) остаётся делом субъективных суждении, опыта и теоретических предпочтений.

Стихийная выборка.

Исследователь при применении данного метода в некоторой степени контролирует выборку (например, публикуя анкету в журнале, он обращается только к читателям этого журнала), но решение о включении в выборку принимает сам респондент. То есть, её размер заранее часто не известен, а определяется конкретным условием - активностью респондентов. Значит, нельзя и заранее определить структуру массива респондентов, которые заполнят и вернут анкеты. Поэтому этот метод не претендует на репрезентативность выборки, а выводы исследования очень часто распространяются только на опрошенную совокупность.

Сферы применения стихийной выборки:

  • 1) анкеты, публикуемые в газетах и журналах;
  • 2) почтовые опросы;
  • 3) опросы покупателей в залах супермаркетов;
  • 4) опрос пассажиров на остановках и в общественном транспорте.

Многоступенчатая и одноступенчатая выборки.

Выборка делится на одноступенчатую и многоступенчатую по количеству ступеней в отборе. Одноступенчатая выборка предполагает, что из генеральной совокупности сразу осуществляется отбор респондентов для опроса. Процедура же многоступенчатой выборки включает несколько ступеней, при этом на каждой из них единица отбора меняется. «Различают единицы отбора первой ступени (первичные единицы), единицы отбора вторичной ступени (вторичные единицы) и так далее. Объекты самой нижней ступени, с которых ведется непосредственный сбор информации, называются единицами наблюдения». Например, задача исследования - изучение свободного времени студентов всей страны.

Процедура будет строиться следующим образом:

  • 1. отбор регионов;
  • 2. отбор города в них, где есть вузы;
  • 3. отбор учебных заведений, в которых будет проводиться исследование;
  • 4. выбор академических групп;
  • 5. отбор студентов.

Многоступенчатая выборка осуществляется не в локальных масштабах, а в региональных, общенациональных, международных. Использовать одноступенчатую выборку в таких масштабах нерационально, да и очень дорого обойдётся такое исследование. Многоступенчатая выборка в этом плане экономична и упрощает подход к выбору объекта.

Но нужно учитывать, что чем больше ступеней в выборке, тем больше будет ошибка репрезентативности, возрастёт вероятность погрешностей, что приведёт к искажению результатов исследования.

Рассмотрев некоторые типы выборок, необходимо также уяснить, что такое объем выборки и какие бывают ошибки выборки и как их избежать.

Выборкой называется любая подгруппа элементов (испытуемых, респондентов), выделенная из генеральной совокупности для проведения эксперимента. При этом отдельный индивид из выборки, с которым работает психолог, называется испытуемым (респондентом).

Полное или сплошное исследование всей генеральной совокупности – задача нереальная. Поэтому исследования проводятся на репрезентативных выборках.

Варианта (х) – это единица выборки, каждое отдельное х – результат отдельного измерения.

Объем выборки (n) – общее число вариант в выборке. Объем выборки может быть любым, но не меньшим чем два респондента. В статистике различают малую (n < 30), среднюю (30 < n < 100) и большую выборку n >100

Частота (f)- число, показывающее сколько раз встречается в выборке каждая варианта х.

Частость (ω) – это доля каждой частоты в общем объеме выборки, т.е. ω = f /n.

Выборки могут быть независимыми (несвязными) и зависимыми (связными).

Выборки называются независимыми (несвязными), если процедура эксперимента и полученные результаты измерения некоторого свойства у испытуемых одной выборки не оказывают влияния на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых (респондентов) другой выборки.

Выборки называются зависимыми (связными), если процедура эксперимента и полученные результаты измерения некоторого свойства у испытуемых одной выборки оказывают влияния на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых (респондентов) другой выборки.

К выборке применяется ряд обязательных требований, определенных прежде всего целями и задачами исследования. Одним из важных требований является требование однородности выборки. Оно означает, что психолог, изучая, например, подростков, не может включить в эту же выборку взрослых людей.

Все требования, предъявляемые к любой выборке, сводятся к тому, что на ее основе психологом должна быть получена наиболее полная, неискаженная информация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна быть репрезентативной. Репрезентативная выборка, или представительная выборка, - это такая выборка, в которой все основные признаки генеральной совокупности представлены приблизительно в той же пропорции и стой же частотой, с которой данный признак выступает в данной генеральной совокупности. Репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности, которую она должна отражать. Репрезентативность выборки позволяет распространить полученные на ней выводы на всю генеральную совокупность.


Репрезентативность выборки очень важна, тем не менее по объективным причинам соблюдать ее крайне сложно. Так, хорошо известен факт, что 70 – 90% всех психологических исследований человека проводились в США со студентами психологами. В лабораторных исследования, выполняемых на животных, наиболее распространенным объектом изучения являются крысы. Поэтому неслучайно психологию раньше называли «наукой о студентах-второкурсниках и белых крысах». Выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всего населения страны.

Возникает закономерный вопрос, как сформировать репрезентативную выборку? Рассмотрим два метода, обеспечивающих репрезентативность выборки.

Первый метод формирования простой случайной выборки. Получить простую случайную выборку можно путем обычной жеребьевки (по аналогии с лотореей) или с помощью специальных таблиц случайных чисел. В последнем случае элементы генеральной совокупности перенумеровываются и из таблицы случайных чисел выписываются номера элементов, которые должны быть взяты в выборку. Данная процедура трудно осуществима, поскольку для ее реализации необходимо учитывать каждого представителя генеральной совокупности.

Второй метод основывается на понятии стратифицированной случайной выборки . Для этого необходимо разбить элементы генеральной совокупности на страты (группы) в соответствии с некоторыми характеристиками (возраст, пол, социальная принадлежность, национальность, место жительства (город, деревня)). Случайная выборка производится отдельно из каждой группы (страты).

Объем выборки зависит от задач исследования и от статистических методов, которые предполагается использовать. Некоторые непараметрические методы могут использоваться при сравнении групп численностью в 5-7 человек, а факторный анализ наиболее адекватен, если объем выборки составит около 100 человек.

Учебные цели

  1. Ясно различать понятия переписи (ценза) и выборки.
  2. Знать сущность и последовательность шести этапов у реализуемых исследователями для получения выборочной совокупности.
  3. Определить понятие "основа выборки".
  4. Объяснить, в чем состоит отличие вероятностной и детерминированной выборки.
  5. Различать выборку фиксированного объема и многоступенчатые (последовательные) выборки.
  6. Объяснить, что представляет собой преднамеренная выборка, и описать как сильные, так и слабые ее стороны.
  7. Определить понятие квотной выборки.
  8. Объяснить, чем является параметр в процедуре выборки.
  9. Объяснить, что такое производная совокупность.
  10. Объяснить, почему понятие выборочного распределения является важнейшим понятием статистики.

Итак, исследователь точно определил задачу и заручился приемлемыми для ее решения схемой исследований и инструментами сбора данных. Следующий этап исследовательского процесса должен заключаться в отборе тех элементов, которые будут обследоваться. Можно обследовать каждый элемент данной популяции, произведя полную перепись этой популяции. Полное обследование совокупности именуется переписью (цензом). Существует и другая возможность. Статистическому обследованию подвергается некая часть популяции, выборка элементов большой группы, и по данным, полученным на этом подмножестве, делаются некие выводы касательно всей группы. Возможность распространения результатов, полученных на основе выборочных данных, на большую группу зависит от метода, посредством которого была произведена выборка. Большая часть настоящей главы будет посвящена тому, как должна формироваться выборка и почему это так.

Перепись (ценз)
Полная перепись совокупности (популяции).
Выборка
Совокупность элементов подмножества большей группы объектов.

Понятие «популяция», или «совокупность», может относиться не только к людям, но и к фирмам, работающим в обрабатывающей промышленности, к организациям розничной или оптовой торговли или даже к совершенно неодушевленным объектам, таким как детали, производимые на предприятии; это понятие определяется как все множество элементов, удовлетворяющих неким заданным условиям. Этими условиями однозначно определяются как элементы, принадлежащие к целевой группе, так и элементы, которые следует исключить из рассмотрения.

Исследование, имеющее целью определение демографического профиля потребителей замороженной пиццы, должно начинаться с выяснения, кого следует и кого не следует относить к таковым. Относятся ли к этой категории лица, хотя бы однажды пробовавшие такую пиццу? Лица, покупающие хотя бы одну пиццу в месяц? В неделю? Лица, съедающие за месяц такое количество пиццы, которое превышает некий заданный минимум? Исследователь должен быть очень точным при определении целевой группы. Необходимо также следить за тем, чтобы выборка формировалась именно из целевой, а не «какой-то» совокупности, что имеет место в случае неподходящей или неполной основы выборки. Последняя является перечнем элементов, из которых будет формироваться реальная выборка.

Исследователь может предпочесть выборочный метод обследованию всей совокупности по нескольким причинам. Во-первых, полное обследование совокупности даже сравнительно небольшого размера требует очень больших материальных и временных затрат. Зачастую к моменту завершения переписи и обработки данных информация уже устаревает. В некоторых случаях ценз попросту невозможен. Скажем, исследователи задались целью проверить соответствие реального срока службы электрических ламп накаливания расчетному, для чего им необходимо держать их во включенном состоянии до момента выхода из строя. Если исследовать таким образом весь запас ламп, будут получены достоверные данные, однако торговать будет уже нечем.

И наконец, к вящему изумлению новичков, исследователь может предпочесть выборочный метод цензу, стремясь к точности результатов. Проведение переписей требует привлечения большого штата сотрудников, что оборачивается возрастанием вероятности появления систематических (не связанных с выборкой) ошибок. Это обстоятельство является одной из причин того, почему Бюро переписи США использует выборочные наблюдения для проверки точности разного рода переписей. Вы не ослышались: выборочные исследования могут проводиться для проверки точности данных ценза.

Этапы проектирования выборки

На рис. 15.1 показана состоящая из шести шагов последовательность, которой может придерживаться исследователь, занятый составлением выборки. Прежде всего необходимо определить целевую совокупность или набор элементов, о которых исследователь желает что-то узнать.

Например, при изучении предпочтений детей исследователям необходимо решить, будет ли обследуемая популяция состоять только из детей, только из родителей или из тех и других.

Совокупность (популяция)
Множество элементов, удовлетворяющих неким заданным условиям.
Основа (база) выборки
Перечень элементов, из которых будет производиться выборка; может состоять из территориальных единиц, организаций, лиц и других элементов.

Некая компания апробировала свои электрические «гонки» только на детях. Детей они привели в полный восторг. Родители отнеслись к новинке иначе. Мамам не понравилось то обстоятельство, что аттракцион не приучает детей к бережному отношению к машинам, а пап не устраивало то, что продукт был сделан как игрушка.
Возможна и обратная ситуация. Некая фирма приступила к производству нового продукта питания и развернула общенациональную рекламную кампанию, в которой основная роль была отведена не по годам развитому ребенку.Фирма проверяла действенность рекламных роликов только на матерях, которые млели от восторга. Дети же сочли этого «акселерата», а вместе с ним и сам рекламируемый продукт, противным. Продукту пришел конец 1 .

Исследователь должен определиться с тем, из кого или из чего будет состоять соответствующая совокупность: из индивидов, семей, фирм, иных организаций, операций с кредитными картами и т. д. Принимая подобные решения, необходимо определиться и с элементами, которые должны быть исключены из популяции. Должна производиться как временная, так и географическая привязка элементов, на которые в ряде случаев могут налагаться дополнительные условия или ограничения. Например, если речь идет об индивидах, искомая популяция может состоять только из лиц старше 18 лет, или только из женщин, или только из лиц с образованием не ниже среднего.

Задача определения географических границ для целевой популяции при международных маркетинговых исследованиях может представлять особую проблему, поскольку при этом возрастает неоднородность рассматриваемой системы. Скажем, относительное соотношение городских и сельских территорий может существенно изменяться от страны к стране. Территориальный аспект оказывает серьезное влияние на состав населения и в пределах одной страны. Например, на севере Чили компактно проживает преимущественно индейское население, в южных же районах страны живут главным образом потомки европейцев.

Охват (инцидентность)
Выраженная в процентах доля элементов популяции или группы, удовлетворяющих условиям включения в состав выборки.

Вообще говоря, чем проще определяется целевая популяция, тем выше ее охват (инцидентность) и тем легче и дешевле процедура формирования выборки. Охват (инцидентность) соответствует выраженной в процентах доле элементов популяции или группы, которые удовлетворяют условиям включения в состав выборки. Охват непосредственно влияет на временные и материальные затраты, необходимые для проведения обследования. Если охват велик (т. е. большая часть элементов популяции удовлетворяет одному или нескольким простым критериям, используемым для выявления потенциальных респондентов), временные и материальные затраты, необходимые для сбора данных, сводятся к минимуму. И наоборот, с увеличением количества критериев, которым должны удовлетворять потенциальные респонденты, возрастают и материальные, и временные издержки.

На рис. 15.2 показана доля взрослого населения, занимающегося теми или иными видами спорта. Данные рисунка свидетельствуют о том, что обследовать людей, занимающихся мотоциклетным спортом (всего 3,6% от общего числа взрослых), куда сложнее и накладней, чем обследовать людей, совершающих регулярные оздоровительные прогулки (27,4% от общего числа взрослых). Главное, чтобы исследователь был точен в определении того, какие элементы должны включаться в обследуемую совокупность и какие элементы должны исключаться из нее. Четкая постановка цели исследования существенно облегчает решение этой задачи. Второй этап процесса отбора выборки состоит в определении ее основы, которая, как вы уже знаете, является перечнем элементов, из которых будет производиться выборка. Пусть целевой совокупностью некоего исследования являются все семьи, проживающие в районе Далласа. На первый взгляд, хорошей и легкодоступной основой выборки может стать телефонный справочник Далласа. Тем не менее при более внимательном рассмотрении становится очевидным, что содержащийся в справочнике список семей не вполне корректен, ибо номера некоторых семей в нем пропущены (разумеется, в него не входят и семьи, не имеющие телефона), некоторые же семьи имеют по несколько телефонных номеров. Лица, недавно поменявшие место жительства и, соответственно, номер своего телефона, также не присутствуют в справочнике.

Опытные исследователи приходят к выводу, что точное соответствие между основой выборки и интересующей их целевой совокупностью наблюдается весьма редко. Один из наиболее творческих этапов работы при разработке выборки — это определение подходящей основы выборки в тех случаях, когда составление списка элементов совокупности вызывает затруднения. Это может потребовать формирования выборки из рабочих блоков и префиксов, когда, например, используется метод случайного набора номера из-за недостатков телефонных справочников. Однако значительное увеличение рабочих блоков в течение последних 10 лет сделало эту задачу более трудной. Подобные ситуации могут возникать и при выборочном наблюдении территориальных зон или организаций с последующим взятием подвыборок, когда, скажем, целевой популяцией являются индивиды, но точного актуального их списка нет.

Источник: основано на данных, содержащихся в «SSI-LITe TM: L ow Incidence T argeted S ampling» (Fairfield, Conn.: Survey Sampling, Inc., 1994).

Третий этап процедуры составления выборки тесно связан с определением основы выборки. Выбор метода или процедуры составления выборки во многом зависит от принятой исследователем основы выборки. Различные типы выборок требуют различных типов основ выборки. В этой и в следующей главе будет дан обзор основных типов выборок, используемых в маркетинговых исследованиях. При их описании должна стать очевидной связь основы выборки и метода ее формирования.

Четвертый этап процедуры составления выборки состоит в определении объема выборки. Эта проблема обсуждается в гл. 17. На пятом этапе исследователю необходимо реально отобрать элементы, которые будут подвергнуты обследованию. Используемый для этого способ определяется избранным типом выборки; при обсуждении методов выборки мы поговорим и об отборе ее элементов. И наконец, исследователю необходимо реально обследовать выделенных респондентов. На этом этапе существует большая вероятность совершения ряда ошибок.
Эти проблемы и некоторые методы их разрешения рассматриваются в гл. 18.

Типы планов выборки (выборочного контроля)

Все методы контроля выборки могут быть разделены на две категории: наблюдение за вероятностными выборками и наблюдение за детерминированными выборками. В вероятностную выборку каждый член совокупности может включаться с некой заданной ненулевой вероятностью. Вероятность включения в выборку тех или иных членов совокупности может быть различной, но вероятность включения в нее каждого элемента известна. Эта вероятность определяется особой механической процедурой, используемой для отбора элементов выборки.

Для детерминированных выборок оценка вероятности включения любого элемента в выборку становится невозможной. Гарантировать репрезентативность такой выборки нельзя. Например, Allstate Corporation разрабатывала систему для того, чтобы обрабатывать данные по предъявлению требований о страховом возмещении 14 млн домохозяйств (своих клиентов). Компания планирует использовать эти данные для определения закономерностей спроса на свои услуги — например, вероятности того, что домохозяйство, владеющее «Mersedes Benz», будет также иметь дом для отдыха (которому будет требоваться страховка). Несмотря на то, что база данных очень велика, компания не располагает средствами оценки вероятности того, что какой-либо конкретный клиент предъявит требование. Компания, таким образом, не может быть уверена в том, что данные о клиентах, которые предъявляют требования, репрезентативны по отношению ко всем клиентам компании; и в еще меньшей степени — по отношению к потенциальным клиентам.

Все детерминированные выборки основаны скорее на частной позиции, суждении или предпочтении исследователя, а не на механической процедуре отбора элементов выборки. Подобные предпочтения порой могут давать хорошие оценки характеристик совокупности, однако способа объективного определения соответствия выборки поставленной задаче не существует. Оценка точности результатов выборки может быть произведена только в том случае, если были известны вероятности отбора тех или иных элементов. По этой причине работа с вероятностной выборкой обычно считается более совершенным методом, позволяющим оценить величину ошибки выборочного наблюдения. Выборки могут подразделяться также на выборки фиксированного объема и последовательные выборки. При работе с выборками фиксированного объема объем выборки определяется до начала обследования, и анализу результатов предшествует сбор всех необходимых данных. Нас будут интересовать главным образом выборки фиксированного объема, поскольку при маркетинговых исследованиях обычно используется именно этот тип.

Вероятностная выборка
Выборка, в которую каждый элемент совокупности может включаться с некой известной ненулевой вероятностью.
Детерминированная выборка
Выборка, основываемая на неких частных предпочтениях или суждениях, обусловливающих отбор тех или иных элементов; при этом оценка вероятности включения в выборку произвольного элемента совокупности становится невозможной.

Однако не следует забывать, что существуют и последовательные выборки, которые могут быть использованы с каждым из обсуждаемых ниже основных планов выборочного исследования.

В последовательной выборке количество отбираемых элементов заранее неизвестно, оно определяется на основании серии последовательных решений. Если обследование малой выборки не приводит к достоверному результату, круг обследуемых элементов расширяется. Если результат представляется неубедительным и после этого, объем выборки увеличивается вновь. На каждом этапе принимается решение о том, считать ли полученный результат достаточно убедительным или же продолжить сбор данных. Работа с последовательной выборкой дает возможность оценить тренд (тенденцию изменения) данных по мере их сбора, что позволяет сократить расходы, связанные с дополнительными наблюдениями, в тех случаях, когда их целесообразность сходит на нет.

Как вероятностный, так и детерминированный план выборочного наблюдения делятся на ряд типов. Скажем, детерминированные выборки могут быть нерепрезентативными (удобными), преднамеренными или квотными вероятностные же выборки делятся на простые случайные, стратифицированные или групповые (кластерные), они, в свою очередь, могут подразделяться на подтипы. На рис. 15.3 показаны те типы выборок, которые будут обсуждаться в этой и в следующей главах.

Выборка фиксированного объема (фиксированная выборка)
Выборка, определение размера которой производится априорно; нужная информация определяется по отобранным элементам.
Последовательная выборка
Выборка, формируемая на основании серии последовательных решений. Если после рассмотрения малой выборки результат представляется неубедительным, рассматривается выборка большего объема; если и этот шаг не приводит к результату, объем выборки вновь увеличивается и т. д. Таким образом, на каждом этапе принимается решение о том, можно ли считать полученный результат достаточно убедительным.

Следует помнить о том, что основные типы выборок могут сочетаться, образуя более сложные планы выборочного наблюдения. Если вы усвоите их основные исходные типы, вам будет легче разобраться и с более сложными сочетаниями.

Детерминированные выборки

Как уже было сказано, при отборе элементов детерминированной выборки определяющую роль играют частные оценки или решения. Порой эти оценки исходят от исследователя, в некоторых же случаях отбор элементов совокупности отдается полевым сотрудникам. Поскольку элементы отбираются не механически, определение вероятности включения в выборку произвольного элемента и, соответственно, ошибки выборочного наблюдения становится невозможным. Незнание ошибки, обусловленной избранной процедурой выборочного обследования, не позволяет исследователям оценить точность их оценок.

Нерепрезентативные (удобные) выборки

Нерепрезентативные (удобные) выборки порой именуются случайными, поскольку отбор элементов выборки осуществляется «случайным» образом — отбираются те элементы, которые являются или представляются наиболее доступными в период проведения отбора.

Наша повседневная жизнь изобилует примерами подобных выборок. Мы беседуем с приятелями и на основании их реакции и позиций делаем выводы касательно царящих в обществе политических пристрастий; местная радиостанция призывает людей выразить свое отношение к некоему спорному вопросу, выражаемое ими мнение интерпретируется как превалирующее; мы призываем к сотрудничеству добровольцев и работаем с теми, кто вызывается нам помочь. Проблема удобных выборок очевидна — мы не можем быть уверены в том, что выборки такого рода действительно представляют целевую совокупность. В том, что мнение наших приятелей правильно отражает политические взгляды, превалирующие в обществе, мы еще способны усомниться, но нам зачастую очень хочется верить в то, что выборки большего объема, отобранные подобным же образом, репрезентативны. Покажем ошибочность подобного допущения на примере.
Несколько лет назад одна из локальных телевизионных станций города, в котором живет автор этой книги, проводила ежедневный опрос общественного мнения по темам, представляющим интерес для местной общины. Опросы, носившие название «Пульс Мэдисона», проводились следующим образом. Каждый вечер во время шестичасовых новостей станция обращалась к зрителям с вопроcом, касающимся определенной спорной проблемы, на который необходимо было дать положительный или отрицательный ответ.

В случае положительного ответа надлежало звонить по одному, в случае отрицательного ответа — по другому номеру телефона. Количество голосов «за» и «против» подсчитывалось автоматически. В десятичасовом выпуске новостей сообщались результаты телефонного опроса. Каждый вечер на студию звонило от 500 до 1000 человек, желавших выразить свою позицию по тому или иному вопросу; телевизионный комментатор интерпретировал результаты опроса как господствующее в обществе мнение.

Нерепрезентативная (удобная) выборка
Иногда называется случайной, поскольку отбор элементов выборки осуществляется «случайным» образом — отбираются те элементы, которые являются или представляются наиболее доступными в период проведения отбора.

В одном из шестичасовых выпусков зрителям был предложен следующий вопрос: «Не считаете ли вы, что возрастной ценз на употребление алкоголя в Мэдисоне следует снизить до 18 лет?». Существовавший легальный ценз соответствовал 21 году. Аудитория отреагировала на этот вопрос необычайной активностью, — в этот вечер на студию позвонили почти 4000 человек, из которых за снижение возрастного ценза высказались 78%. Представляется очевидным, что выборка из 4000 человек «должна быть репрезентативной» для сообщества, состоящего из 180 000. Ничего подобного. Как вы уже, наверное, догадались, определенная возрастная группа населения была заинтересована в известном исходе голосования куда сильнее прочих. Соответственно, не было ничего удивительного в том, что при обсуждении этого вопроса, проходившем несколькими неделями позже, выяснилось, что во время, отведенное для опроса, студенты действовали согласованно. Они звонили на телевидение по очереди, причем каждый по несколько раз. Таким образом, ни размер выборки, ни процент поборников либерализации закона не явились чем-то удивительным. Выборка была нерепрезентативной.

Простое увеличение объема выборки не делает ее репрезентативной. Репрезентативность выборки обеспечивается не объемом, а надлежащей процедурой отбора элементов. Когда участники опроса определяются добровольно или элементы выборки отбираются в силу их доступности, план контроля выборки не дает гарантии ее представительности. Эмпирические данные свидетельствуют о том, что выборки, формирование которых определялось соображениями удобства, редко оказываются репрезентативными (вне зависимости от их размера). Телефонные опросы, при которых рассматривается 800-900 голосов, представляют собой наиболее распространенную форму больших, но нерепрезентативных выборок.

Преднамеренная выборка
Детерминированная (целенаправленная) выборка,элементы которой отбираются вручную; отбираются именно те элементы, которые, по мысли исследователя, отвечают целям обследования.
Преднамеренная выборка, зависящая от умения исследователя задать начальное множество респондентов, обладающих нужными характеристиками; затем эти респонденты используются в качестве информаторов, определяющих дальнейший отбор индивидов.

К сожалению, многие люди относятся к результатам подобных опросов с доверием. Один из самых характерных примеров использования нерепрезентативных выборок в международных маркетинговых исследованиях — обследование тех или иных стран на основе выборки, состоящей из иностранцев, проживающих в данный момент на территории страны, инициировавшей обследование (например скандинавов, живущих в США). Хотя подобные выборки и могут пролить какой-то свет на определенные аспекты рассматриваемой популяции, необходимо помнить, что эти индивиды обычно представляют «американизированную» элиту, связь которой с собственной страной может оказаться достаточно условной. Не рекомендуется использовать нерепрезентативные выборки при проведении описательных или каузальных обследований. Они допустимы лишь при поисковых исследованиях, имеющих целью отработку определенных идей или представлений, но даже и в этом случае предпочтительнее использовать преднамеренные выборки.

Преднамеренные выборки

Преднамеренные выборки порой именуются нецеленаправленными ; их элементы, которые по мысли исследователя отвечают целям исследования, отбираются вручную. Procter & Gamble использовала этот метод, когда демонстрировала рекламу лицам в возрасте от 13 до 17 лет, живущим недалеко от ее центрального штаба в Цинциннати. Подразделение компании по пищевым продуктам и напиткам наняло эту группу подростков для того, чтобы та выполняла функции своего рода выборки из потребителей. Работая по 10 часов в неделю в обмен на $1000 и поход на концерт, они просматривали телевизионные рекламные ролики, посещали вместе с менеджерами компании супермаркеты, чтобы осмотреть экспозиции товаров, тестировали новые продукты, обсуждали покупательское поведение. Выбирая представителей для выборки посредством процесса «найма», а не случайно, компания могла сфокусироваться на признаках, которые она считала полезными, — например на способности подростка ясно выражать свои мысли, идя на риск того, что их взгляды могут не оказаться репрезентативными по отношению к их возрастной группе.

Как уже говорилось, отличительной чертой преднамеренной выборки является направленный отбор ее элементов. В некоторых случаях элементы выборки отбираются не в силу их репрезентативности, но благодаря тому, что они могут предоставить исследователям интересующую их информацию. Когда суд руководствуется показаниями экспертизы, он, в известном смысле, прибегает к использованию преднамеренной выборки. Подобная же позиция может возобладать и при разработке исследовательских проектов. При первичной проработке вопроса исследователь заинтересован прежде всего в определении перспектив исследования, чем и обусловливается отбор элементов выборки.

Выборка по методу "снежного кома" является одним из типов преднамеренной выборки, используемым при работе с особыми видами популяций. Эта выборка зависит от умения исследователя задать начальное множество респондентов, обладающих нужными характеристиками. Затем эти респонденты используются в качестве информантов, определяющих дальнейший отбор индивидов.

Представьте, например, что компания хочет оценить потребность в неком изделии, которое позволило бы глухим людям общаться по телефону. Исследователи могут начать разработку этой проблемы с идентификации ключевых фигур в сообществе глухих; последние могли бы назвать имена других членов этой группы, которые согласились бы принять участие в обследовании. Выборка при подобной тактике растет подобно снежному кому.

Пока исследователь находится на начальных этапах проработки проблемы, когда определяются перспективы и возможные ограничения планируемого обследования, использование преднамеренной выборки может быть очень эффективным. Но ни в коем случае нельзя забывать о слабых сторонах выборки этого типа, поскольку она же может быть использована исследователем и при описательных или при каузальных исследованиях, что не замедлит сказаться на качестве их результатов. Классический образчик подобной забывчивости — индекс цен на потребительские товары («CPI»). Как указывает Зюдман (Sudman ): «CPI определяется только по 56 городам и метропольным ареалам, определенное воздействие на отбор которых оказывает и политический фактор. На деле же города эти могут представлять, разве что, самое себя, в то время как индекс именуется индексом цен на потребительские товары для горожан, получающих почасовую заработную плату *, и служащих и представляется большинству людей индексом, отражающим уровень цен в любом районе Соединенных Штатов. Сам выбор розничных торговых точек также производится неслучайным образом, вследствие чего оценка возможной ошибки выборки становится невозможной » (курсив наш) 2 .

* То есть рабочих. — Примеч. пер.

Квотные выборки

Третий тип детерминированной выборки — квотные выборки ; известная ее представительность достигается включением в нее той же, что и в обследуемой популяции, доли элементов, обладающих определенными характеристиками (см. «Исследовательское окно 15.1»). В качестве примера вы можете рассмотреть попытку создания репрезентативной выборки студентов, проживающих на территории университета. Если в некой выборке, состоящей из 500 индивидов, не будет ни одного старшекурсника, мы будем вправе усомниться в ее репрезентативности и в правомерности применения полученных на этой выборке результатов к обследуемой совокупности. При работе с пропорциональной выборкой исследователь может проследить за тем, чтобы доля старшекурсников в выборке соответствовала их доле в общем количестве студентов.

Предположим, что исследователь проводит выборочное исследование студентов университета, при этом он заинтересован в том, чтобы выборка отражала не только их принадлежность к тому или иному полу, но и распределение их по курсам. Пусть общее число студентов составляет 10 000:3200 — первокурсники, 2600 — второкурсники, 2200 — студенты третьего курса и 2000 — студенты четвертого курса; из них 7000 юношей и 3000 девушек. Для выборки объемом 1000 человек план пропорционального выборочного контроля требует наличия 320 первокурсников, 260 второкурсников, 220 третьекурсников и 200 выпускников, 700 юношей и 300 девушек. Исследователь может реализовать этот план, наделив каждого интервьюера определенной квотой, которая будет определять, с какими студентами он должен контактировать.

Квотная выборка Детерминированная выборка, отбираемая таким образом, что доля элементов выборки, обладающих определенными характеристиками, примерно соответствует доле таких же элементов в обследуемой популяции; каждому полевому работнику задается квота, определяющая характеристики населения, с которым он должен контактировать.

Интервьюеру, которому надлежит провести 20 интервью, может быть дана инструкция опросить:

            • шесть первокурсников — пять юношей и одну девушку;
            • шесть второкурсников — четырех юношей и двух девушек;
            • четырех третьекурсников — трех юношей и одну девушку;
            • четырех студентов четвертого курса — двух юношей и двух девушек.

Заметьте, что отбор конкретных элементов выборки определяется не исследовательским планом, а выбором интервьюера, призванного соблюдать только те условия, которые были заданы квотой: опросить пятерых первокурсников, одну первокурсницу и т. д.

Заметьте также, что данная квота точно отображает половое распределение студенческой популяции, но несколько искажает распределение студентов по курсам; 70% (14 из 20) интервью приходится на долю юношей, но лишь 30% (6 из 20) на долю первокурсников, в то время как те составляют 32% от общего числа студентов. Квота, выделяемая каждому конкретному интервьюеру, может не отражать и обычно не отражает распределение контрольных характеристик в популяции — соответствующей пропорциональностью должна обладать только итоговая выборка.

Следует помнить о том, что пропорциональные выборки зависят скорее от личных, субъективных позиций или суждений, чем от объективной процедуры отбора элементов выборки. Причем, в отличие от преднамеренной выборки, личное суждение здесь принадлежит не разработчику проекта, а интервьюеру. Возникает вопрос, можно ли считать пропорциональные выборки репрезентативными, пусть они и воспроизводят присущее популяции соотношение составляющих, обладающих теми или иными контрольными характеристиками. В этой связи необходимо сделать три замечания.

Во-первых, выборка может разительно отличаться от популяции по каким-то иным важным характеристикам, что может оказать серьезное влияние на результат. Скажем, если исследование будет посвящено проблеме бытующих в студенческой среде расовых предрассудков, небезразличным обстоятельством может оказаться то, откуда прибыли опрашиваемые: из города или из сельской местности. Поскольку квота для характеристики «выходец из города/села» не была означена, точное отображение этой характеристики становятся маловероятным. Разумеется, существует такая альтернатива: определить квоты для всех потенциально значимых характеристик. Однако увеличение количества контрольных характеристик приводит к усложнению спецификации. Это, в свою очередь, затрудняет — а порой и делает невозможным — отбор элементов выборки и, уж во всяком случае, приводит к его удорожанию. Если, например, принадлежность к городскому или сельскому населению и социо-экономический статус также окажутся значимыми для исследования, то интервьюеру, возможно, придется зан5ггься поисками первокурсника, который был бы горожанином и принадлежал к высшему или к среднему классу. Согласрггесь, что найти просто первокурсника мужского пола куда как проще.

Во-вторых, убедиться в том, что данная выборка действительно является репрезентативной, весьма сложно. Разумеется, можно проверить выборку на предмет соответствия распределения характеристик, которые не входят в число контрольных, их распределению в популяции. Однако подобная проверка может приводить только к негативным выводам. Выявить можно разве что расхождение распределений. Если же распределения выборки и популяции для каждой из этих характеристик и повторяют друг друга, существует вероятность того, что выборка отличается от популяции по какому-то иному, не заданному явно признаку.

И наконец, в-третьих. Интервьюеры, будучи предоставленными самим себе, склонны к определенным действиям. Они слишком часто прибегают к опросу своих приятелей. Поскольку же те зачастую оказываются подобными самим интервьюерам, возникает опасность ошибки. Опытные данные, полученные в Англии, свидетельствуют о том, что квотные выборки имеют тенденцию к:

  1. преувеличению роли наиболее доступных элементов;
  2. преуменьшению роли небольших семей;
  3. преувеличению роли семей с детьми;
  4. преуменьшению роли работников, занятых в промышленном производстве;
  5. преуменьшению роли лиц с самыми высокими и с самыми низкими доходами;
  6. преуменьшению роли малообразованных граждан;
  7. преуменьшению роли лиц, занимающих низкое общественное положение.
Интервьюеры, выбирающие заданные квоты, останавливая случайных прохожих, скорее всего сконцентрируют свое внимание на районах с большим количеством потенциальных респондентов, таких как торговые центры, железнодорожные вокзалы и аэропорты, входы в крупные универсамы и тому подобное. Такая практика приводит к избыточному представлению тех групп лиц, которые посещают подобные места чаще всего. При необходимости совершения домашних визитов интервьюеры зачастую оказываются движимыми соображениями удобства.
Например, они могут проводить опросы только днем, что приводит к недооценке мнения работающих. Помимо прочего, они не заходят в обветшавшие дома и, как правило, не поднимаются на верхние этажи зданий, не имеющих лифтов.

В зависимости от специфики изучаемой проблемы названные тенденции могут приводить к разного рода ошибкам, исправление же их на стадии анализа данных представляется весьма и весьма затруднительным. С другой стороны, при объективном отборе элементов выборки исследователи получают в свое распоряжение определенные средства, позволяющие упростить процедуру оценки репрезентативности данной выборки. При анализе проблемы репрезентативности таких выборок исследователь рассматривает не столько состав выборки, сколько процедуру отбора ее элементов.

Исследовательское окно: Блестяще! Но кто будет это читать?

Каждый год рекламодатели тратят миллионы долларов на рекламные объявления, помещаемые на страницах бесчисленных изданий — от «Advertising Age» до «Yankee». Определенная оценка текста и изображения может производиться до его опубликования, что называется, на дому, в рекламном агентстве; подлинные же его проверка и оценка происходят только после публикации рекламного объявления, окруженного дюжинами столь же тщательно подготовленных объявлений, борющихся за внимание читателя.

Компания Roper Starch Worldwide занимается оценкой читаемости рекламных объявлений, помещаемых в потребительских, деловых, отраслевых и профессиональных журналах и газетах. Результаты изысканий доводятся до сведения рекламодателей и агентств — разумеется, за соответствующую плату. Поскольку рекламодатели каждодневно пускаются во все тяжкие, пытаясь донести свою рекламу до потребителя, компания Starch решила составить выборку, которая давала бы подписчикам своевременную и точную информацию об эффективности рекламы. Каждый год компания Starch опрашивала более 50 000 человек, рассматривая при этом около 20 000 рекламных объявлений. Ежегодно изучалось порядка 500 отдельных изданий.

Компания Starch использовала пропорциональную выборку, минимальная численность которой составляла по 100 читателей одного и 100 читателей другого пола. Starch пришла к выводу, что при таком объеме выборки основные отклонения в уровне читаемости стабилизируются. Читатели старше 18 лет опрашивались лично, при этом речь шла обо всех публикациях, кроме тех, которые предназначались для особых групп населения (скажем, для оценки публикаций журнала «Seventeen» опрашивались девушки соответствующего возраста).

При проведении опросов учитывалась зона распространения того или иного издания. Скажем, при исследовании журнала «Los Angeles» рассматривались читатели, живущие в южной Калифорнии. «Time» изучался в масштабах страны. Опрос посвящался отдельным номерам журнала и проводился в 20-30 городах одновременно.

Каждому итервьюеру задавалась небольшая квота интервью, что служило цели минимизации отклонения результатов опроса. Опросные листы рапространялись среди людей разных специальностей и возрастов, имеющих различные доходы. Каждое подобное исследование давало возможность представить позиции достаточно широкой читательской аудитории. При рассмотрении ряда профессиональных, деловых и отраслевых изданий учитывалась также специфика их подписки и распространения. Подписные листы, посвященные изданиям, имеющим достаточно узкое распространение, позволяли отобрать приемлемых респондентов.

При каждом опросе итервьюеры просили респондентов просмотреть издание и спрашивали, обратили ли те внимание на какое-либо объявление. Если ответ был утвердительным, регистратор задавал еще целый ряд вопросов,позволяющих оценить степень восприятия рекламного объявления.

Оценка эта могла быть троякой:

  • Обращали внимание: те, кто уже обращал внимание на сам факт появления такого объявления.
  • Знакомились: запомнившие какую-либо часть рекламного объявления, в которой речь шла о рекламируемой торговой марке или о рекламодателе.
  • Читали: лица, прочитавшие рекламное объявление хотя бы до половины.

После обследования всех объявлений интервьюеры регистрировали основные классификационные сведения: пол, возраст, занятия, семейное положение, национальность, доход, размер и состав семьи, что позволяло осуществить перекрестное табулирование степени читательского интереса.

При должном использовании данные компании Starch позволяют рекламодателям и агентствам определять как неудачные, так и удачные, привлекающие и удерживающие внимание читателя типы рекламных схем. Информация такого рода крайне ценна для рекламодателей, заинтересованных прежде всего в эффективности проводимой ими рекламной кампании.

Источник: «Roper Starch Worldwide», Mamaronek, NY 10543.

Вероятностные выборки

Исследователь может определить вероятность включения в вероятностную выборку любого элемента популяции, поскольку отбор ее элементов осуществляется на основе некоего объективного процесса и не зависит от прихотей и пристрастий исследователя или полевого работника. Поскольку процедура отбора элементов объективна, исследователь может оценить достоверность полученных результатов, что было невозможно в случае детерминированных выборок, сколь бы тщательным ни был отбор элементов последних.

Не следует думать, что вероятностные выборки всегда репрезентативнее детерминированных. На деле более репрезентативной может оказаться и детерминированная выборка. Преимущество вероятностных выборок состоит в том, что они позволяют оценить возможную ошибку выборочного обследования. Если же исследователь работает с детерминированной выборкой, он не имеет объективного метода оценки ее адекватности целям исследования.

Простая случайная выборка

Большинство людей так или иначе сталкивается с простыми случайными выборками либо в рамках курса статистики в институте, либо читая о результатах соответствующих исследований в газетах или журналах. В простой случайной выборке каждый элемент, включаемый в выборку, обладает одной и той же заданной вероятностью попадания в число исследуемых элементов и любая комбинация элементов исходной популяции может потенциально стать выборкой. Например, если мы захотим составить простую случайную выборку всех студентов, числящихся в определенном колледже, нам достаточно будет составить список всех студентов, присвоить каждой значащейся в нем фамилии свой номер и с помощью компьютера произвести случайный отбор заданного количества элементов.

Генеральная совокупность

Генеральная совокупность
Совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой (целевой) совокупностью.
Параметр
Определенная характеристика или показатель генеральной или изучаемой совокупности.

Генеральной, или изучаемой, совокупностью называется совокупность, из которой производится отбор. Эта совокупность (популяция) может быть описана рядом определенных параметров, являющихся характеристиками генеральной совокупности, каждый из которых представляет собой определенный количественный показатель, отличающий одну совокупность от другой.

Представьте, что исследуемой генеральной совокупностью является все взрослое население Цинциннати. Для описания этой совокупности может быть использован ряд параметров: средний возраст, доля населения с высшим образованием, уровень доходов и т. д. Обратите внимание на то, что все эти показатели имеют определенное фиксированное значение. Разумеется, мы можем рассчитать их, проведя полную перепись изучаемой совокупности. Обычно же мы опираемся не на ценз, а на отбираемую нами выборку и используем полученные при выборочном наблюдении значения для определения искомых параметров совокупности.

Проиллюстрируем сказанное приведенным в табл. 15.1 примером гипотетической совокупности, состоящей из 20 человек. Работа с небольшой гипотетической совокупностью, подобной этой, имеет ряд преимуществ. Во-первых, небольшой объем выборки дает возможность легко вычислить параметры совокупности, которые могут использоваться для ее описания. Во-вторых, этот объем позволяет понять, что может произойти при принятии того или иного плана выборочного контроля. Обе эти особенности делают простым сравнение результатов выборки с «истинным» и в данном случае известным значением совокупности, чего нельзя сказать о типичной ситуации, при которой действительное значение совокупности неизвестно. Сравнение оценки с «истинным» значением приобретает в этом случае особую наглядность.

Предположим, мы хотим оценить по двум случайно выбранным элементам средний доход лиц, входящих в исходную совокупность. Средний доход будет ее параметром. Для оценки этого среднего значения, обозначаемого нами как μ, мы должны разделить сумму всех значений на их количество:

Среднее по совокупности μ = Сумма элементов совокупности / Количество элементов.

В нашем случае вычисления дают:

Производная совокупность

Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля (плану выборки). Статистика — это характеристика, или показатель, выборки. Значение статистики выборки используют для оценки определенного параметра совокупности. Различные выборки дают различные статистики или оценки одного и того же параметра совокупности.

Производная совокупность
Совокупность всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. Статистика Характеристика или показатель выборки.

Рассмотрим производную совокупность всех возможных выборок, которые могут быть выделены из нашей гипотетической генеральной совокупности, состоящей из 20 индивидов, по плану выборочного контроля, предполагающему, что выборка объемом n = 2 может быть получена путем случайного бесповторного отбора.

Предположим на время, что данные по каждой единице совокупности — в нашем случае это имя и доход индивида — записываются на кружки, после чего они опускаются в кувшин и перемешиваются. Исследователь извлекает из кувшина один кружок, списывает с него информацию и откладывает его в сторону. То же самое он делает и со вторым кружком, извлекаемым из кувшина. Затем исследователь возвращает оба кружка в кувшин, перемешивает его содержимое и повторяет ту же последовательность действий. В табл. 15.2 показаны возможные исходы названной процедуры. Для 20 кружков возможны 190 таких парных комбинаций.

Для каждой комбинации можно вычислить среднюю величину дохода. Скажем, для выборки АВ (k= 1)

k -e выборочное среднее = Сумма элементов выборки / Количество элементов выборки =

На рис. 15.4 показаны оценка среднего дохода по всей генеральной совокупности и величина ошибки для каждой оценки для выборок k = 25, 62,108,147 и 189 .

Прежде чем приступать к рассмотрению зависимости между выборочным средним доходом (статистикой) и средним доходом по совокупности (параметром, требующим оценки), скажем несколько слов о производной совокупности. Во-первых, на практике мы не занимаемся составлением совокупностей такого рода. Это потребовало бы слишком большой траты времени и сил. Практик ограничивается составлением всего одной выборки нужного объема. Исследователь же пользуется концепцией производной совокупности и связанным с ней понятием выборочного распределения при формулировании итоговых выводов.

Как — будет показано далее. Во-вторых, следует помнить о том, что производная совокупность определяется как совокупность всех возможных различных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. При изменении любой части плана выборочного контроля производная совокупность также изменяется. Так, если при выборе кружков исследователь будет возвращать в кувшин первый из вынимаемых дисков прежде, чем вынуть второй, производная совокупность будет включать.

выборки АА, ВВ и т. д. Если объем бесповторных выборок будет равен 3, а не 2, появятся выборки типа ABC, причем их будет 1140, а не 190, как это было в предыдущем случае. При изменении простого случайного отбора на любой иной метод определения элементов выборки производная популяция также изменяется.

Следует помнить и о том, что отбор выборки заданного объема из генеральной совокупности равносилен выбору одного элемента (1 из 190) из производной популяции. Этот факт позволяет делать много статистических выводов.

Выборочное среднее и генеральное среднее

Вправе ли мы приравнивать выборочное среднее к значению истинного среднего генеральной совокупности? В любом случае мы исходим из того, что они взаимосвязаны. Однако мы также полагаем, что будет иметь место ошибка. Например, можно полагать, что информация, полученная от пользователей Интернета, будет существенно отличаться от результатов опроса «обычного» населения. В других случаях можно предполагать достаточно точное соответствие, иначе мы не смогли бы использовать выборочное значение для оценки значения генерального. Но сколь большой может быть совершаемая нами при этом ошибка?

Давайте сложим все выборочные средние, содержащиеся в табл. 15.2, и разделим полученную сумму на количество выборок, т. е. давайте усредним средние.
Нами будет получен следующий результат:

Он совпадает со средним значением генеральной совокупности. Говорят, что в таком случае мы имеем дело с несмещенной статистикой .

Статистика называется несмещенной, если ее среднее значение по всем возможным выборкам оказывается равным оцениваемому параметру генеральной совокупности. Заметьте, что речь здесь не идет о некоем частном значении. Частная оценка может быть весьма далека от истинного значения — возьмите, к примеру, выборки АВ или ST. В некоторых случаях истинное значение генеральной совокупности может оказаться недостижимым при рассмотрении любой возможной выборки, пусть статистика и будет при этом несмещенной. В нашем случае это не так: целый ряд возможных выборок — например AT — дает выборочное среднее, равное истинному среднему генеральной совокупности.

Имеет смысл рассмотреть распределение этих выборочных оценок, и в особенности зависимость между этим разбросом оценок и вариацией уровня доходов в генеральной совокупности. В качестве меры вариации используют дисперсию генеральной совокупности. Для определения дисперсии генеральной совокупности мы должны вычислить отклонение каждой величины от среднего значения, сложить квадраты всех отклонений и разделить полученную сумму на количество слагаемых. Обозначим а^ дисперсию генеральной совокупности. Тогда:

Дисперсия совокупности σ 2 = Сумма квадратов разностей каждого элемента
совокупности и среднего по совокупности / Число элементов совокупности =

Дисперсия среднего значения уровня доходов может быть определена таким же образом. То есть мы можем найти ее, определив отклонения каждого среднего от их общего среднего, суммировав квадраты отклонений и разделив полученную сумму на количество слагаемых.

Мы можем определить дисперсию среднего значения уровня доходов и иным образом, используя для этого дисперсию значений уровня доходов в генеральной совокупности, поскольку между двумя этими величинами существует прямая связь. Если быть точным, в тех случаях, когда выборка представляет лишь малую часть генеральной совокупности, дисперсия выборочного среднего равняется дисперсии генеральной совокупности, поделенной на объем выборки:

где σ x 2 — дисперсия среднего выборочного значения уровня доходов, σ 2 — дисперсия уровня доходов в генеральной совокупности, n — объем выборки.

Теперь сравним распределение результатов с распределением количественного признака в генеральной совокупности. Рисунок 15.5 демонстрирует, что распределение количественного признака в генеральной совокупности, показанное на поле A, является многовершинным (каждое из 20 значений появляется только раз) и симметричным относительно истинного среднего генеральной совокупности, равного 9400.

Выборочное распределение
Распределение значений определенной статистики, рассчитанной для всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по данному плану выборочного контроля.

Распределение оценок, показанное на поле В, основывается на данных табл. 15.3, которая, в свою очередь, составлялась путем отнесения значений из табл. 15.2 к той или иной группе в зависимости от их величины с последующим подсчетом их количества в группе. Поле В — традиционная гистограмма, рассматриваемая в самом начале изучения курса статистики, которая представляет выборочное распределение статистики. Заметим попутно следующее: понятие выборочного распределения является наиважнейшим понятием статистики, это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики можно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки. Именно по этой причине план вероятностной выборки столь важен для статистического вывода.

По известным вероятностям включения в выборку каждого элемента совокупности интервьюеры могут найти выборочное распределение различных статистик. Исследователи опираются именно на эти распределения — будь это выборочное среднее, доля выборки, выборочная дисперсия или какая-то иная статистика — при распространении результата выборочного наблюдения на генеральную совокупность. Заметьте также, что для выборок с объемом 2 распределение выборочных средних является одновершинным и симметричным относительно истинного среднего.

Итак, мы показали, что:

  1. Среднее значение всех возможных выборочных средних равно генеральному среднему.
  2. Дисперсия выборочных средних определенным образом связана с генеральной дисперсией.
  3. Распределение выборочных средних является одновершинным, в то время как распределение значений количественного признака в генеральной совокупности является многовершинным.

Центральная предельная теорема

Теорема, говорящая о том, что для простых случайных выборок объемом n , выделенных из генеральной совокупности с генеральным средним μ и дисперсией σ 2 , при больших n распределение выборочного среднего x приближается к нормальному с центром, равным μ, и с дисперсией σ 2 . Точность названного приближения возрастает с возрастанием n .

Центральная предельная теорема. Одновершинное распределение оценок может рассматриваться как проявление центральной предельной теоремы, утверждающей, что для простых случайных выборок объемом n , выделенных из генеральной совокупности с истинным средним μ и дисперсией σ 2 , для больших n распределение выборочных средних приближается к нормальному с центром, равным истинному среднему, и дисперсией, равной отношению дисперсии генеральной совокупности к объему выборки, т. е.:

Приближение это становится все более точным по мере роста n . Помните об этом. Вне зависимости от вида генеральной совокупности распределение выборочных средних будет нормальным для выборок достаточно большого объема. Что же следует понимать под достаточно большим объемом? Если распределение значений количественного признака генеральной совокупности является нормальным, тогда нормальным будет и распределение выборочных средних для выборок объемом n =1. Если распределение переменной (количественного признака) в совокупности симметрично, но ненормально, выборки весьма малого объема дадут нормальное распределение выборочных средних. Если же распределение количественного признака генеральной совокупности имеет выраженную асимметрию, возникает потребность в выборках большего объема. И все-таки распределение выборочного среднего может быть принято нормальным только в тех случаях, когда мы имеем дело с выборкой достаточного объема.

Для того чтобы строить заключения, используя нормальную кривую, вовсе не обязательно исходить из условия нормальности распределения значений количественного признака генеральной совокупности. Мы, скорее, опираемся на центральную предельную теорему и в зависимости от популяционного распределения определяем такой объем выборки, который позволял бы работать с нормальной кривой. К счастью, нормальное распределение статистики обеспечивается выборками сравнительно небольшого объема — рис. 15.6 наглядно демонстрирует это обстоятельство. Оценки доверительного интервала. Может ли сказанное выше помочь нам при принятии определенных заключений о генеральном среднем? Ведь на практике мы производим отбор только одной, а не всех возможных выборок заданного объема, и на основе полученных данных делаем определенные заключения, касающиеся целевой группы.

Как же это происходит? Как известно, при нормальном распределении некий процент всех наблюдений имеет определенное среднеквадратическое отклонение; скажем, 95% наблюдений укладывается в ±1,96 среднеквадратических отклонений среднего. Нормальное распределение выборочных средних, к которому может быть приложена центральная предельная теорема, в этом смысле не является исключением. Среднее такого выборочного распределения равно генеральному среднему μ, а его среднеквадратическое отклонение носит название среднеквадратической ошибки среднего:

Оказывается, что:

  • 68,26% выборочных средних отклоняются от генерального среднего не более чем на ± σ x ;
  • 95,45% выборочных средних отклоняются от генерального среднего не более чем на ±σ x ;
  • 99,73% выборочных средних отклоняются от генерального среднего не более чем на ± σ x ,

т. е. определенная доля выборочных средних в зависимости от выбранной величины z будет заключена в интервале , определяемом величиной z . Это выражение может быть переписано в виде неравенства:

Генеральное среднее - z < Среднее по выборке < Генеральное среднее + z (Среднеквадратическая ошибка среднего)

тем самым выборочное среднее с определенной вероятностью находится в интервале, границами которого являются сумма и разность среднего значения распределения и некоего числа среднеквадратических отклонений. Это неравенство может быть преобразовано к виду:

Среднее по выборке - z (Среднеквадратическая ошибка среднего) < Генеральное среднее < Среднее по выборке + z (Среднеквадратическая ошибка среднего)

Если соотношение 15.1 соблюдается, например, в 95% случаев (z = 1,96), то в 95% случаев соблюдается и соотношение 15.2. В тех случаях, когда заключение основывается на единичном выборочном среднем, мы используем выражение 15.2.

Важно помнить, что выражение 15.2 не говорит о том, что интервал, соответствующий данной выборке, непременно должен включать генеральное среднее. Интервал имеет отношение скорее к процедуре отбора. Интервал, выстроенный вокруг данного среднего, может включать и может не включать истинное среднее совокупности. Наша уверенность в правильности сделанных заключений основывается на том, что 95% всех интервалов, построенных по избранному плану выборочного обследования, будут содержать истинное среднее. Мы полагаем, что наша выборка относится именно к этим 95%.

Для того чтобы проиллюстрировать это важное положение, представим на миг, что распределение выборочных средних для выборок с объемом n = 2 в нашем гипотетическом примере является нормальным. Таблица 15.4 наглядно иллюстрирует исход для первых 10 из возможных 190 выборок, которые могут быть отобраны по заданному плану. Заметьте, что только 7 из 10 интервалов включают генеральное или истинное среднее. Уверенность в правильности заключения обусловлена не некой частной оценкой, но именно процедурой оценки. Процедура же эта такова, что для 100 выборок, для которых будут исчислены выборочное среднее и доверительный интервал, в 95 случаях интервал этот будет включать истинное генеральное значение. Точность данной выборки определяется процедурой, посредством которой осуществлялось формирование выборки. Репрезентативный план выборочного обследования не гарантирует репрезентативности всех выборок. Процедуры статистического вывода основываются на репрезентативности плана выборочного наблюдения, именно поэтому для вероятностных выборок эта процедура столь критична.

Вероятностные выборки позволяют оценивать точность результатов как близость производимых оценок к истинному значению. Чем больше среднеквадратическая ошибка статистики, тем выше степень разброса оценок и тем ниже точность процедуры.

Кого-то может смутить то обстоятельство, что доверительный уровень имеет отношение к процедуре, а не к частному выборочному значению, однако следует помнить, что величина доверительного уровня оценки генерального значения может регулироваться исследователем. Если вы не хотите рисковать и боитесь, что вам может попасться один из тех пяти выбранных выборочных интервалов, который не включает в себя генеральное значение, можно избрать 99%-й доверительный интервал, при котором лишь один из ста выборочных интервалов не включает генеральное среднее. Далее, если вы сможете увеличить объем выборки, вы увеличите степень достоверности результата, обеспечивая нужную точность оценки генерального значения. Более подробно мы будем говорить об этом в гл. 17.

Описываемая нами процедура имеет еще одну составляющую, которая может вызывать известное смущение. При оценке доверительного интервала используются три величины: x , z и σ x . Выборочное среднее x вычисляется по данным выборки, z выбирается исходя из нужного доверительного уровня. Но как же быть со среднеквадратической ошибкой среднего σ x ? Она равна:

и потому для ее определения нам необходимо задаться среднеквадратическим отклонением количественного признака генеральной совокупности, т. е. 5. Что же делать в тех случаях, когда среднеквадратическое отклонение s неизвестно? Такая проблема не возникает по двум причинам. Во-первых, обычно для большинства количественных признаков, используемых в маркетинговых исследованиях, вариация изменяется куда медленнее уровня большинства интересующих маркетолога переменных. Соответственно, если исследование проводится повторно, мы можем использовать при расчетах прежнее, ранее полученное значение s. Во-вторых, коль скоро сформирована выборка и получены данные, мы можем оценить дисперсию генеральной совокупности, определив выборочную дисперсию. Дисперсия несмещенной выборки определяется как:

Дисперсия выборки ŝ 2 = Сумма квадратов отклонений от среднего по выборке / (Число элементов выборки -1). Для определения выборочной дисперсии мы сначала должны найти выборочное среднее. Затем находятся разности между каждым из значений выборки и выборочным средним; эти разности возводятся в квадрат, суммируются и делят ся на число, равное количеству выборочных наблюдений минус единица. Выборочная дисперсия не только обеспечивает оценку генеральной дисперсии, но может использоваться и для оценки среднеквадратической ошибки среднего. Когда генеральная дисперсия σ 2 известна, известна также и среднеквадратическая ошибка σ x , поскольку:

Когда же генеральная дисперсия неизвестна, среднеквадратическая ошибка среднего может лишь оцениваться. Оценка эта задается ŝ x , которая равна среднеквадратическому отклонению выборки, поделенному на квадратный корень из объема выборки, т. е. . Оценка определяется аналогично тому, как определялась оценка истинного значения, но вместо генерального среднеквадратического отклонения в расчетную формулу подставляется среднеквадратическое отклонение выборки. Так, скажем, для выборки АВ с выборочным средним 5800:

Соответственно, ŝ = 283, а

и 95%-й интервал теперь

что меньше прежнего значения.

В табл. 15.5 сведены расчетные формулы для различных средних и дисперсий, о которых говорилось в настоящей главе. Формирование простой случайной выборки. В нашем примере отбор элементов выборки осуществлялся с помощью кувшина, в котором находились все элементы исходной совокупности. Это позволило нам наглядно представить понятия производной совокупности и выборочного распределения. Применять же подобный метод на практике мы не рекомендуем, ибо при этом повышается вероятность ошибки. Кружки могут отличаться и размерами, и фактурой, что в известных случаях может приводить к предпочтению одних другим. Отбор участников вьетнамской кампании, осуществлявшийся при помощи лотереи, может служить примером ошибки подобного рода.

Отбор осуществлялся путем вытягивания дисков с датами рождения из большого барабана. Телевидение транслировало эту процедуру на всю страну. К несчастью, диски загружались в барабан систематическим образом: первыми шли январские, последними — декабрьские даты. Хотя барабан и подвергался интенсивному раскручиванию, декабрьские даты выпадали куда чаще январских. Впоследствии процедура эта была пересмотрена таким образом, что вероятность подобных систематических ошибок была существенно снижена. Предпочтительный метод формирования простой случайной выборки основан на использовании таблицы случайных чисел.

Использование такой таблицы предполагает следующую последовательность шагов. Во-первых, элементам генеральной совокупности должны быть присвоены последовательные номера от 1 до N ; в нашей гипотетической совокупности элементу А будет присвоен номер 1, элементу B — номер 2 и т. д. Во-вторых, количество разрядов таблицы случайных чисел должно быть таким же, как у номера N . Для N = 20 будут использоваться двузначные числа; для N между 100 и 999 — трехзначные числа и т. д. В-третьих, начальная позиция должна определяться случайным образом. Мы можем раскрыть соответствующую таблицу случайных чисел и, закрыв глаза, что называется, ткнуть в нее пальцем. Поскольку числа в таблице случайных чисел следуют в случайном порядке, начальная позиция не имеет особого значения.

И наконец, мы можем двигаться в любом произвольно выбранном направлении — вверх, вниз или поперек, отбирая те элементы, номера которых будут соответствовать случайным числам из таблицы. Для того чтобы проиллюстрировать сказанное, рассмотрим сокращенную таблицу случайных чисел (табл. 15.6). Поскольку N = 20, мы должны работать только с двузначными числами. В этом смысле табл. 15.6 устраивает нас как нельзя лучше. Пусть мы заранее решили двигаться вниз по столбцу, начальная же позиция находится на пересечении одиннадцатой строки и четвертого столбца, где находится число 77. Это число слишком велико, и поэтому должно быть отброшено. Следующие два числа также будут отброшены, четвертое же значение 02 будет использовано, поскольку 2 соответствует номеру элемента В .

Следующие пять чисел также будут отброшены как слишком большие, в то время как номер 05 укажет на элемент Е . Таким образом, элементы В и Е станут нашей двухэлементной выборкой, по которой мы и будем судить об уровне доходов данной совокупности. Возможна и альтернативная стратегия, при которой в качестве основы для отбора будет использована компьютерная программа, генерирующая случайные числа. Появившиеся в последнее время публикации свидетельствуют о том, что числа, генерированные подобными программами, не вполне случайны, что может определенным образом проявляться при построении сложных математических моделей, однако их можно использовать для большинства прикладных маркетинговых исследований. Заметим еще раз, что простая случайная выборка требует составления последовательного нумерованного списка элементов генеральной совокупности.

Иными словами, каждый член исходной совокупности должен быть идентифицирован. Для некоторых совокупностей сделать это не составляет труда, например при исследовании 500 крупнейших американских корпораций, список которых приведен в журнале «Fortune». Список этот уже составлен, поэтому формирование простой случайной выборки в данном случае не составит труда. Для иных же исходных совокупностей (например, для всех семей, живущих в определенном городе) составление общего списка крайне затруднительно, что заставляет исследователей прибегать к иным схемам выборочного обследования.

Резюме

Учебная цель 1
Ясно различать понятия переписи (ценза) и выборки

Полная перепись совокупности (популяции) называется цензом . Выборка совокупности, сформированная из отобранных элементов.

Учебная цель 2
Знать сущность и последовательность шести этапов, реализуемых исследователями для получения выборочной совокупности

Процесс формирования выборки делится на шесть этапов:

  1. задание популяции;
  2. определение основы выборки;
  3. выбор процедуры отбора;
  4. определение объема выборки;
  5. отбор элементов выборки;
  6. обследование отобранных элементов.

Учебная цель 3
Определить понятие "основа выборки"

Основа выборки — перечень элементов, из которых будет производиться выборка.

Учебная цель 4
Объяснить, в чем состоит отличие вероятностной и детерминированной выборки

В вероятностную выборку каждый член совокупности может включаться с некой заданной ненулевой вероятностью. Вероятности включения в выборку тех или иных членов совокупности могут отличаться друг от друга, но вероятность включения в нее каждого элемента известна. Для детерминированных выборок оценка вероятности включения любого элемента в выборку становится невозможной. Гарантировать репрезентативность такой выборки нельзя. Все детерминированные выборки основаны, скорее, на частной позиции, суждении или предпочтении. Подобные предпочтения порой могут давать хорошие оценки характеристик совокупности, однако не существует способа объективного определения соответствия выборки поставленной задаче.

Учебная цель 5
Различать выборку фиксированного объема и многоступенчатые (последовательные) выборки

При работе с выборками фиксированного объема объем выборки определяется до начала обследования и анализу результатов предшествует сбор всех потребных данных. В последовательной выборке количество отбираемых элементов заранее неизвестно, оно определяется на основании серии последовательных решений.

Учебная цель 6
Объяснить, что представляет собой преднамеренная выборка, и описать как сильные, так и слабые ее стороны

Элементы преднамеренной выборки отбираются вручную, они представляются исследователю отвечающими целям обследования. Предполагается, что отбираемые элементы могут дать полноценное представление об изучаемой популяции. Пока исследователь находится на начальных этапах проработки проблемы, когда определяются перспективы и возможные ограничения планируемого обследования, использование преднамеренной выборки может бьпъ очень эффективным. Но ни в коем случае нельзя забывать о слабых сторонах выборки этого типа, поскольку она же может быть использована исследователем и при описательных или при каузальных исследованиях, что не замедлит сказаться на качестве их результатов.

Учебная цель 7
Определить понятие квотной выборки

Пропорциональная выборка отбирается таким образом, что доля элементов выборки, обладающих определенными характеристиками, примерно соответствует доле таких же элементов в обследуемой популяции; для этого каждому счетчику задается квота, определяющая характеристики населения, с которым он должен контактировать.

Учебная цель 8
Объяснить, чем является параметр в процедуре выборки

Параметр — определенная характеристика или показатель генеральной или изучаемой совокупности; определенный количественный показатель, отличающий одну совокупность от другой.

Учебная цель 9
Объяснить, что такое производная совокупность

Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля.

Учебная цель 10
Объяснить, почему понятие выборочного распределения является важнейшим понятием статистики.

Понятие выборочного распределения — это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики можно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки.

Элементов, которая охватывается экспериментом (наблюдением, опросом).

Характеристики выборки:

  • Качественная характеристика выборки - что именно мы выбираем и какие способы построения выборки мы для этого используем.
  • Количественная характеристика выборки - сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки:

  • Объект исследования очень обширный. Например, потребители продукции глобальной компании - огромное количество территориально разбросанных рынков.
  • Существует необходимость в сборе вторичной информации.

Объём выборки

Объём выборки - число случаев, включённых в выборочную совокупность.

Выборки можно условно разделить на большие и малые, так как в математической статистике используются различные подходы в зависимости от объёма выборки. Считается, что выборки объёма больше 30 можно отнести к большим .

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми . Примеры зависимых выборок:

  • пары близнецов,
  • два измерения какого-либо признака до и после экспериментального воздействия,
  • мужья и жёны
  • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми , например:

  • мужчины и женщины ,
  • психологи и математики .

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев :

  • Критерий Пирсона (χ 2 )
  • Критерий Стьюдента (t )
  • Критерий Вилкоксона (T )
  • Критерий Манна - Уитни (U )
  • Критерий знаков (G )
  • и др.

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы.

Пример нерепрезентативной выборки

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследование с использованием только одной группы - экспериментальной.
  3. Исследование с использованием смешанного (факторного) плана - все группы ставятся в разные условия.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

Вероятностные выборки

  1. Простая вероятностная выборка:
    • Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2) определить предполагаемый объём выборки, то есть ожидаемое число опрошенных;

3) извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

  • Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1) нередко сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2) результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3) результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4) в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объёме выборки.

  • Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.
  1. Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
  2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
  3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
  4. «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки - с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности .

Рандомизация

Рандомизация , или случайный отбор , используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза , можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек - это будет случайным отбором (Гудвин Дж., с. 147)......

Попарный отбор

Попарный отбор - стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом - привлечением близнецовых пар (моно - и дизиготных).