Основные понятия математической статистики. Основы математической статистики Среднее значение в математической статистике

Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .

Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.

Типичные направления математической статистики:

  • теория выборок;
  • теория оценок;
  • проверка статистических гипотез;
  • регрессионный анализ;
  • дисперсионный анализ.

Методы математической статистики

Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.

Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.

Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.

Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).

Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.

Выборка

Определение 1

Выборкой называются данные, которые получены при проведении эксперимента.

Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.

Эмпирическая функция распределения

Замечание 1

Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.

В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.

Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.

Гистограмма

Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.

Гистограмма представляет собой графическое изображение распределения данных.

Для получения качественной гистограммы придерживаются следующих правил :

  • Количество элементов выборки должно быть существенно меньше объема выборки.
  • Интервалы разбиения должны содержать достаточное число элементов выборки.

Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.

Выборочное среднее и выборочная дисперсия

С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.

3.1.1 Задачи и методы математической статистики

Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей. Методы математической статистики используют в тех случаях, когда изучают распределение массовых явлений , т.е. большой совокупности предметов или явлений, распределенных по определенному признаку .

Пусть подлежит изучению совокупность однородных объектов, объединенных общим признаком или свойством качественного или количественного характера. Отдельные элементы такой совокупности называются ее членами. Все число членов совокупности составляет ее объем . Совокупность всех объектов, объединенных по некоторому признаку, будем называть генеральной совокупностью . Например, изучается доход населения, рыночная стоимость акций или отклонение от Госстандарта в ходе качественной оценки изготавливаемой продукции.

Математическая статистика тесно связана с теорией вероятности и опирается на ее выводы. В частности, понятию генеральной совокупности в математической статистике соответствует понятие пространства элементарных событий в теории вероятностей.

Изучение всей генеральной совокупности чаще всего невозможно или нецелесообразно из-за значительных материальных затрат, порчи или уничтожения объекта исследования. Так, невозможно получить объективную и полную информацию о доходе населения всего региона, т.е. каждого конкретного его обитателя. В связи с порчей объекта исследования, невозможно получить достоверную информацию о качестве, например, некоторых лекарственных средств или продуктов питания.

Основная задача математической статистики заключается в исследовании генеральной совокупности по выборочным данным в зависимости от поставленной цели, то есть изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

3.1.2 Виды выборки

Одним из методов математической статистики является выборочный метод . На практике чаще всего исследуется не вся генеральная совокупность, а ограниченного объема выборка из нее.

Выборкой (выборочной совокупностью) называют совокупность случайно отобранных объектов. С помощью выборочного метода исследуется не вся генеральная совокупность, а выборка (х 1 , х 2 ,...,x n ) как результат ограниченного ряда наблюдений. Затем по вероятностным свойствам данной выборки из некоторой генеральной совокупности выносится суждение о всей генеральной совокупности. Для получения выборки применяют различные методы отбора. Объекты исследования после изучения можно в генеральную совокупность, что соответствует
выборке.

Выборка называется репрезентативной или представительной , если она хорошо воспроизводит генеральную совокупность, то есть вероятностные свойства выборки совпадают или близки к свойствам самой генеральной совокупности.

Итак, результативность применения выборочного метода повышается при соблюдении ряда условий, к которым можно отнести следующие:

    Количество исследуемых элементов выборки достаточно для выводов , то есть выборка представительна или «репрезентативна ».

Так, достаточное количество деталей в партии, проверяемой на качество (брак), устанавливается с помощью законов теории вероятностей и математической статистики.

    Элементы выборки должны быть разнообразны, взяты случайно, т.е. должен соблюдаться принцип рандомизации.

    Изучаемый признак характерен , типичен для всех элементов множества изучаемых объектов т.е. для всей генеральной совокупности.

    Изучаемый признак является существенным для всех элементов данного класса.

Изменение признака статистической совокупности, изучаемого выборочным методом, называется вариацией , а наблюдаемые значения признака x i - вариантой. Абсолютной частотой (частотой или частостью ) варианты x i называется число членов совокупности (генеральной или выборки), имеющих значение x i (т.е. это число частиц i - го сорта).

Ранжированная группировка вариант по отдельным значениям признака (или по интервалам изменения), т.е. последовательность вариант, расположенная в порядке возрастания, называется вариационным рядом . Любую функцию (X 1 ,X 2 ,…,X n ) от результатов наблюдений X 1 ,X 2 ,…,X n исследуемой случайной величины называют статистикой .

Принято объем генеральной совокупности обозначать N , ее абсолютные частоты - N i , объем выборки - n , ее абсолютные частоты - n i . Очевидно, что

,
.

Отношение частоты к объему совокупности называется относительной частотой или статистической вероятностью и обозначается W i или :

.

Если количество вариант велико или близко к объему выборки (при дискретном распределении), а также если выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляют не по отдельным – точечным – значениям, а по интервалам значений генеральной совокупности. Вариационный ряд, представленный таблицей, построенный с помощью процедуры группировки, будем называть интервальным. При составлении интервального вариационного ряда первая строка таблицы заполняется равными по длине интервалами значений исследуемой совокупности, вторая – соответствующими абсолютными или относительными частотами.

Пусть из некоторой генеральной совокупности в результате n наблюдений извлечена выборка объема п . Статистическим распределением выборки называется перечень вариант и соответствующих им абсолютных или относительных частот. Точечный вариационный ряд абсолютных частот может быть представлен таблицей:

x i

х k

n i

n k

причем
.

Точечный вариационный ряд относительных частот представляют таблицей:

x i

х k

причем
.

При построении интервального распределения существуют правила в выборе числа интервалов или величины каждого интервала. Критерием здесь служит оптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность, но увеличивается объем данных и время на их обработку. Разность x max - x min между наибольшим и наименьшим значениями вариант называют размахом выборки.

Для подсчета числа интервалов k обычно применяют эмпирическую формулу Стерджесса:

k = 1+3,3221g n (3.1)

(подразумевается округление до ближайшего целого). Соответственно, величину каждого интервала h можно вычислить по формуле:

. (3.2)

x min = x max - 0,5h .

Каждый интервал должен содержать не менее пяти вариант. В том случае, когда число вариант в интервале меньше пяти, соседние интервалы принято объединять.

1. Основные понятия и определения

статистика выборка совокупность бернулли

Понятие статистики

Статистика, вернее ее методы исследования, широко применяется в различных областях человеческих знаний. Однако, как любая наука, она требует определения предмета ее исследования. В связи с этим различают статистику, занимающуюся изучением социально-экономических явлений, которая относится к циклу общественных наук, и статистику, занимающуюся закономерностями явлений природы, которая относится к наукам естественным.

Авторы большинства современных отечественных вузовских учебников по теории статистики (общей теории статистики) под статистикой понимают предметную общественную науку, т.е. науку, имеющую свои особые предмет и метод познания.

Статистика - общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в пространстве, движение во времени, выявляя действующие количественные зависимости, тенденции и закономерности, причем в конкретных условиях места и времени.

Предмет статистики

Статистика как наука исследует не отдельные факты, а массовые социально-экономические явления и процессы, выступающие как множество отдельных факторов, обладающих как индивидуальными, так и общими признаками.

Объект статистического исследования в статистике называют статистической совокупностью.

Статистическая совокупность - это множество единиц, обладающих массовостью, однородностью, определенной целостностью, взаимозависимостью состояния отдельных единиц и наличием вариации.

Например, в качестве особых объектов статистического исследования, т.е. статистических совокупностей, может выступать множество коммерческих банков, зарегистрированных на территории Российской Федерации, множество акционерных обществ, множество граждан какой-либо страны и т.д. Важно помнить, что статистическая совокупность состоит из реально существующих материальных объектов.

Каждый отдельно взятый элемент данного множества называется единицей статистической совокупности.

Единицы статистической совокупности характеризуются общими свойствами, именуемыми в статистике признаками , т.е. под качественной однородностью совокупности понимается сходство единиц (объектов, явлений, процессов) по каким-либо существенным признакам, но различающихся по каким-либо другим признакам.

Единицы совокупности наряду с общими для всех единиц признаками, обусловливающими качественную определенность совокупности, также обладают индивидуальными особенностями и различиями, отличающими их друг от друга, т.е. существует вариация признаков . Она обусловлена различным сочетанием условий, которые определяют развитие элементов множества.

Например, уровень производительности труда работников банка определяется его возрастом, квалификацией, отношением к труду и т.д.

Именно наличие вариации предопределяет необходимость статистики . Вариация признака может отражаться статистическим распределением единиц совокупности.

Статистика как наука изучает, прежде всего, количественную сторону общественных явлений и процессов в конкретных условиях места и времени, т.е. предметом статистики выступают размеры и количественные соотношения социально-экономических явлений, закономерности их связи и развития.

Количественную характеристику статистика выражает через определенного рода числа, которые называются статистическими показателями.

Статистический показатель отражает результат измерения у единиц совокупности и совокупности в целом.

Теоретические основы статистики как науки

Теоретическую основу любой науки, в том числе и статистики, составляют понятия и категории, в совокупности которых выражаются основные принципы данной науки.

Статистические совокупности обладают определенными свойствами, носителями которых выступают единицы совокупности (явления), обладающие определенными признаками. По форме внешнего выражения признаки делятся на атрибутивные (описательные, качественные) и количественные. Атрибутивные (качественные) признаки не поддаются количественному (числовому) выражению.

Количественные признаки можно разделить на дискретные и непрерывные.

Важной категорией статистики является также статистическая закономерность.

Статистическая закономерность - это форма проявления причинной связи, выражающаяся в последовательности, регулярности, повторяемости событий с достаточно высокой степенью вероятности, если причины (условия), порождающие события, не изменяются или изменяются незначительно.

Статистическая закономерность устанавливается на основе анализа массовых данных. Это обусловливает ее взаимосвязь с законом больших чисел.

Сущность закона больших чисел заключается в том, что в числах, суммирующих результат массовых наблюдений, выступают определенные правильности, которые не могут быть обнаружены на небольшом числе факторов. Закон больших чисел порожден свойствами массовых явлений. Тенденции и закономерности, вскрытые с помощью закона больших чисел, имеют силу лишь как массовые тенденции, но не как законы для каждого отдельного, индивидуального случая.

Метод статистики

Статистика как наука выработала приемы и способы изучения массовых общественных явлений, зависящие от особенностей ее предмета и задач, которые ставятся при его изучении. Приемы и способы, с помощью которых статистика изучает свой предмет, образуют статистическую методологию.

Под статистической методологией понимается система приемов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений.

Задача статистического исследования состоит в получении обобщающих характеристик и выявлении закономерностей в общественной жизни в конкретных условиях места и времени, которые проявляются лишь в большой массе явлений через преодоление свойственной ее единичным элементам случайности.

Статистическое исследование состоит из трех стадий:

статистическое наблюдение;

сводка и группировка результатов наблюдения;

анализ полученных обобщающих показателей.

Все три стадии связаны между собой, и на каждой из них используются специальные методы, объясняемые содержанием выполняемой работы.

Понятие о выборочном наблюдении

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное.

Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом.

Выборочное наблюдение ставит перед собой задачу - по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Выборочный метод позволяет получить необходимые сведения приемлемой точности, когда факторы времени и стоимости делают сплошную разработку нецелесообразной.

Характеристики выборочной и генеральной совокупности

Совокупность отобранных для обследования единиц в статистике принято называть выборочной , а совокупность единиц, из которых производится отбор, - генеральной .

Основные характеристики параметров генеральной и выборочной совокупностей обозначаются определенными символами (табл. 1.1 ).

Таблица 1.1 Символы основных характеристик параметров генеральной и выборочной совокупностей

Характеристика

Генеральная совокупность

Выборочная совокупность

Объем совокупности (численность единиц)

Численность единиц, обладающих обследуемым признаком

Доля единиц, обладающих обследуемым признаком

Средний размер признака

Дисперсия количественного признака

Дисперсия доли

В процессе проведения выборочного наблюдения, как и вообще при анализе данных любого обследования, статистика выделяет два вида ошибок: регистрации и репрезентативности.

Ошибки регистрации могут иметь случайный (непреднамеренный) или систематический (тенденциозный) характер. Их можно избежать при правильной организации и проведении наблюдения.

Ошибки репрезентативности органически присущи выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную.

Избежать ошибок репрезентативности нельзя, однако, пользуясь методами теории вероятностей, основанными на использовании предельных теорем закона больших чисел, эти ошибки можно свести к минимальным значениям, границы которых устанавливаются с достаточно большой точностью;

Ошибка выборочного наблюдения - это разность между величиной параметра в генеральной совокупности и его величиной, вычисленной по результатам выборочного наблюдения.

Для среднего значения ошибка будет определяться так:

Где, . (1.1)

Величина называется предельной ошибкой выборки .

Предельная ошибка выборки величина случайная. Исследованию закономерностей случайных ошибок выборки посвящены предельные теоремы закона больших чисел.

Наиболее полно эти закономерности раскрыты в теоремах Л.Л. Чебышева и А.М. Ляпунова.

Теорема П. Л. Чебышева : при достаточно большом числе независимых наблюдений можно с вероятностью, близкой к единице (т.е. почти с достоверностью), утверждать, что отклонение выборочной средней от генеральной будет сколько угодно малым.

В теореме доказано, что величина ошибки не должна превышать.

В свою очередь, величина, выражающая среднее квадратическое отклонение выборочной средней от генеральной средней, зависит от колеблемости признака в генеральной совокупности и числа отобранных единиц.

Эта зависимость выражается формулой

где - средняя ошибка выборки (зависит и от способа производства выборки);

Генеральная дисперсия;

Объем выборочной совокупности.

Нетрудно убедиться, что при отборе большого числа единиц расхождения между средними будут меньше, т.е. существует обратная связь между, средней ошибкой выборки и числом отобранных единиц.

Можно доказать, что увеличение колеблемости признака влечет за собой увеличение среднего квадратического отклонения, а, следовательно, и ошибки.

Соотношение между дисперсиями генеральной и выборочной совокупности выражается формулой

Так как величина при достаточно больших близка к, можно приближенно считать, что выборочная дисперсия равна генеральной дисперсии, т.е. .

Следовательно, средняя ошибка выборки показывает , какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Однако о величине этой ошибки можно судить с определенной вероятностью. На величину вероятности указывает множитель.

А. М. Ляпунов доказал, что распределение выборочных средних (а, следовательно, и их отклонений от генеральной средней) при достаточно большом числе независимых наблюдений приближенно нормально при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически теорему Ляпунова можно записать так:

где - предельная ошибка выборки .

Значения этого интеграла для различных значений коэффициента доверия вычислены и приводятся в специальных математических таблицах.

Например:

t = 1 F (t) = 0.683; t = 1.5 F (t) = 0.866;

t = 2 F (t) = 0.954; t = 2.5 F (t) = 0.988;

t = 3 F (t) = 0.997; t = 3.5 F (t) = 0.999.

Это может быть прочитано так: с вероятностью можно утверждать, что разность между выборочной и генеральной средними не превышает одной величины средней ошибки выборки.

Другими словами, в случаев ошибка репрезентативности не выйдет за пределы и т.д.

Зная выборочную среднюю величину признака и предельную ошибку выборки, можно определить границы (пределы), в которых заключена генеральная средняя:

Теорема Бернулли рассматривает ошибку выборки для альтернативного признака, у которого возможны только два исхода: наличие признака () и отсутствие его (0).

Теорема Бернулли утверждает , что при достаточно большом объеме выборки вероятность расхождения между долей признака в выборочной совокупности () и долей признака в генеральной совокупности () будет стремиться к единице:

т.е. с вероятностью, сколько угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки частость признака (выборочная доля) сколько угодно мало будет отличаться от доли признака (в генеральной совокупности).

Ввиду того, что вероятность расхождения между частостью и долей следует закону нормального распределения, эту вероятность можно найти по функции в зависимости от задаваемой величины.

Средняя ошибка выборки для альтернативного признака определяется по формуле

Поскольку доля признака в выборочной совокупности неизвестна, ее необходимо заменить через долю того же признака в генеральной совокупности, т.е. принять, а дисперсию альтернативного признака принять за.

Тогда средняя, ошибка выборки выразится формулой

Предельная величина разности между частостью и долей называется предельной ошибкой выборки .

О величине предельной ошибки можно судить с некоторой вероятностью, которая зависит от множителя, поскольку.

Зная выборочную долю признака и предельную ошибку выборки, можно определить границы, в которых заключена генеральная доля:

Результаты выборочного статистического исследования во многом зависят от уровня подготовки процесса наблюдения.

Под уровнем подготовки в данном случае подразумевается соблюдение определенных правил и принципов проектирования выборочного обследования. Важнейшим элементом проектирования является составление организационного плана выборочного наблюдения.

В организационный план включаются следующие вопросы:

  • 1. Постановка цели и задачи наблюдения.
  • 2. Определение границ объекта исследования.
  • 3. Отработка программы наблюдения (составление анкеты, опросного листа, формы отчета и т.д.) и разработка ее материалов.
  • 4. Определение процедуры отбора, способа отбора и объема выборки.
  • 5. Подготовка кадров для проведения наблюдения, размножение формуляров, инструктивных документов и др.
  • 6. Расчет выборочных характеристик и определение ошибок выборки.
  • 7. Распространение выборочных данных на всю совокупность.
  • 2. Основные способы формирования выборочной cовокупности

Достоверность рассчитанных по выборочным данным характеристик в значительной степени определяется репрезентативностью выборочной совокупности, которая, в свою очередь, зависит от способа отбора единиц из генеральной совокупности.

По виду различают индивидуальный, групповой и комбинированный отбор.

При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе - группы единиц, а комбинированный отбор предполагает сочетание группового и индивидуального отбора.

Метод отбора определяет возможность продолжения участия отобранной единицы в процедуре отбора.

Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор.

При повторном отборе попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора.

При этом методе объем генеральной совокупности остается неизменным, что обусловливает постоянную вероятность попадания в выборку всех единиц совокупности.

В практике выборочных обследований наибольшее распространение получи ли следующие выборки:

собственно-случайная;

механическая;

типическая;

серийная;

комбинированная.

Собственно-случайная выборка

При такой выборке отбор единиц из генеральной совокупности производится наугад или наудачу, без каких-либо элементов системности. При этом все без исключения единицы генеральной совокупности должны иметь абсолютно равные шансы попадания в выборку.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.

Собственно-случайный отбор может быть как повторным, так и бесповторным.

Предположим, в результате выборочного обследования жилищных условий жителей города, осуществленного на основе собственно-случайной повторной выборки, получен следующий ряд распределения (табл. 2.1 ).

Таблица 2.1 Результаты выборочного обследования жилищных условий жителей города

Для определения средней ошибки выборки необходимо рассчитать выборочную среднюю величину и дисперсию изучаемого признака (т. 2.2).

Таблица 2.2 Расчет средней общей (полезной) площади жилищ, приходящейся на 1 человека, и дисперсии

Общая (полезная) площадь жилищ, приходится на 1 чел, м 2

Число жителей f

Середина интервала x

  • 5,0-10,0
  • 10,0-15,0
  • 15,0-20,0
  • 20,0-25,0
  • 25,0-30,0
  • 30,0 и более
  • 712,5
  • 2550,0
  • 4725,0
  • 4725,0
  • 3575,0
  • 2697,5
  • 5343,75
  • 31875,0
  • 82687,5
  • 106312,5
  • 98312,5
  • 87668,75

Средняя ошибка выборки составит:

Определим предельную ошибку выборки с вероятностью:

Установим границы генеральной средней:

Таким образом, на основании проведенного выборочного обследования с вероятностью можно заключить, что средний размер общей площади, приходящейся на одного человека, в целом по городу лежит в пределах от до.

При расчете средней ошибки собственно-случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

Если предположить, что представленные в табл. 2.1 данные являются результатом бесповторного отбора (генеральная совокупность включает единиц), то средняя ошибка выборки будет несколько меньше:

Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней.

Воспользуемся еще раз данными табл. 2.1 для того, чтобы определить границы доли лиц, обеспеченность жильем которых составляет менее.

Согласно результатам обследования, численность таких лиц составила человека.

Определим выборочную долю и дисперсию:

Рассчитаем среднюю ошибку выборки:

Предельная ошибка выборки с заданной вероятностью составит:

Определим границы генеральной доли:

Следовательно, с вероятностью можно утверждать, что доля лиц, имеющих менее на человека, в целом по городу находится в пределах от до.

Механическая выборка

Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц (списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.).

Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей.

Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы. Например, при пропорции (выборка) отбирается каждая единица.

Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки.

Однако в этом случае возрастает опасность систематической ошибки, связанной с занижением значения изучаемого признака (если из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение).

Целесообразно отбор начинать с середины первого интервала, например при выборке отобрать и с таким же интервалом последующие единицы

Для определения средней ошибки механической выборки используется формула средней ошибки при собственно-случайном бесповторном отборе.

Типический отбор

Этот способ отбора используется в тех случаях, когда все единицы генеральной совокупности можно разбить на несколько типических групп.

Типический отбор предполагает выборку единиц из каждой типической группы собственно-случайным или механическим способом.

Отбор единиц в типическую выборку может быть организован либо пропорционально объему типических групп, либо пропорционально внутригрупповой дифференциации признака.

При выборке, пропорциональной объему типических групп, число единиц, подлежащих отбору из каждой группы, определяется следующим образом:

где - объем группы;

Объем выборки из группы.

Средняя ошибка такой выборки находится по формулам:

- (повторный отбор); (2.1)

- (бесповторный отбор), (2.2)

где - средняя из внутригрупповых дисперсий.

При выборке, пропорциональной дифференциации признака, число наблюдений по каждой группе рассчитывается по формуле:

где - среднее квадратическое отклонение признака в группе.

Средняя ошибка такого отбора определяется следующим образом:

- (повторный отбор), (2.4)

- (бесповторный отбор). (2.5)

Рассмотрим оба варианта типической выборки на условном примере.

Предположим, бесповторный типический отбор рабочих предприятия, пропорциональный размерам цехов, проведенный с целью оценки потерь из-за временной нетрудоспособности привел к следующим результатам (табл. 2.3 ).

Таблица 2.3 Результаты обследования рабочих предприятия

Определим среднюю и предельную ошибки выборки (с вероятностью):

Рассчитаем выборочную среднюю:

С вероятностью можно сделать вывод, что среднее число дней временной нетрудоспособности одного рабочего в целом по предприятию находится в пределах:

Воспользуемся полученными внутригрупповыми дисперсиями для проведения отбора, пропорционального дифференциации признака.

Определим необходимый объем выборки по каждому цеху:

С учетом полученных значений рассчитаем среднюю ошибку выборки:

В данном случае средняя, а, следовательно, и предельная ошибки будут несколько меньше, что отразится и на границах генеральной средней.

Серийный отбор

Данный способ отбора удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения.

Сущность серийной выборки заключается в собственно случайном либо механическом отборе серий, внутри который производится сплошное обследование единиц.

Средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:

(повторный отбор); (2.6)

(бесповторный отбор), (2.7)

где - число отобранных серий;

Общее число серий.

Межгрупповую дисперсию вычисляют следующим образом:

где - средняя серии;

Общая средняя по всей выборочной совокупности.

Комбинированный отбор

В практике статистических обследований помимо рассмотренных выше способов отбора применяется и их комбинация.

Можно комбинировать типическую и серийную выборки, когда серии отбираются в установленном порядке из нескольких типических групп. Возможна также комбинация серийного и собственно-случайного отборов, при которой отдельное единицы отбираются внутри серии в собственно-случайном порядке.

Ошибка такой выборки определяется ступенчатостью отбора.

Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом - более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофазная выборка предполагает сохранение одной и той же единицы отбора на всех этапах его проведения, при этом отобранные на каждой стадии единицы подвергаются обследованию (на каждой последующей стадии отбора программа обследования расширяется).

Исходя из вышеизложенного, приведем формулы предельной ошибки выборки для наиболее часто используемых на практике способов формирования выборочной совокупности (табл. 2.4 ).

Таблица 2.4 Предельная ошибка выборки для некоторых способов формирования выборочной совокупности

Рассмотрим некоторые понятия и основные подходы к классификации погрешностей. По способу вычисления погрешности можно подразделить на абсолютные и относительные.

Абсолютная погрешность равна разности среднего измерения величины х и истинного значения этой величины:

В отдельных случаях, если это необходимо, рассчитывают погрешности еди­ничных определений:

Заметим, что измеренной величиной в химическом анализе может быть как содержание компонента, так и аналитический сигнал. В зависимости от того, завышает или занижает погрешность результат анализа, погрешности могут быть положительные и отрицательные.

Относительная погрешность может быть выражена в долях или про­центах и обычно знака не имеет:

или

Можно классифицировать погрешности по источникам их происхождения. Так как источников погрешностей чрезвычайно много, то их классификация не может быть однозначной.

Чаще всего погрешности классифицируют по характеру при­чин, их вызывающих. При этом погрешности делят на систематиче­ ские и случайные, выделяют также промахи (или грубые погрешности).

К систематическим относят погрешности, которые вызваны постоянно действующей причиной, постоянны во всех измерениях или меняются по постоянно действующему закону, могут быть выявлены и устранены.

Случайные погрешности, причины появления которых неизвестны, могут быть оценены методами математической статистики.

Промах - это погрешность, резко искажающая результат анализа и обычно легко обнаруживаемая, вызванная, как правило, небрежностью или некомпетентностью аналитика. На рис. 1.1 представлена схема, поясняющая понятия систематических и погрешностей и промахов. Прямая 1 отвечает тому идеальному случаю, когда во всех N определениях отсутствуют систематические и случайные погрешности. Линии 2 и 3 тоже идеализированные примеры химического анализа. В одном случае (прямая 2) полностью отсутствуют случайные погрешности, но все N определений имеют постоянную отрицательную систематическую погрешность Δх; в другом случае (линия 3) полностью отсутствует систематическая погрешность. Реальную ситуацию отражает линия 4: имеются как случайные, так и систематические погрешности.

Рис. 4.2.1 Систематические и случайные погрешности химического анализа.

Деление погрешностей на систематические и случайные в известной степени условно.

Систематические погрешности одной выборки результатов при рассмотрении большего числа данных могут переходить в случайные. Например, систематическая погрешность, обусловленная неправильными показаниями прибора, при измерении аналитического сигнала на разных приборах в разных лабораториях переходит в случайную.

Воспроизводимость характеризует степень близости друг к другу единичных определений, рассеяние единичных результатов относительно среднего (рис. 1.2).

Рис. 4.2..2. Воспроизводимость и правильность химического анализа

В отдельных случаях наряду с термином «воспроизводимость» используют термин «сходимость». При этом под сходимостью понимают рассеяние результатов параллельных определений, а под воспроизводимостью - рас­сеяние результатов, полученных разными методами, в разных лабораториях, в разное время и т. п.

Правильность - это качество химического анализа, отражающее близость к нулю систематической погрешности. Правильность характеризует отклонение полученного результата анализа от истинного значения измеряемой величины (см. рис.1.2).

Генеральная совокупность - гипотетическая совокупность всех мыслимых результатов от -∞ до +∞;

Анализ экспериментальных данных показывает, что большие по значению погрешности наблюдаются реже , чем малые. Отмечается также, что при увеличении числа наблюдений одинаковые погрешности разного знака встречаются одинаково часто. Эти и другие свойства случайных погрешностей описываются нормальным распределением или уравнением Гаусса, которое описывает плотность вероятности
.

где х -значение случайной величины;

μ – генеральное среднее (математическое ожидание -постоянный параметр);

Математическое ожидание - для непрерывной случайной величины представляет собой предел, к которому стремится среднее при неограниченном увеличении выборки. Таким образом, математическое ожидание является средним значением для всей генеральной совокупности в целом, иногда его называют генеральным средним.

σ 2 -дисперсия (постоянный параметр) - характеризует рассеяние случайной величины относительно своего математического ожидания;

σ – стандартное отклонение.

Дисперсия – характеризует рассеяние случайной величины относительно своего математического ожидания.

Выборочная совокупность (выборка) - реальное число (n) результатов, которое имеет исследователь, n = 3 ÷ 10.

Нормальный закон распределения неприемлем для обработки малого числа изменений выборочной совокупности (обычно 3 – 10) – даже если генеральная совокупность в целом распределена нормально. Для малых выборок вместо нормального распределения используют распределение Стьюдента (t – распределение) , которое связывает между собой три основные характеристики выборочной совокупности –

Ширину доверительного интервала;

Соответствующую ему вероятность;

Объем выборочной совокупности.

Перед обработкой данных с применением методов математической статистики необходимо выявить промахи (грубые ошибки) и исключить их из числа рассматриваемых результатов. Одним из наиболее простых является метод выявления промахов с применением Q – критерия с числом измерений n < 10:

где R = х макс - х мин – размах варьирования; х 1 – подозрительно выделяющееся значение; х 2 – результат единичного определения, ближайший по значению к х 1 .

Полученное значение сравнивают с критическим значением Q крит при доверительной вероятности Р = 0,95. Если Q > Q крит, выпадающий результат является промахом и его отбрасывают.

Основные характеристики выборочной совокупности . Для выборки из n результатов рассчитывают среднее, :

и дисперсию , характеризующую рассеяние результатов относительно среднего:

Дисперсия в явном виде не может быть использована для количественной характеристики рассеяния результатов, поскольку ее размерность не совпадает с размерностью результата анализа. Для характеристики рассеяния используют стандартное отклонение, S .

Эту величину называют также средним квадратичным (или квадратическим) отклонением или средней квадратичной погрешностью отдельного результата.

О тносительное стандартное отклонение или коэффициент вариации (V) вычисляют по соотношению

Дисперсию среднего арифметического вычисляют:

и стандартное отклонение среднего

Следует отметить, что все величины – дисперсия, стандартное отклонение и относительное стандартное отклонение, а так же дисперсия среднего арифметического и стандартное отклонение среднего арифметического – характеризуют воспроизводимость результатов химического анализа.

Используемое при обработке небольших (n<20) выборок из нормально распределенной генеральной совокупности t – распределение (т.е. распределение нормированной случайной величины) характеризуется соотношением

где t p , f распределение Стьюдента при числе степеней свободы f = n -1 и доверительной вероятности Р=0,95 (или уровня значимости р=0,05) .

Значения t - распределения приведены в таблицах, по ним рассчитывают для выборки в n результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности по формуле

Доверительный интервал характеризует как воспроизводимость результатов химического анализа, так и – если известно истинное значение х ист – их правильность.

Пример выполнения контрольной работы № 2

Задание

При а нализе воздуха на содержание азота хроматографическим методом для двух серий опытов получены следующие результаты:

Решение :

Проверяем ряды на наличие грубых ошибок по Q-критерию. Для чего их располагаем результаты в ряд по убыванию (от минимума к максимуму или наоборот) :

Первая серия:

77,90<77,92<77,95<77,99<78,05<78,07<78,08<78,10

Проверяем крайние результаты ряда (не содержат ли они грубую ошибку).

Полученное значение сравниваем с табличным (табл.2 приложения). Для n=8, p=0,95 Q таб =0,55.

Т.к. Q таб >Q 1 расчет, левая крайняя цифра не является «промахом».

Проверяем крайнюю правую цифру

Q расч

Крайняя правая цифра так же не является ошибочной.

Располагаем результаты второго ря да в порядке их возрастания:

78,02<78,08<78,13<78,14<78,16<78,20<78,23<78,26.

Проверяем крайние результаты опытов - не являются ли они ошибочными.

Q (n=8, p=0,95)=0,55. Табличное значение.

Крайнее левое значение – не ошибочное.

Крайняя правая цифра (не является ли она ошибочной).

Т.е. 0,125<0,55

Крайнее правое число не является «промахом».

Подвергаем результаты опытов статистической обработке.

    Вычисляем средневзвешенные результатов:

- для первого ряда результатов.

- для второго ряда результатов.

    Дисперсия относительно среднего:

- для первого ряда.

- для второго ряда.

    Стандартное отклонение:

- для первого ряда.

- для второго ряда.

    Стандартное отклонение среднего арифметического:

При небольших (n<20) выборках из нормально распределенной генеральной совокупности следует использовать t – распределение, т.е. распределение Стьюдента при числе степени свободы f=n-1 и доверительной вероятности p=0,95.

Пользуясь таблицами t – распределения, определяют для выборки в n – результатов величину доверительного интервала измеряемой величины для заданной доверительной вероятности. Этот интервал можно рассчитать:

Сравниваем дисперсии и средние результаты двух выборочных совокупностей.

Сравнение двух дисперсий проводится при помощи F- распределения (распределения Фишера). Если мы имеем две выборочные совокупности с дисперсиями S 2 1 и S 2 2 и числами степеней свободы f 1 =n 1 -1 и f 2 =n 2 -1, соответственно, то рассчитываем значение F:

F=S 2 1 / S 2 2

Причем в числителе всегда находится большая из двух сравниваемых выборочных дисперсий. Полученный результат сравнивают с табличным значением. Если F 0 > F крит (при р=0,95; n 1 , n 2), то расхождение между дисперсиями значимо и рассматриваемые выборочные совокупности различаются по воспроизводимости.

Если расхождение между дисперсиями незначимо, возможно сравнить средние x 1 и х 2 двух выборочных совокупностей, т.е. выяснить, есть ли статистически значимая разница между результатами анализов. Для решения поставленной задачи используют t – распределение. Предварительно рассчитывают средневзвешенное двух дисперсий:

И средневзвешенное стандартное отклонение

а затем – величину t:

Значение t эксп сравнивают с t крит при числе степеней свободы f=f 1 +f 2 =(n 1 +n 2 -2) и выборочной доверительной вероятности р=0,95. Если при этом t эксп > t крит ,то расхождение между средними и значимо и выборка не принадлежит одной и той же генеральной совокупности. Если t эксп < t крит, расхождение между средними незначимо, т.е. выборки принадлежат одной и той же генеральной совокупности, и, следовательно, данные обеих серий можно объединить и рассматривать их как одну выборочную совокупность из n 1 +n 2 результатов.

Контрольное задание № 2

Анализ воздуха на содержание компонента Х хроматографическим методом для двух серий дал следующие результаты (таблица-1).

3. Принадлежат ли результаты обеих выборок и одной и той же генеральной совокупности. Проверить по критерию Стьюдента t (р = 0,95; n = 8).

Таблица-4.2.1- Исходные данные по контрольному заданию № 2

№ варианта

Ком-понент

СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.

Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

П р и м е р:

x x 1 x 2 x 3 x 4 ... x n
p р 1 р 2 р 3 р 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:

1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

2 .Дисперсия случайной величины:


3 .Среднее квадратичное отклонение :

Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:



M(X) - математическое ожидание случайной величины;

s - среднее квадратичное отклонение.

Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

Основными понятиями математической статистики являются:

1. Генеральная совокупность;

2. выборка;

3. вариационный ряд;

4. мода;

5. медиана;

6. процентиль,

7. полигон частот,

8. гистограмма.

Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования

(Пример: все население области, студенты вузов данного города и т.д.)

Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.

Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

Пример:

X,кг
m

x - значение случайной величины (масса девочек в возрасте 10 лет);

m - частота встречаемости.

Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

Пример:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.

Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .

Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).


m m i /n f(x)

Рис.1 Рис.2

Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).

Пример:

х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Полигон частот

Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx

Пример построения гистограммы .

Воспользуемся данными предыдущего примера.

1. Расчет количества классовых интервалов

гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:

2. Расчет ширины интервала :

,

3. Составление интервального ряда:

2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Гистограмма

Loading...Loading...