Пусть имеется случайная величина X, и ее параметры математическое ожидание а и дисперсия неизвестны. Над величиной X произведеноn независимых опытов, давших результаты x1,x2, xn .
Не уменьшая общности рассуждений, будем считать эти значения случайной величины различными. Будем рассматривать значения x1,x2, xnкак независимые, одинаково распределенные случайные величины X1,X2, Xn.
Простейший метод статистического оценивания – метод подстановки и аналогии – состоит в том, что в качестве оценки той или иной числовой характеристики (среднего, дисперсии и др.) генеральной совокупности берут соответствующую характеристику распределения выборки – выборочную характеристику.
По методу подстановки в качестве оценки
математического ожидания а надо взять математическое ожидание распределения выборки – выборочное среднее. Таким образом, получаем
.
Чтобы проверить несмещенность и состоятельность выборочного среднего как оценки а, рассмотрим эту статистику как функцию выбранного вектора (X1,X2, Xn). Приняв во внимание, что каждая из величин X1,X2, Xn имеет тот же закон распределения, что и величина X, заключаем, что и числовые характеристики этих величин и величины X одинаковые: M(Xi) = M(X) = a, D(Xi) = D(X) = , i = 1, 2, n, причем Xi – независимые в совокупности случайные величины.
,
.
Отсюда по определению получаем, что – несмещенная оценка а, и так как D(
)®0 при n®¥, то в силу теоремы предыдущего параграфа
является состоятельной оценкой математического ожидания а генеральной совокупности.
Эффективность или неэффективность оценки зависит от вида закона распределения случайной величины X. Можно доказать, что если величина X распределена по нормальному закону, то оценка является эффективной. Для других законов распределения это может быть не так.
Несмещенной оценкой генеральной дисперсии служит исправленная выборочная дисперсия
,
так как , где
– генеральная дисперсия. Действительно,
Оценка s 2 для генеральной дисперсии является также и состоятельной, но не является эффективной. Однако в случае нормального распределения она является «асимптотически эффективной», то есть при увеличении n отношение ее дисперсии к минимально возможной неограниченно приближается к единице.
Итак, если дана выборка из распределения F(x) случайной величины X с неизвестным математическим ожиданием а и дисперсией , то для вычисления значений этих параметров мы имеем право пользоваться следующими приближенными формулами:
a ,
.
Здесь xi – варианта выборки, ni – частота варианты xi, — объем выборки.
Для вычисления исправленной выборочной дисперсии более удобна формула
.
Для упрощения расчета целесообразно перейти к условным вариантам (в качестве с выгодно брать первоначальную варианту, расположенную в середине интервального вариационного ряда). Тогда
,
.
Интервальное оценивание
Выше мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такие оценки мы назвали точечными. Они имеют тот недостаток, что при малом объеме выборки могут значительно отличаться от оцениваемых параметров. Поэтому, чтобы получить представление о близости между параметром и его оценкой, в математической статистике вводятся, так называемые, интервальные оценки.
Пусть во выборке для параметра q найдена точечная оценка q * . Обычно исследователи заранее задаются некоторой достаточно большой вероятностью g (например, 0,95; 0,99 или 0,999) такой, что событие с вероятностью g можно считать практически достоверным, и ставят вопрос об отыскании такого значения e > 0, для которого
.
Видоизменив это равенство, получим:
и будем в этом случае говорить, что интервал ]q * — e; q * + e[ покрывает оцениваемый параметр q с вероятностью g.
Интервал ]q * -e; q * +e [ называется доверительным интервалом.
Вероятность g называется надежностью (доверительной вероятностью) интервальной оценки.
Концы доверительного интервала, т.е. точки q * -e и q * +e называются доверительными границами.
Число e называется точностью оценки.
В качестве примера задачи об определении доверительных границ, рассмотрим вопрос об оценке математического ожидания случайной величины Х, имеющей нормальный закон распределения с параметрами а и s, т.е. Х = N(a, s). Математическое ожидание в этом случае равно а. По наблюдениям Х1, Х2, Хn вычислим среднее и оценку
дисперсии s 2 .
Оказывается, что по данным выборки можно построить случайную величину
,
которая имеет распределение Стьюдента (или t-распределение) с n = n –1 степенями свободы.
Воспользуемся таблицей П.1.3 и найдем для заданных вероятности g и числа n число tg такое, при котором вероятность
P(|t(n)| 120) tg можно получить по таблице П.1.2 из уравнения Ф(tg) = g/2.
Для оценки среднего квадратического отклонения s нормально распределенного количественного признака Х с надежностью g по исправленному выборочному среднему квадратическому отклонению s служат доверительные интервалы:
где q находят по таблице П.1.4 по заданным n и g.
Задача 14.1. Найти доверительные интервалы для оценки математического ожидания а и среднего квадратического отклонения s диаметра деревьев сосны по результатам вычислений из §13.4. Надежность g = 0,95.
Решение. В §13.4 были получены следующие точечные оценки а » =
= 30,77см, , где n = 90 – объем выборки. Следовательно, s » s = 6,83см.
По таблице П.1.3 при g =0,95 и n = 90 находим tg= 1,987. Вычисляем точность оценки , доверительные границы
. Получаем доверительный интервал 29,3 kкр, где kкр – положительное число.
Левосторонней называют критическую область, определяемую неравенством К k2, где k2 > k1 .
В частности, если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствами (в предположении, что kкр > 0):
или равносильным неравенством |K| > kкр.
Для отыскания, например, правосторонней критической области поступают следующим образом. Сначала задаются достаточно малой вероятностью – уровнем значимости a. Затем ищут критическую точку kкр, исходя из требования, чтобы при условии справедливости нулевой гипотезы, вероятность того, что критерий К примет значение, больше kкр., была равна принятому уровню значимости:
Для каждого критерия имеются соответствующие таблицы, по которым и находят критическую точку, удовлетворяющую этому требованию. Когда критическая точка уже найдена, вычисляют по данным выборок наблюдаемое значение критерия и, если окажется, что Кнабл > kкр, то нулевую гипотезу отвергают; если же Кнабл 2 и sy 2 . Для этого используется F–критерий Фишера.
Порядок применения F–критерия следующий:
1. Принимается предположение о нормальности распределения генеральных совокупностей. При заданном уровне значимости a формулируется нулевая гипотеза Н: sх 2 = sy 2 о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе Н1: sх 2 > sy 2 .
2. Получают две независимые выборки из совокупностей Х и Y объемом nx и ny соответственно.
3. Рассчитывают значения исправленных выборочных дисперсий sх 2 и sy 2 (методы расчета рассмотрены в §13.4). Большую из дисперсий (sх 2 или sy 2 ) обозначают s1 2 , меньшую – s2 2 .
4. Вычисляется значение F–критерия по формуле Fнабл = s1 2 / s2 2 .
5. По таблице критических точек распределения Фишера – Снедекора, по заданному уровню значимости a и числом степеней свободы n1 = n1 — 1, n2 = n2 — 1 (n1 – число степеней свободы большей исправленной дисперсии), находится критическая точка Fкр(a, n1, n2).
Отметим, что в таблице П.1.7 приведены критические значения одностороннего F–критерия. Поэтому, если применяется двусторонний критерий (Н1: sх 2 ¹ sy 2 ), то правостороннюю критическую точку Fкр(a/2, n1, n2) ищут по уровню значимости a/2 (вдвое меньше заданного) и числам степеней свободы n1 и n2 (n1 – число степеней свободы большей дисперсии). Левостороннюю критическую точку можно и не отыскивать.
6. Делается вывод: если вычисленное значение F–критерия больше или равно критическому (Fнабл ³ Fкр), то дисперсии различаются значимо на заданном уровне значимости. В противном случае (Fнабл 2 = sy 2 . В качестве конкурирующей примем гипотезу Н1: sх 2 ¹ sy 2 , поскольку заранее не уверены в том, что какая–либо из генеральных дисперсий больше другой.
2–3. Найдем выборочные дисперсии. Для упрощения вычислений перейдем к условным вариантам:
Все вычисления оформим в виде следующих таблиц:
ui | mi | miui | miui 2 | mi(ui+1) 2 | vi | ni | nivi | nivi 2 | ni(vi+1) 2 |
-3 | -3 | -1 | -2 | ||||||
å | — | ||||||||
å | — |
Найдем исправленные выборочные дисперсии:
4. Сравним дисперсии. Найдем отношение большей исправленной дисперсии к меньшей:
.
5. По условию конкурирующая гипотеза имеет вид sх 2 ¹ sy 2 , поэтому критическая область двусторонняя и при отыскании критической точки следует брать уровни значимости, вдвое меньше заданного.
По таблице П.1.7 по уровню значимости a/2 = 0,1/2 = 0,05 и числам степеней свободы n1 = n1 — 1 = 12, n2 = n2 — 1 = 8 находим критическую точку Fкр(0,05; 12; 8) = 3,28.
Не нашли то, что искали? Воспользуйтесь поиском:
Лучшие изречения: Увлечёшься девушкой-вырастут хвосты, займёшься учебой-вырастут рога 9989 — | 7782 —
или читать все.
91.146.8.87 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.
Отключите adBlock!
и обновите страницу (F5)
очень нужно
Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание mx=M[x] и дисперсияσ 2 x=D[x] = M[(X – mx) 2 ] = M[x 2 ] – . Число mx является средним значением случайной величины, около которого разбросаны значения величин Х, мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:
sx = (1.11)
Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S) случайной величины Х. Требуется по имеющейся выборке оценить неизвестные значения mxи .
Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S. Каждая такая оценка a* является некоторой функцией a*=a*(S)от значений выборки. Значения выборки случайны, поэтому и сама оценка a*является случайной величиной. Можно построить множество различных оценок (то есть функций) a*, но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.
1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M[a*] = a. Другими словами, оценка a* не должна иметь систематической ошибки.
2. Состоятельность.При бесконечном увеличении объёма выборки, оценка a*должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.
3. Эффективность. Оценка a*называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a*относительно точного значения и оценка в определённом смысле является «самой точной».
К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.
Для оценки математического ожидания чаще всего применяется оценка.
=
,(1.12)
то есть среднее арифметическое по выборке. Если случайная величина Xимеет конечные mxи sx, то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если Xимеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет
(1.13)
В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.
Таким образом, для каждого типа распределения случайной величины Хследовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.
Для оценки математического ожидания по группированной выборке используется следующая формула:
=
, (1.14)
которую можно получить из предыдущей, если считать все miзначений выборки, попавших в i–й интервал, равными представителю ziэтого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.
Для оценки дисперсии чаще всего используется оценка:
=
, (1.15)
Эта оценка не смещена и состоятельна для любой случайной величины Х, имеющей конечные моменты до четвёртого порядка включительно.
В случае группированной выборки используется оценка:
=
(1.16)
Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от mxи в силу замены всех значений выборки, попавших в i–й интервал, на представителя интервала zi.
Отметим, что при больших n,коэффициент n /(n – 1)в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.
Интервальные оценки.
Пусть точное значение некоторого параметра равно aи найдена его оценка a*(S)по выборке S. Оценке a*соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной. Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности
a* ¹ a, и мы можем надеяться только на то, что точка a*находится где–то вблизи a. Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.
![]() |
Рис.1.5. Точечная оценка параметра.
Более определённым в этом отношении являются интервальные оценки. Интервальные оценка представляет собой интервал Ib = (a , b), в котором точное значение оцениваемого параметра находится с заданной вероятностью b. Интервал Ibназывается доверительным интервалом, а вероятность b называется доверительной вероятностьюи может рассматриваться как надёжность оценки.
Доверительный интервал состоится по имеющейся выборке S, он случаен в том смысле, что случайны его границы a(S)и b(S), которые мы будем вычислять по (случайной) выборке. Поэтому bесть вероятность того, что случайный интервал Ib накроет неслучайную точку a. На рис. 1.6. интервал Ib накрыл точку a, а Ib*— нет. Поэтому не совсем правильно говорить, что a «попадает» в интервал.
Если доверительная вероятность bвелика (например, b = 0,999), то практически всегда точное значение aнаходится в построенном интервале.
![]() |
Рис.1.6. Доверительные интервалы параметра aдля различных выборок.
Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х,основанный на центральной предельной теореме.
Пусть случайная величина Химеет неизвестное математическое ожидание mxи известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:
=
, (1.17)
результатов n независимых испытаний величины Хявляется случайной величиной, распределение которой при больших n, близко к нормальному распределению со средним mxи среднеквадратическим отклонением . Поэтому случайная величина
(1.18)
имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t), график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).
![]() |
Рис.1.7. Плотность распределения вероятностей случайной величины t.
Пусть задана доверительная вероятность bи tb —число, удовлетворяющее уравнению
где — функция Лапласа. Тогда вероятность попадания в интервал (-tb , tb)будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b. Следовательно
Дата добавления: 2016-10-07 ; просмотров: 4812 | Нарушение авторских прав
Необходимость оценивания математического ожидания по результатам испытаний появляется в задачах, когда результат эксперимента описывается случайной величиной и показателем качества исследуемого объекта принято математическое ожидание этой случайной величины. Например, в качестве показателя надежности может быть принято математическое ожидание времени безотказной работы какой-либо системы, а при оценивании эффективности производства продукции — математическое ожидание числа годных изделий и т. д.
Задача оценивания математического ожидания формулируется следующим образом. Предположим, что для определения неизвестного значения случайной величины X предполагается произвести п независимых и свободных от систематических ошибок измерений Xv Х2. Хп. Требуется выбрать наилучшую оценку математического ожидания.
Наилучшей и наиболее распространенной на практике оценкой математического ожидания является среднее арифметическое результатов испытаний
называемое также статистическим или выборочным средним.
Покажем, что оценка тх удовлетворяет всем требованиям, предъявляемым к оценке любого параметра.
1. Из выражения (5.10) следует, что
т. е. оценка т’х — несмещенная оценка.
2. Согласно теореме Чебышева среднее арифметическое результатов испытаний сходится по вероятности к математическому ожиданию, т. е.
Следовательно, оценка (5.10) есть состоятельная оценка математического ожидания.
3. Дисперсия оценки тх, равная
с ростом объема выборки п неограниченно убывает. Доказано, что если случайная величина X подчинена нормальному закону распределения, то при любом п дисперсия (5.11) будет минимально возможной, а оценка тх — эффективной оценкой математического ожидания. Знание дисперсии оценки позволяет вынести суждение относительно точности определения неизвестного значения математического ожидания с помощью этой оценки.
В качестве оценки математического ожидания среднее арифметическое используется в том случае, если результаты измерений равноточные (дисперсии D[X.], i = 1, 2, . п одинаковы в каждом измерении). Однако на практике приходится сталкиваться с задачами, в которых результаты измерений неравноточные (например, в процессе испытаний измерения производятся различными приборами). В этом случае оценка для математического ожидания имеет вид
где — вес г-го измерения.
В формулу (5.12) результат каждого измерения включается со своим весом С.. Поэтому оценку результатов измерений тх называют средневзвешенной.
Можно показать, что оценка (5.12) является несмещенной, состоятельной и эффективной оценкой математического ожидания. Минимальная дисперсия оценки определяется выражением
При проведении экспериментов с моделями на ЭВМ подобные задачи возникают в том случае, когда оценки находят по результатам нескольких серий испытаний и число испытаний в каждой серии различно. Например, проведены две серии испытаний объемом п1 и п2, по результатам которых получены оценки тхi и тх_. С целью повышения точности и достоверности определения математического ожидания результаты этих серий испытаний объединяют. Для этого следует воспользоваться выражением (5.12)
При вычислении коэффициентов С вместо дисперсий D[X.] подставляют их оценки, полученные по результатам испытаний в каждой серии.
Аналогичный подход используют и при определении вероятности наступления случайного события по результатам серий испытаний.
Для оценивания математического ожидания случайной величины X, кроме выборочного среднего, могут использоваться и другие статистики. Чаще всего для этих целей используют члены вариационного ряда, т. е. порядковые статистики , на базе которых строят оценки,
удовлетворяющие основным из предъявляемых требований, а именно состоятельности и несмещенности.
Предположим, что вариационный ряд содержит п = 2к членов. Тогда в качестве оценки математического ожидания может быть принято любое из средних:
При этом к-е среднее
есть не что иное, как статистическая медиана распределения случайной величины X, поскольку имеет место очевидное равенство
Преимущество статистической медианы состоит в том, что она свободна от влияния аномальных результатов наблюдений, неизбежного при использовании первого среднего, т. е. среднего из наименьшего и наибольшего числа вариационного ряда.
При нечетном объеме выборки п = 2к — 1 статистической медианой является ее средний элемент, т. е. к-й член вариационного ряда Me = хк.
Существуют распределения, у которых среднее арифметическое не является эффективной оценкой математического ожидания, например, распределение Лапласа. Можно показать, что для распределения Лапласа эффективной оценкой математического ожидания является выборочная медиана.
Доказано, что если случайная величина X имеет нормальное распределение, то при достаточно большом объеме выборки закон распределения статистической медианы близок к нормальному с числовыми характеристиками
Из сравнения формул (5.11) и (5.14) следует, что дисперсия статистической медианы в 1,57 раза больше дисперсии среднего арифметического. Следовательно, среднее арифметическое как оценка математического ожидания во столько же раз эффективнее статистической медианы. Однако из-за простоты вычислений, нечувствительности к аномальным результатам измерений (“засоренности” выборки) на практике в качестве оценки математического ожидания тем не менее используют статистическую медиану.
Следует отметить, что для непрерывных симметричных распределений математическое ожидание и медиана совпадают. Поэтому статистическая медиана может служить хорошей оценкой математического ожидания лишь при симметричном распределении случайной величины.
Для несимметричных распределений статистическая медиана Me имеет существенное смещение относительно математического ожидания, поэтому для его оценивания непригодна.