MS lek1

Лекция1. Основные понятия математической статистики
Математическая статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.
В теории вероятностей рассматриваются случайные величины с заданным законом распределения. Предмет теории вероятностей свойства и взаимосвязи этих величин (распределений).
Но часто наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.
При этом возникают, например, следующие вопросы:
- если мы наблюдаем одну случайную величину как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?
-если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?
Часто возникает возможность высказать некие предположения о распределении или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы.
Примером таких опытных данных может служить набор данных в научном эксперименте, социологический опрос или последовательность гербов и решек при многократном подбрасывании монеты.

1.1.   Основные понятия выборочного метода
Пусть Х – случайная величина, наблюдаемая в случайном эксперименте.
Будем считать, что проведя n раз этот эксперимент в одинаковых условиях, мы получили числа 13 EMBED Equation.DSMT4 1415 значения этой случайной величины в первом, втором, и т.д. опытах. Случайная величина Х имеет некоторое распределение 13 EMBED Equation.DSMT4 1415, которое нам частично или полностью неизвестно.
Рассмотрим подробнее набор (Х1,Х2,.,Хn), называемый выборкой.
В серии уже произведенных экспериментов выборка это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа Х1 появится другое число одно из значений случайной величины Х. То есть Х1(иХ2, иХ3, и т.д.) переменная величина, которая может принимать те же значения, что и случайная величина Х, и также часто ( с теми же вероятностями). Поэтому до опытаХ1 случайная величина, одинаково распределенная с Х, а после опыта число, которое мы наблюдаем в первом эксперименте, т.е. одно из возможных значений случайной величины Х1.
Выборка (Х1,,Х2,...,,Хn) объема n это набор из [ Cкачайте файл, чтобы посмотреть картинку ]независимых и одинаково распределенных случайных величин(<<копий х>>), имеющих, как и Х, распределение F(x).


1.2.   Выборочное распределение
Рассмотрим какую-нибудь реализацию выборки Х1,.,Хn. Введем случайную величину Х*, принимающую значенияХ1,... [ Cкачайте файл, чтобы посмотреть картинку ], Хn с вероятностями по 13 EMBED Equation.DSMT4 1415(если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины Х* выглядят так:
Х*
Х1 
[ Cкачайте файл, чтобы посмотреть картинку ] 
Хn 

P
13 EMBED Equation.DSMT4 1415
[ Cкачайте файл, чтобы посмотреть картинку ] 
13 EMBED Equation.DSMT4 1415


13 EMBED Equation.DSMT4 1415

Распределение величины Х* называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины Х* и введем обозначения для этих величин:
13 EMBED Equation.DSMT4 1415
Точно так же вычислим и момент порядка [ Cкачайте файл, чтобы посмотреть картинку ]
13 EMBED Equation.DSMT4 1415

Если при построении всех введенных нами характеристик считать выборкуX1,  [ Cкачайте файл, чтобы посмотреть картинку ],  Xn, набором случайных величин, то и сами эти характеристики и Fn*(y)  станут случайными величинами. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.
Причина использования характеристик распределения Х* для оценки характеристик истинного распределения Х в близости этих распределений при больших n.


1.3.   Эмпирическая функция распределения, гистограмма
Поскольку неизвестное распределение можно описать, например, его функцией распределения13 EMBED Equation.DSMT4 1415, построим по выборке «оценку» для этой функции.
Определение 1.  
Эмпирической функцией распределения, построенной по выборке X1,,Xn объема n, называется случайная функция13 EMBED Equation.DSMT4 1415.

Иначе говоря, при любом y значение F(y), равное истинной вероятности случайной величине X быть меньше y, оценивается долей элементов выборки, не превосходящих y.
Если элементы выборкиX1, [ Cкачайте файл, чтобы посмотреть картинку ],Xn упорядочить по возрастанию, получится новый набор случайных величин, называемый вариационным рядом:
13 EMBED Equation.DSMT4 1415
Здесь 13 EMBED Equation.DSMT4 1415
Определение.
k-ый элемент вариационного ряда, k=1n, называется k-й порядковой статистикой.
Пример 1.
Выборка: X=(0;2;1;2,6;3,1;4,6;1;4,6;6;2,6;6;7;9;9;2,6) Вариационный ряд:    (0;1;1;2;2,6;2,6;3,1;4,6;4,6;6;7;9;9)
По вариационному ряду удобно строить эмпирическую ф-цию распределения
13 EMBED Equation.DSMT4 1415
13 EMBED Word.Picture.8 1415
Если Эмпирическая функция распределения является аналогом ф-ции распределения случайной величины, то эмпирическим аналогом таблицы распределения для дискретных величин или плотности для непрерывных является гистограмма.
Область выборочных данных делят независимо от выборки на некоторое число интервалов группировки 13 EMBED Equation.DSMT4 1415. 13 EMBED Equation.DSMT4 1415-число элементов выборки, попавших в j-ый интервал.
На каждом из интервалов 13 EMBED Equation.DSMT4 1415строят прямоугольник, площадь которого пропорциональна 13 EMBED Equation.DSMT4 1415. Общая площадь всех прямоугольников должна равняться единице. Пусть 13 EMBED Equation.DSMT4 1415 длина интервала 13 EMBED Equation.DSMT4 1415. Высота fj прямоугольника над 13 EMBED Equation.DSMT4 1415равна
13 EMBED Equation.DSMT4 1415
Полученная фигура называется гистограммой.
Пример 2.
Имеется вариационный ряд (см. пример [ Cкачайте файл, чтобы посмотреть ссылку ]):
13 EMBED Equation.DSMT4 1415
Разобьем отрезок [0;10]на 4 равных отрезка. В отрезок A1=[0;2,5] попали 4 элемента выборки, в 13 EMBED Equation.DSMT4 1415-6, в13 EMBED Equation.DSMT4 1415 3, и в отрезок 13 EMBED Equation.DSMT4 1415попали 2 элемента выборки. Строим гистограмму (рис. [ Cкачайте файл, чтобы посмотреть ссылку ]). На рис. [ Cкачайте файл, чтобы посмотреть ссылку ] тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

Рис. 2.  Пример [ Cкачайте файл, чтобы посмотреть ссылку ]
 
Рис. 3.  Пример [ Cкачайте файл, чтобы посмотреть ссылку ]


[ Cкачайте файл, чтобы посмотреть картинку ]


Замечание 1.
Иногда утверждается, что наилучшим числом интервалов группировки является
13 EMBED Equation.DSMT4 1415, т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Справедливо следующее утверждение:
Если плотность распределения элементов выборки является непрерывной функцией, то при 13 EMBED Equation.DSMT4 1415, имеет место поточечная сходимость по вероятности гистограммы к плотности.
Так что выбор логарифма не противоречит этому утверждению.


1.4.   Выборочные моменты
Знание моментов распределения также многое может сказать о его виде и свойствах. Введем выборочные аналоги неизвестных истинных моментов распределения.
Пусть, 13 EMBED Equation.DSMT4 1415, теоретические среднее, дисперсия, k-й момент. Мы уже знакомы с соответствующими характеристиками выборочного распределения, ,13 EMBED Equation.DSMT4 1415.
Теоретические характеристики
Эмпирические характеристики

13 EMBED Equation.DSMT4 1415
[ Cкачайте файл, чтобы посмотреть картинку ] выборочное среднее

13 EMBED Equation.DSMT4 1415
[ Cкачайте файл, чтобы посмотреть картинку ] выборочная дисперсия либо [ Cкачайте файл, чтобы посмотреть картинку ]несмещенная выборочная
дисперсия

13 EMBED Equation.DSMT4 1415
[ Cкачайте файл, чтобы посмотреть картинку ] выборочный [ Cкачайте файл, чтобы посмотреть картинку ]-й момент

Список числовых характеристик и их оценок можно продолжать, рассмотрев, например, центральные, абсолютные и т.п. моменты. В общем случае
момент  Mg(X)  будем оценивать величиной   [ Cкачайте файл, чтобы посмотреть картинку ].


1.5.   Сходимость эмпирических характеристик к теоретическим

Мы ввели три вида эмпирических характеристик, предназначенных для оценивания неизвестных теоретических характеристик распределения: эмпирическую функцию распределения, гистограмму, выборочные моменты. Если наши оценки удачны, разница между ними и истинными характеристиками должна стремится к нулю с ростом объема выборки. Такое свойство эмпирических характеристик называют состоятельностью. Убедимся, что наши выборочные характеристики таким свойством обладают.
1.5.1.   Свойства эмпирической функции распределения
Теорема 1.
Пусть13 EMBED Equation.DSMT4 1415 выборка объема n из неизвестного распределения с функцией распределения F(y). ПустьFn*(y) эмпирическая функция распределения, построенная по этой выборке. Тогда для любого y13 EMBED Equation.DSMT4 1415R
13 EMBED Equation.DSMT4 1415 при 13 EMBED Equation.DSMT4 1415
Замечание
Fn*(y) случайная величина, так как она является функцией от случайных величин X1,X2,Xn. То же самое можно сказать про гистограмму и выборочные моменты.
Доказательство теоремы   [ Cкачайте файл, чтобы посмотреть ссылку ]  По определению [ Cкачайте файл, чтобы посмотреть ссылку ],
13 EMBED Equation.DSMT4 141513 EMBED Equation.DSMT4 1415
Случайные величины 13 EMBED Equation.DSMT4 1415, независимы и одинаково распределены, их математическое ожидание конечно:
13 EMBED Equation.DSMT4 1415
поэтому применим закон больших чисел в форме Чебышева
13 EMBED Equation.DSMT4 1415 при 13 EMBED Equation.DSMT4 1415
Таким образом, с ростом объема выборки эмпирическая функция распределения сходится (по вероятности) к неизвестной теоретической, ч. т. д.



1.5.2.   Свойства гистограммы
Пусть распределение непрерывно,f его истинная плотность. Пусть, кроме того, число k интервалов группировки не зависит от n. Справедлива
Теорема 4. При 13 EMBED Equation.DSMT4 1415для любого j=1,2,,k площадь прямоугольника
13 EMBED Equation.DSMT4 1415
+
    Доказательство.
13 EMBED Equation.DSMT4 1415
По закону больших чисел 13 EMBED Equation.DSMT4 1415

Теорема утверждает, что площадь столбца гистограммы, построенного над интервалом группировки, с ростом объема выборки сближается с площадью области под графиком плотности над этим же интервалом.

1.5.3.   Свойства выборочных моментов
1. Свойства выборочного среднего.

Теорема. Выборочное среднее является несмещенной, состоятельной и асимптотически нормальной оценкой для математического ожидания:
1)
13 EMBED Equation.DSMT4 1415 13 EMBED Equation.DSMT4 1415 (несмещ.).
2) если 13 EMBED Equation.DSMT4 1415,то при 13 EMBED Equation.DSMT4 1415 13 EMBED Equation.DSMT4 1415 (сост.)
3) Если DX13 EMBED Equation.DSMT4 1415 и не равна нулю,то 13 EMBED Equation.DSMT4 1415

Доказательство.
1) 13 EMBED Equation.DSMT4 1415
2)Согласно закону больших чисел в форме Чебышева 13 EMBED Equation.DSMT4 1415

3)Согласно ЦПТ, 13 EMBED Equation.DSMT4 1415



Следствие.
Выборочный k-й момент является несмещенной, состоятельной и асимптотически нормальной оценкой для теоретического k-го момента.


2.Свойства выборочной дисперсии.  
1)
Выборочные дисперсии S2 иS02 являются состоятельными оценками для истинной дисперсии:
13 EMBED Equation.DSMT4 1415
2)
ВеличинаS2 смещенная, а S02 несмещенная оценка дисперсии:
13 EMBED Equation.DSMT4 1415
3)
Выборочные дисперсии S2 и 13 EMBED Equation.DSMT4 1415являются асимптотически нормальными оценками истинной дисперсии:
13 EMBED Equation.DSMT4 1415.
Доказательство
1)
Во-первых, раскрыв скобки, убедимся в том, что
13 EMBED Equation.DSMT4 1415
(2)

Из ([ Cкачайте файл, чтобы посмотреть ссылку ]) и ЗБЧ следует, что 13 EMBED Equation.DSMT4 1415. А т.к. 13 EMBED Equation.DSMT4 1415 то 13 EMBED Equation.DSMT4 1415
2)
Воспользуемся формулой [ Cкачайте файл, чтобы посмотреть ссылку ]:
13 EMBED Equation.DSMT4 1415
3) Асимптотическая нормальность выборочных дисперсий S2 и S02 доказывается аналогично доказательству асимптотической нормальности выборочного среднего.

Root EntryXEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation Native

Приложенные файлы

  • doc 18814178
    Размер файла: 274 kB Загрузок: 0

Добавить комментарий