Числовые характеристики степени рассеяния наблюдений. Вариационный ряд и его числовые характеристики: положения, рассеяния, формы. Суперфиниширование, сущность процесса, область применения. Выбор размеров, способа крепления брусков и их правки в процессах

Для выборки можно определить ряд числовых характеристик, которые аналогичны основным числовым характеристикам случайных величин в теории вероятностей (математическое ожидание, дисперсия, среднее квадратическое отклонение, мода, медиана) и являются в некотором смысле (который будет ясен дальше) их приближенным значением.

Пусть дано статистическое распределение выборки объема n для частот и относительных частот:

x i

x 1

x 2

x k

n i

n 1

n 2

n k


x i

x 1

x 2

x k

w i

w 1

w 2

w k

Выборочным средним называется среднее арифметическое значение всех вариант:

Если внести множитель под знак суммы, то получим формулу для выборочного среднего через относительные частоты:

.

Отметим, что в случае интервального ряда выборочное среднее вычисляется по тем же формулам, если в качестве чисел х 1 , … , х k взять середины интервалов: , … ,.

Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от их выборочного среднего:

Снова внося множитель под знак суммы, получим формулу для выборочной дисперсии через относительные частоты:

Несложные преобразования приводят к более удобной формуле для вычисления выборочной дисперсии

,

где есть выборочное среднее квадрата изучаемой случайной величины, т.е.

Если выборка представлена интервальным статистическим рядом, то формулы для выборочной дисперсии остаются те ми же, где, как обычно, в качестве чисел х 1 , … , х k берутся середины интервалов: , … ,.

Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии

.

Размахом вариации R называется разность между максимальным и минимальным значением в выборке. Если варианты в выборке ранжированы (размещены в возрастающем порядке), то

.

Коэффициент вариации определяется по формуле

.

Модой М о вариационного ряда называется вариант, имеющий наибольшую частоту (или относительную частоту).

Медианой М е вариационного ряда называется число, являющееся его серединой. Для дискретного ряда с нечетным числом вариант медиана равна его серединному варианту. Если же число вариант четно, то Медина равна среднему (т.е. полусумме) двух серединных вариант.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения(средние характе­ристики, или центральная тенденция выборки); характеристики рассеяния(ва­риации, или колеблемости) и характеристики формыраспределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости) относятся: размах вариации, дисперсия, среднее квадратическое (стандартное) отклонение, ошибка средней арифметической (ошибка средней), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости

Оценка параметров генеральной совокупности

Существуют точечные и интервальные оценки генеральных параметров.

Точечной одним числом . К таким оценкам относятся, например,

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны быть:

    несмещенными;

    эффективными;

    состоятельными.

Оценка называется несмещенной, если математическое ожидание ее выборочного распределения совпадает со значением генерального параметра.

Точечная оценка называется эффективной, если она имеет наименьшую дисперсию выборочного распределения по сравнению с другими аналогичными оценками, т.е. обнаруживает наименьшую случайную вариацию.

Точечная оценка называется состоятельной, если при увеличении объема выборочной совокупности она стремиться к величине генерального параметра.

Например, выборочная средняя есть состоятельная, несмещённая оценка генеральной средней. Для выборки из нормальной генеральной совокупности эта оценка является также и эффективной.

При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами концами интервала доверительного интервала .

Интервальные оценки позволяют установить точность и надежность оценок.

Для оценки генерального параметра с помощью доверительного интервала необходимы три величины:

Например, доверительный интервал для генеральной средней находится по формуле:при уровне значимости.

Доверительный интервал - термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

1. Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

2. Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

 2 =
,

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

В тех случаях, когда среднее арифметическое и дисперсия вычисляются од­новременно, используются формулы:

для несгруппированных данных:

 2 =
,

для сгруппированных данных:

.

3. Среднее квадратическое (стандартное ) отклонение

Определение. Среднее квадратическое (стандартное ) отклонение характе­ризует степень отклонения результатов от среднего значения в абсолютных единицах, т. к. в отличие от дисперсии имеет те же единицы измерения, что и результаты измерения. Иначе говоря, стандартное отклонение показывает плотность распределения результатов в группе около среднего значения, или однородность группы.

Для несгруппированных данных стандартное отклонение можно определить по формулам

 =
,

 =
или =
.

Для данных, сгруппированных в интервалы, стандартное отклонение определяется по формулам:

,

или
.

4. Ошибка средней арифметической (ошибка средней)

Ошибка средней арифметической характеризует колеблемость средней и вычисляется по формуле:

.

Как видно из формулы, с увеличением объёма выборки ошибка средней уменьшается пропорционально корню квадратному из объёма выборки.

5. Коэффициент вариации

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах:

.

Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, то есть полученной из одной генеральной совокупности.

В описательной статистике центральное место занимает оценивание параметров выборки.

Точечное оценивание параметров распределения

Точечная оценка - количественная характеристика генеральной совокупности, функция от наблюдаемых случайных величин. Далее речь пойдет о точечном оценивании параметров распределения.

Рассмотрим свойства точечных оценок.

А) Несмещенной оценкой параметра θ называется статистическая оценка θ* , математическое ожидание которой равно θ : М (θ* )= θ .

Если М (θ* ) > θ (или М (θ* ) < θ ) , то возникает систематическая ошибка (неслучайная ошибка, искажающая результаты измерений в одну сторону). Несмещенность оценки является гарантией защиты от систематических ошибок.

Б) Однако несмещенная оценка не всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения θ* могут быть сильно рассеяны вокруг своего среднего значения (дисперсия D (θ* ) может быть велика). Тогда найденная по данной выборке оценка, например θ* 1 , может оказаться удаленной от М (θ* ), а значит и от θ . Поэтому естественным вслед за несмещенностью, является требование малости дисперсии.

Эффективной называют оценку, которая при данном объеме выборки имеет наименьшую дисперсию.

В) При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности. Состоятельной называют оценку, которая при n→∞ по вероятности стремиться к оцениваемому параметру:

Например, если дисперсия несмещенной оценки стремиться к нулю при n→∞, то такая оценка оказывается и состоятельной.

Перейдем к оцениванию параметров распределения.

Параметры распределения – это его числовые характеристики. Они указывают, где в среднем располагаются значения признака (мера положения ), насколько значения изменчивы (мера рассеяния), ихарактеризуют отклонение распределения от нормального (мера формы) . В реальных условиях исследования мы оперируем не параметрами, а их приближенными значениями – оценками параметров, которые являются функциями от наблюдаемых величин. Заметим, что чем больше выборка, тем ближе может быть оценка параметра к его истинному значению.



Пусть x 1 , x 2 , … x к вариационный ряд и n 1 , n 2 , … n к - частоты соответствующих вариант, n – объем выборки.

Показатели положения


Если дано интервальное статистическое распределение, то выборочная средняя определяется для соответствующих интервалов .

Где - середина интервала .

Выборочная средняя является несмещенной и состоятельной оценкой.

Медиана - значение признака, приходящееся на середину упорядоченного по возрастанию вариационного ряда. Если ряд состоит их (2N +1) вариант, то медианой является (N +1)-е значение варианта, если ряд состоит из 2N вариант, то медиана равна полусумме N – го и (N +1) – ого значений вариант.

Мода - вариант с наибольшей частотой. Если таких вариант несколько (у них одна и та же частота), то распределение называют полимодальным .

Показатели вариации

Размах – разница между наибольшим и наименьшим значениями вариант.

Выборочная дисперсия (оценка дисперсии) – характеристика рассеяния наблюдаемых значений количественного признака выборки вокруг своего среднего значения. Обозначим D в - выборочную дисперсию

Можно показать, что М(D в) = (n/(n-1))D в. Поэтому исправленная (несмещенная) дисперсия, которую будем обозначать через , равна


Кроме выборочной дисперсии для характеристики рассеяния пользуются сводной характеристикой - средним квадратическим отклонением (стандартом) σ
Выборочная асимметрия – характеристика симметричности распределения. Обозначается . Для симметричных распределений (в том числе для нормального распределения) асимметрия равна нулю. Если , то «длинная часть» кривой распределения расположена справа от математического ожидания, если , то слева от математического ожидания (рис.2.).

Выборочный эксцесс – характеристика «подъема, крутости» кривой распределения. Обозначается . Для нормального распределения эксцесс равен нулю. При , то кривая имеет более высокую и острую вершину, если , то кривая имеет более низкую вершину, чем нормальная кривая (рис.1).

Характеристики положения дают усредненное представление о характерных значениях, принимаемых случайными величинами. Информации в этих характеристиках тем больше, чем меньшие отклонения от них могут наблюдаться в реальном эксперименте. Показатели, описывающие возможные отклонения значений случайной величины от «средних», называются характеристиками рассеяния. К ним относятся дисперсия, среднеквадратичное отклонение, срединное отклонение, коэффициент вариации и некоторые другие. 2.1. Дисперсия и ее свойства Важнейшей из них является дисперсия. Дисперсией случайной величины £ (обозначение #[£]) называется математическое ожидание квадрата отклонения случайной величины (от своего среднего Отметим некоторые свойства дисперсии. используя свойства математического ожидания, получаем Отметим, что если случайные величины - независимы, то из свойства 3 математического ожидания следует, что и указанное свойство выглядит так: 6. Если д^(х) - обобщенная плотность распределения случайной величины f, то £>[£] может быть вычислена из соотношения Характеристики рассеяния Дисперсия и ее свойства Неравенство Чебышёва в частности, если £ - непрерывная случайная величина с плотностью ж), то если же £ - дискретная случайная величина с рядом распределения Пример t (дисперсия бернуллиевой случайной величины). Пусть (- беонуллиева случайная величина, . В соответствие с соотношением (4), получаем (М= р) Пример 2 (дисперсия биномиальной случайной величины). Если £ - биномиальная с параметрами (п, р), то, как было отмечено выше, (представима в виде где - независимые одинаково распределенные бернуллиевы с параметром р случайные величины. Поэтому (свойство дисперсии 5) Одновременно доказано комбинаторное тождество Пример 3 (дисперсия равномерной на (и, случайной величины). Пусто Имеем Характеристикой рассеяния, тесно связанной с дисперсией, является среднее ква-дратическое отклонение случайной величины". Обладая тем же качественным наполнением (содержа в себе ту же информацию), что и дисперсия, среднее квадратическое отклонение имеет то преимущество, что измеряется в тех же единицах, что и рассматриваемая случайная величина. Отметим, что из свойств дисперсии с очевидностью следует: если только - независимы. В заключение заметим, что если у случайной величины £ существуют то можно построить случайную величину £, обладающую теми же свойствами, что и £, но имеющую стандартные числовые характеристики: М = 0 и D = 1. Достаточно положить Переход от (к £ - т носит название центрирование случайной величины а переход от- нормирование. Таким образом, соотношение (6) описывает процедуру нормирования и центрирования случайной величины Очевидно, что центрирование) не меняет дисперсии, в то время как нормирование, носящее характер масштабного преобразования, изменяет математическое ожидание в о раз. 2.2. Неравенство Чебышёва Из определения дисперсии (1) ясно, что она призвана качественно описывать рассеяние значений случайной величины относительно математического ожидания. Точный вероятностный смысл этого описания дается неравенством Чебышёва, которое мы здесь рассмотрим. Теорема. Пусть случайная величина £ обладает математическим ожиданием А/(£| = т и дисперсией /?(£) = а2. Тогда каково бы ни было е > О Рассмотрим вспомогательную случайную величину г/, заданную соотношением Заметим, что и потому По теореме о математическом ожидании функции от случайной величины получаем откуда или чем и завершается доказательство. Отметим, что неравенство (7) часто используется в эквивалентной форме получающейся из (7) применением очевидного соотношения Неравенство Чебышёва показывает, что чем меньше дисперсия, тем реже значения случайной величины £ «сильно» (больше чем на е) отклоняются от среднего т. При фиксированной дисперсии вероятности отклонений на величину, большую, чем е,тем меньше, чем больше е. Неравенство (7) универсально. Оно не предъявляет никаких требований к характеру распределения случайной величины f - достаточно существования т и а. В силу своей универсальности оно малоинформативно количественно - для разумных значений е оценки вероятностей крайне фубы. Пример. Для нормальной случайной величины с параметрами (0, 1) имеем Характеристики рассеяния Дисперсия и ее свойства Неравенство Чебышёва в то время как неравенство Чебышёва дает что верно, но тривиально. Для этой же случайной величины при е = 3 точное значение вероятности, а соотношение (8) приводит к оценке которая уже значительно лучше предыдущей. Несмотря на достаточно грубый характер оценок (7)-(8), без дополнительных предположений о характере распределения случайной величины неравенство Чебышёва, как показывает следующий пример, улучшить нельзя - оно точное1*. Пример. Пусть (-дискретная случайная величина, принимающая значения вероятностями соответственно. Легко видеть, что. Положим е = I и найдем значение вероятности Имеем Неравенство (7) в этой ситуации дает оценку которая совпадает с точным значением оцениваемой вероятности. 2.3. Другие характеристики рассеяния Из других характеристик рассеяния, часто используемых в приложениях, отметим коэффициент вариации и срединное отклонение (среднее арифметическое отклонение). Пусть у случайной величины £ существует А/[£) = m и = о2. Коэффициентом вариации случайной величины £ называется величина Из (9) легко усмотреть, что описывает рассеяние случайной величины £ в долях по отношению к среднему. Как абсолютный показатель рассеяния коэффициент вариации не очень удобен, однако для совместно центрированных случайных величин (т.е. имеющих одинаковые математические ожидания) он позволяет эффективно сравнивать диапазоны изменения. Пусть у случайной величины £ существует Срединным отклонением Срединное отклонение (/[£] качественно имеет тот же смысл, что и среднеква-дратическос отклонение - чем больше срединное отклонение, тем больше рассеяние, чем меньше срединное отклонение - тем меньше рассеяние. В том смысле, что существует случайная величина для которой в неравенствах (7)-(8) при некотором е достигается знак равенства. Для конкретных классов распределений связь между этими показателями может быть установлена, однако в общем случае удобных для использования на практике соотношений между U и а нет. Пример 1. Пусть (- нормально распределенная случайная величина. Тогда В этом случае Пример 2. Пусть { = Л[-о, о| - равномерно распределенная случайная величина. Тогда U = а/2. Характеристики рассеяния Дисперсия и ее свойства Неравенство Чебышёва Отметим, что и в этом случае Замеченное свойство U неслучайно -оно имеет место для любых случайных величин (конечно, обладающих дисперсией). Теорема. Если у случайной величины £ существует D£ = а2, то М В неравенстве Коши-Буняковского (свойство 6 математического ожидания) положим Ь Тогда откуда