Что показывает полигон в статистике
2. Дискретный вариационный ряд.
Полигон частот и эмпирическая функция распределения
На вводном уроке по математической статистике мы узнали, что такое математическая статистика, и теперь обо всём подробнее. Далее для удобства я буду нумеровать статьи и постараюсь делать их не слишком длинными. Потому что всё действительно просто, и главное, здесь научиться рациональной технике вычислений, на которую и будет сделан особый упор.
Интервальные и дискретные вариационные ряды почти сразу же встретились в предыдущей статье, и мы начинаем с дискретного случая, когда количественная эмпирическая величина может принимать лишь отдельные изолированные значения.
…что-то не понятно по терминам? Срочно изучать первый урок! (ссылка выше)
Дискретный вариационный ряд – это упорядоченное по возрастанию (как правило) множество вариант (значений величины
) и соответствующих им частот либо относительных частот.
Частоты выборочной совокупности обозначают через , частоты генеральной совокупности – через
. И сразу разбираемся с новым термином. Относительные частоты рассчитываются по формулам:
, где
– объем выборки, при этом, сумма всех относительных частот:
.
Аналогично для совокупности генеральной: , где
– её объем, и, очевидно:
И тут вспоминается Пример 2 об оценках по матанализу в группе из студентов:
– пожалуйста, пример дискретного вариационного ряда, где варианты – это оценки, а частоты
– количество студентов, получивших ту или иную оценку.
Для разминки найдём относительные частоты:
и непременно проконтролируем, что: .
Все вычисления обычно проводят на калькуляторе либо в Экселе, а результаты заносят в таблицу, при этом, в статистике данные чаще располагают не в строках, а в столбцах:
Такое расположение обусловлено тем, что количество вариант может быть достаточно велико, и они просто не вместятся в строчку. Не редкость, когда их 10-20, а бывает, и 100-200, что тоже и неоднократно встречалось в моей практике. И это не какие-то супер-пупер расчёты, а учебные задачи!
После сей позитивной новости продолжаем 🙂
Откуда берутся дискретные вариационные ряды? Такие ряды появляются в результате учёта дискретной характеристики статистической совокупности, причём, варианты ряда не отличаются большим разнообразием. Например, оценки (коих не так много) в примере выше.
И сейчас мы примем непосредственное участие в этом процессе:
По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3. Требуется:
– составить вариационный ряд и построить полигон частот;
– найти относительные частоты и построить эмпирическую функцию распределения.
Чего томиться? – вся тема урока в одной задаче!
Решение: в условии прямо сказано о том, что перед нами выборка из генеральной совокупности (всех рабочих цеха), и первое, что логично сделать – подсчитать её объем, т.е. количество рабочих. В данном случае это легко сделать устно: .
Квалификационные разряды – есть величина дискретная, и поэтому нам предстоит составить дискретный вариационный ряд (обратите внимание, что в условии ничего не сказано о характере ряда).
Если у вас под рукой нет вычислительных программ, то вручную (Эксель разберём ниже). При этом оптимальным может быть следующий алгоритм: сначала окидываем взглядом все числа и определяем среди них минимальное (примерно) и максимальное (примерно). В данном случае ориентировочный диапазон – от 1 до 7. Записываем их в столбец на черновике и обводим в кружочки. Далее начинаем вычёркивать карандашом числа из исходного списка:
и делать около соответствующих кружков засечки:
После того, как все числа будут вычеркнуты, подсчитываем количество засечек в каждой строке:
И обязательно проверяем, получается ли у нас в сумме объём выборки :
, отлично, искомый ряд составлен, заносим полученные значения в таблицу на чистовик:
…ну что же, вполне и вполне логично – рабочих средней квалификации много, а учеников и мастеров – мало. Полученные результаты позволяют достаточно точно судить об уровне квалификации всего цеха (если, конечно, выборка представительна)
Построенный вариационный ряд также называют статистическим распределением выборки, причём, этот термин применИм не только для дискретного, но и для интервального ряда, который мы рассмотрим на следующем уроке.
Построим полигон частот. Это статистический аналог многоугольника распределения дискретной случайной величины (кто изучал). Полигон частот – это ломаная, соединяющая соседние точки :
…эх, ностальгия. Но, пятилетку-другую, думается, так решать ещё будут.
Теперь современный способ:
Решаем! – исходные данные с пошаговой инструкцией прилагаются.
Вторая часть задачи. Найдём относительные частоты , для этого каждую частоту
делим на
и результат заносим в дополнительный столбец, далее я перехожу к электронной версии:
– обязательно проверяем, что сумма относительных частот равна единице!
Иногда требуется построить полигон относительных частот. Как вы правильно догадываетесь – это ломаная, соединяющая соседние точки . Но такое задание больше характерно для интервального вариационного ряда.
А теперь посмотрим на относительные частоты и задумаемся, на что они похожи? …Правильно, на вероятности. Так, например, можно сказать, что – есть примерная вероятность того, что наугад выбранный рабочий цеха будет иметь 4-й разряд. «Примерная» – по той причине, что перед нами выборка.
А вот если учесть ВСЕХ рабочих цеха (всю генеральную совокупность), то рассчитанные относительные частоты – и есть в точности эти вероятности.
Построим эмпирическую функцию распределения . Это статистический аналог функции распределения из тервера. Данная функция определяется, как отношение:
, где
– количество вариант СТРОГО МЕНЬШИХ, чем
,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.
Очевидно, что на интервале , и, кроме того, функция равна нулю ещё и в точке
. Почему? Потому, что значение
определяет количество вариант, которые СТРОГО меньше двух, а это количество равно нулю.
На промежутке – и опять обратите внимание, что значение
не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх.
На промежутке и далее процесс продолжается по принципу накопления частот:
– если , то
;
– если , то
;
– и, наконец, если , то
– и в самом деле, для ЛЮБОГО «икс» из интервала
ВСЕ частоты расположены СТРОГО левее этого «икс».
Накопленные относительные частоты удобно записывать в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева 1-е значение (красная стрелка), а каждое следующее получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):
Вот, кстати, ещё один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.
Саму функцию принято записывать в кусочном виде:
а её график представляет собой ступенчатую фигуру:
Эмпирическая функция распределения не убывает и принимает значения из промежутка , и если у вас вдруг получится не так, то ищите ошибку.
И сейчас мы автоматизируем процесс; видео, к сожалению, не вписалось по ширине, посему смотрим его на Ютубе:
Как построить эмпирическую функцию распределения?
Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения
. Легко догадаться, что последняя образуется на основании исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА именно эмпирическая функция, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.
Миниатюрная задача для закрепления материала:
Дано статистическое распределение выборки
Составить эмпирическую функцию распределения, выполнить чертёж
Самостоятельно решить Пример 5 в Экселе, все числа и обозначения уже там.
Свериться с образцом можно ниже. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.
И я жду вас на третьем уроке, где речь пойдёт об интервальном вариационном ряде.
Пример 5. Решение: заполним расчётную таблицу:
Составим эмпирическую функцию распределения:
Выполним чертёж:
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам
Ряды распределения
После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.
Ряд распределния является одним из видов группировок.
Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:
Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.
Графическое изображение рядов распределения
Наглядно ряды распределения представляются при помощи графических изображений.
Ряды распределения изображаются в виде:
Полигон
При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.
Полигон на рис. 1 построен по данным микропереписи населения России в 1994 г.
Домохозяйства, состоящие из: | одного человека | двух человек | трех человек | 5 или более | всего |
Число домохозяйств в % | 19,2 | 26,2 | 22,6 | 20,5 | 100,0 |
Рис. 1. Распределение домохозяйств по размеру
Условие: Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение:
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.
Тарифный разряд Xi | Число работников fi |
1 | 3 |
2 | 5 |
3 | 4 |
4 | 6 |
5 | 3 |
6 | 4 |
Итого: | 25 |
Полигон используется для дискретных вариационных рядов.
Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.
Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.
Статистическая таблица
Условие: Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Построить интервальный вариационный ряд с равными интервалами.
Решение:
При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.
Гистограмма
Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
На рис. 2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.
Все население | В том числе в возрасте | ||||||||
до 10 | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 | 60-70 | 70 и старше | Всего | |
Численность населения | 12,1 | 15,7 | 13,6 | 16,1 | 15,3 | 10,1 | 9,8 | 7,3 | 100,0 |
Рис. 2. Распределение населения России по возрастным группам
Условие: Приводится распределение 30 работников фирмы по размеру месячной заработной платы
Размер заработной платы руб. в месяц | Численность работников чел. |
до 5000 | 4 |
5000 — 7000 | 12 |
7000 — 10000 | 8 |
10000 — 15000 | 6 |
Итого: | 30 |
Задача: Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение:
Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.
Кумулята
Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.
Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 3).
Рис. 3. Кумулята распределения домохозяйств по размеру
4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.
Размер заработной платы руб в месяц Xi | Численность работников чел. fi | Накопленные частоты S |
до 5000 | 4 | 4 |
5000 — 7000 | 12 | 16 |
7000 — 10000 | 8 | 24 |
10000 — 15000 | 6 | 30 |
Итого: | 30 | — |
При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:
Огива
Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.
Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.
Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.