Что показывает среднее значение
8.3. Средние величины в статистике
Наиболее распространенной формой статистических показателей, используемой в экономических исследованиях, являются средние показатели (средняя величина).
Средняя величина – представляет обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях места и времени.
Показатель в форме средней величины выражает типичные черты и дает обобщающую характеристику однотипных явлений по одному из варьирующих признаков. Он отражает уровень этого признака, отнесенный к единице совокупности.
Важнейшее свойство средней величины заключается в том, что она отражает то общее, что присуще всем единицам исследуемой совокупности.
Значения признака отдельных единиц совокупности колеблются в ту или иную сторону под влиянием множества факторов, среди которых могут быть как основные, так и случайные.
Сущность средней заключается, в том, что в ней взаимопогашаются отклонения значений признака отдельных единиц совокупности, обусловленные действием случайных факторов, и учитываются изменения, вызванные действием факторов основных. Это позволяет средней отражать типичный уровень признака и абстрагироваться от индивидуальных особенностей, присущих отдельным единицам.
ВИДЫ СРЕДНИХ ВЕЛИЧИН наиболее часто применяемых на практике:
Выбор средней величины зависит от содержания осредняемого признака и конкретных данных, по которым ее приходится вычислять.
ФОРМУЛЫ СРЕДНИХ ВЕЛИЧИН
Таблица 8.2 – Результаты опроса работников офиса
Среднее арифметическое: физический смысл и визуализация
Переменная величина – атрибут (свойство) системы, меняющий свое числовое значение. Множество значений переменой величины может иметь вид:
Человек анализирует числовые данные такого рода и принимает решения. Знание температуры воздуха помогает правильно одеться. Курс валюты говорит покупать ее или продавать.
Когда значений одно или несколько, то никаких трудностей не возникает. Но когда значений десятки или сотни, то человеку сложно сразу понять, что означают полученные данные. На помощь приходят интегральные характеристики множеств значений и визуализация.
Одна из интегральных характеристик множества значений переменной величины – среднее арифметическое. Посмотрим на него с точки зрения статистики, физики (механики) и эстетики.
Среднее арифметическое двух чисел
Начнем с минимального набора чисел, для которых можно подсчитать среднее арифметическое. Вот два числа:
Их среднее арифметическое:
Физический смысл среднего арифметического
Изобразим два исходных числа и их среднее арифметическое на числовой оси:
Числа помечены черными кружками, а среднее арифметическое красным треугольником. Полученная конструкция – это весы. Для весов в равновесии правило рычага требует, чтобы моменты сил были равны. Весы не наклоняются ни в одну, ни в другую сторону, так как крутящий момент отсутствует.
В механике момент силы – это произведение силы F на расстояние l:
На плечи весов действует сила, создаваемая весом точек-«грузов». Обозначив расстояния от грузов до точки опоры l1 и l2, получим:
Точки-«грузы» отличаются только координатой на оси. Будем считать их вес одинаковым. Тогда:
Обозначив m координату точки опоры весов, получим:
Аналогично из формулы равенства моментов для произвольного количества N точек-«грузов» с одинаковым весом w выводится формула среднего арифметического. Равенство моментов для обоих плеч весов:
Координата опоры весов m:
Формула среднего арифметического дает координату точки опоры весов, находящихся в равновесии.
Визуальное восприятие равновесия
Равновесие в изобразительном искусстве играет важнейшую роль. Если при создании картины не достигнуто равновесие ее элементов, то произведение не будет законченным. В каждой картине художник создает равновесие различных визуальных сил.
Рудольф Арнхейм отмечает, что человеческое зрение способно обнаруживать малейшие отклонения от центра равновесия в изображении:
На приведенном примере слева круг находится в состоянии равновесия, а справа нет. Несмотря на то, что точка равновесия (центр квадрата) никак не отмечена на рисунке, человек с большой точностью может определить, находится ли круг в этой точке или нет.
Несмотря на то, что точка равновесия может быть не изображена, человек воспринимает ее как часть визуальной структуры:
Аналогично и среднее арифметическое: необязательно входит в набор чисел, но значимо для его восприятия и оценки.
Математическое ожидание случайной величины
Для случайной величины аналогом среднего арифметического служит математическое ожидание. Вероятность при этом можно считать весом точки-«груза». Формула равенства моментов с разными весами:
Теперь точка опоры весов в равновесии это μ:
Сумма всех вероятностей равна 1. Следовательно, и сумма весов равна 1. Тогда формула координаты точки весов в равновесии равна:
Это и есть формула математического ожидания.
Гистограмма
Гистограмма – это визуализация (геометрическое изображение) значений переменной величины с учетом вероятностей. Гистограмма показывает для выборки значений, какие из них появляются часто, какие реже, а какие совсем редко.
На гистограмме возможные значения откладываются по горизонтальной оси, а веса – по вертикальной. Диапазон значений по вертикали очевиден – от 0 до 1 (значения вероятности). По горизонтали диапазон должен включать ожидаемые значения переменной.
Гистограмма представляет собой простую картину (экземпляр изобразительного искусства). Зритель ожидает, что точка равновесия множества значений будет ровно посередине гистограммы:
Исходя из этого должен подбираться диапазон значений для горизонтальной оси гистограммы. Тогда сразу будет видно отклонение свойств выборки значений от ожидаемых:
Такого рода отклонение может быть вызвано выбросами. Выбросы – это значения, сильно отличающиеся от остальных. Благодаря правилу рычага, даже небольшое количество выбросов меняет точку равновесия и среднее арифметическое:
Дайте мне точку опоры, и я переверну Землю. Архимед
Средние величины и показатели вариации
Понятие и виды средних величин
Существует 2 класса средних величин: степенные и структурные.
К структурным средним относятся мода и медиана, но наиболее часто применяются степенные средние различных видов.
Степенные средние величины
Степенные средние могут быть простыми и взвешенными.
Простая средняя величина рассчитывается при наличии двух и более несгруппированных статистических величин, расположенных в произвольном порядке по следующей общей формуле:
Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием следующей общей формулы:
Используя общие формулы простой и взвешенной средних при разных показателях степени m, получаем частные формулы каждого вида, которые будут далее подробно рассмотрены.
Средняя арифметическая
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической простой: (3+4+4+5)/4 = 16/4 = 4.
Средняя арифметическая взвешенная имеет следующий вид:
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической взвешенной: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4.
Если значения X заданы в виде интервалов, то для расчетов используют середины интервалов X, которые определяются как полусумма верхней и нижней границ интервала. А если у интервала X отсутствует нижняя или верхняя граница (открытый интервал), то для ее нахождения применяют размах (разность между верхней и нижней границей) соседнего интервала X.
Средняя арифметическая применяется чаще всего, но бывают случаи, когда необходимо применение других видов средних величин. Рассмотрим такие случаи далее.
Средняя гармоническая
Средняя гармоническая применяется, когда исходные данные не содержат частот f по отдельным значениям X, а представлены как их произведение Xf. Обозначив Xf=w, выразим f=w/X, и, подставив эти обозначения в формулу средней арифметической взвешенной, получим формулу средней гармонической взвешенной:
Таким образом, средняя гармоническая взвешенная применяется тогда, когда неизвестны частоты f, а известно w=Xf. В тех случаях, когда все w=1, то есть индивидуальные значения X встречаются по 1 разу, применяется формула средней гармонической простой:
Средняя геометрическая
Средняя геометрическая применяется при определении средних относительных изменений, о чем сказано в теме Ряды динамики. Геометрическая средняя величина дает наиболее точный результат осреднения, если задача стоит в нахождении такого значения X, который был бы равноудален как от максимального, так и от минимального значения X.
Средняя квадратическая
Средняя квадратическая применяется в тех случая, когда исходные значения X могут быть как положительными, так и отрицательными, например при расчете средних отклонений.
Главной сферой применения квадратической средней является измерение вариации значений X, о чем пойдет речь позднее в этой лекции.
Средняя кубическая
Средняя кубическая применяется крайне редко, например, при расчете индексов нищеты населения для развивающихся стран (ИНН-1) и для развитых (ИНН-2), предложенных и рассчитываемых ООН.
Структурные средние величины
К наиболее часто используемым структурным средним относятся статистическая мода и статистическая медиана.
Статистическая мода
Если X задан дискретно, то мода определяется без вычисления как значение признака с наибольшей частотой. В статистической совокупности бывает 2 и более моды, тогда она считается бимодальной (если моды две) или мультимодальной (если мод более двух), и это свидетельствует о неоднородности совокупности.
Если X задан равными интервалами, то сначала определяется модальный интервал как интервал с наибольшей частотой f. Внутри этого интервала находят условное значение моды по формуле:
где Мо – мода;
ХНМо – нижняя граница модального интервала;
hМо – размах модального интервала (разность между его верхней и нижней границей);
fМо – частота модального интервала;
fМо-1 – частота интервала, предшествующего модальному;
fМо+1 – частота интервала, следующего за модальным.
Если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.
Статистическая медиана
Если X задан дискретно, то для определения медианы все значения нумеруются от 0 до N в порядке возрастания, тогда медиана при четном числе N будет лежать посередине между X c номерами 0,5N и (0,5N+1), а при нечетном числе N будет соответствовать значению X с номером 0,5(N+1).
Если X задан в виде равных интервалов, то сначала определяется медианный интервал (интервал, в котором заканчивается одна половина частот f и начинается другая половина), в котором находят условное значение медианы по формуле:
где Ме – медиана;
ХНМе – нижняя граница медианного интервала;
hМе – размах медианного интервала (разность между его верхней и нижней границей);
fМе – частота медианного интервала; fМе-1 – сумма частот интервалов, предшествующих медианному.
Также как и в случае с модой, при определении медианы если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.
Показатели вариации
Размах вариации
Размах вариации – это разность между максимальным и минимальным значениями X из имеющихся в изучаемой статистической совокупности:
Недостатком показателя H является то, что он показывает только максимальное различие значений X и не может измерять силу вариации во всей совокупности.
Cреднее линейное отклонение
Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Ранее уже была рассчитана средняя арифметическая = 4. Рассчитаем среднее линейное отклонение простое: Л = (|3-4|+|4-4|+|4-4|+|5-4|)/4 = 0,5.
Вернемся к примеру про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Ранее уже была рассчитана средняя арифметическая = 4 и среднее линейное отклонение простое = 0,5. Рассчитаем среднее линейное отклонение взвешенное: Л = (|3-4|*1+|4-4|*2+|5-4|*1)/4 = 0,5.
Линейный коэффициент вариации
С помощью линейного коэффициента вариации можно сравнивать вариацию разных совокупностей, потому что в отличие от среднего линейного отклонения его значение не зависит от единиц измерения X.
В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, линейный коэффициент вариации составит 0,5/4 = 0,125 или 12,5%.
Дисперсия
В уже знакомом нам примере про студента, который сдал 4 экзамена и получил оценки: 3, 4, 4 и 5, ранее уже была рассчитана средняя арифметическая = 4. Тогда дисперсия простая Д = ((3-4) 2 +(4-4) 2 +(4-4) 2 +(5-4) 2 )/4 = 0,5.
В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, рассчитаем дисперсию взвешенную: Д = ((3-4) 2 *1+(4-4) 2 *2+(5-4) 2 *1)/4 = 0,5.
Если преобразовать формулу дисперсии (раскрыть скобки в числителе, почленно разделить на знаменатель и привести подобные), то можно получить еще одну формулу для ее расчета как разность средней квадратов и квадрата средней:
В уже знакомом нам примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, рассчитаем дисперсию методом разности средней квадратов и квадрата средней:
Д = (3 2 *1+4 2 *2+5 2 *1)/4-4 2 = 16,5-16 = 0,5.
.
Cреднее квадратическое отклонение
Выше уже было рассказано о формуле средней квадратической, которая применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма:
Еще проще можно найти среднее квадратическое отклонение, если предварительно рассчитана дисперсия, как корень квадратный из нее:
В примере про студента, в котором выше рассчитали дисперсию, найдем среднее квадратическое отклонение как корень квадратный из нее:
.
Квадратический коэффициент вариации
В примере про студента, в котором выше рассчитали среднее квадратическое отклонение, найдем квадратический коэффициент вариации V = 0,707/4 = 0,177, что меньше критериального значения 0,333, значит вариация слабая и равна 17,7%.
Средние величины в статистике
Начиная рассуждать о средних величинах, чаще всего вспоминают, как заканчивали школу и поступали в учебное заведение. Тогда по аттестату рассчитывался средний балл: все оценки (и хорошие, и не очень) складывали, полученную сумму делили на их количество. Так вычисляется самый простой вид средней, которая называется средняя арифметическая простая. На практике в статистике применяются различные виды средних величин: арифметическая, гармоническая, геометрическая, квадратическая, структурные средние. Тот или иной их вид используется в зависимости от характера данных и целей исследования.
Средняя величина является наиболее распространенным статистическим показателем, с помощью которого дается обобщающая характеристика совокупности однотипных явлений по одному из варьирующих признаков. Она показывает уровень признака в расчете на единицу совокупности. С помощью средних величин проводится сравнение различных совокупностей по варьирующим признакам, изучаются закономерности развития явлений и процессов общественной жизни.
В статистике применяются два класса средних: степенные (аналитические) и структурные. Последние используются для характеристики структуры вариационного ряда и будут рассмотрены далее в гл. 8.
К группе степенных средних относят среднюю арифметическую, гармоническую, геометрическую, квадратическую. Индивидуальные формулы для их вычисления можно привести к виду, общему для всех степенных средних, а именно
Главным условием, при котором можно использовать степенные средние в статистическом анализе, является однородность совокупности, которая не должна содержать исходных данных, резко различающихся по своему количественному значению (в литературе они носят название аномальных наблюдений).
Продемонстрируем важность этого условия на следующем примере.
Пример 6.1. Вычислим среднюю заработную плату сотрудников малого предприятия.
№ п/п | Заработная плата, руб. | № п/п | Заработная плата, руб. |
---|---|---|---|
1 | 5 950 | 11 | 7 000 |
2 | 6 790 | 12 | 5 950 |
3 | 6 790 | 13 | 6 790 |
4 | 5 950 | 14 | 5 950 |
5 | 7 000 | 5 | 6 790 |
6 | 6 790 | 16 | 7 000 |
7 | 5 950 | 17 | 6 790 |
8 | 7 000 | 18 | 7 000 |
9 | 6 790 | 19 | 7 000 |
10 | 6 790 | 20 | 5 950 |
Для расчета среднего размера заработной платы необходимо просуммировать заработную плату, начисленную всем работникам предприятия (т.е. найти фонд заработной платы), и разделить на число работающих:
А теперь добавим в нашу совокупность всего лишь одного человека (директора этого предприятия), но с окладом в 50 000 руб. В таком случае вычисляемая средняя будет совсем другая:
Как видим, она превышает 7000 руб., т.д. она больше всех значений признака за исключением одного-единственного наблюдения.
Для того чтобы таких случаев не происходило на практике, и средняя не теряла бы своего смысла (в примере 6.1 она уже не выполняет роль обобщающей характеристики совокупности, которой должна быть), при расчете средней следует аномальные, резко выделяющиеся наблюдения либо исключить из анализа и тем самым сделать совокупность однородной, либо разбить совокупность на однородные группы и вычислить средние значения по каждой группе и анализировать не общую среднюю, а групповые средние значения.
6.1. Средняя арифметическая и ее свойства
Средняя арифметическая вычисляется либо как простая, либо как взвешенная величина.
При расчете средней заработной платы по данным таблицы примера 6.1 мы сложили все значения признака и поделили на их количество. Ход наших вычислений запишем в виде формулы средней арифметической простой
Пример 6.2. Теперь сгруппируем наши данные из таблицы примера 6.1, т.д. построим дискретный вариационный ряд распределения работающих по уровню заработной платы. Результаты группировки представлены в таблице.
Заработная плата, руб. | Численность работников |
---|---|
5 950 | 6 |
6 790 | 8 |
7 000 | 6 |
Итого | 20 |
Запишем выражение для вычисления среднего уровня заработной платы в более компактной форме:
В примере 6.2 была применена формула средней арифметической взвешенной
Расчет средней арифметической взвешенной удобно проводить в таблице, как это показано ниже (табл. 6.3):
Исходные данные | Расчетный показатель | |
заработная плата, руб. | численность работающих, чел. | фонд заработной платы, руб. |
xi | fi | xifi |
5 950 | 6 | 35 760 |
6 790 | 8 | 54 320 |
7 000 | 6 | 42 000 |
Итого | 20 | 132 080 |
Следует отметить, что средняя арифметическая простая используется в тех случаях, когда данные не сгруппированы или сгруппированы, но все частоты равны между собой.
Пример 6.3. По результатам выборочного обследования одной из групп населения рассчитаем размер среднедушевого денежного дохода.
Среднедушевой денежный доход, руб. в месяц | Численность населения к итогу, % fi | Середины интервалов xi | xifi |
---|---|---|---|
До 1 000 | 4,1 | 500 | 2 050 |
1 000-2 000 | 8,6 | 1 500 | 12 900 |
2 000-4 000 | 12,9 | 3 000 | 38 700 |
4 000-6 000 | 13,0 | 5 000 | 65 000 |
6 000-8 000 | 10,5 | 7 000 | 73 500 |
8 000-10 000 | 27,8 | 9 000 | 250 200 |
10 000-20 000 | 12,7 | 15 000 | 190 500 |
20 000 и выше | 10,4 | 25 000 | 260 000 |
Итого | 100,0 | — | 892 850 |
Тогда среднедушевой размер месячного дохода составит
Средняя арифметическая величина обладает рядом математических свойств. Приведем основные из них:
где — момент первого порядка
Пример 6.4. Рассчитаем среднюю прибыль по группе банков способом моментов.