Что такое медиана ряда чисел

Что такое медиана ряда чисел

Здравствуйте!
Помогите разобраться с вопросом как найти медиану ряда чисел. Что такое медиана ряда чисел вообще?
Спасибо!

Как найти медиану ряда чисел
Во-первых, нахождение медианы ряда чисел отличается для четных и нечетных количеств элементов в ряду. Это следует из определения медианы.
Медиана ряда чисел – это число, которое стоит строго посередине ряда нечётного количества чисел, упорядоченного от наименьшего к наибольшему.
Для четного количества чисел в ряду медианой является половина суммы двух чисел, которые стоят посередине ряда, упорядоченного по возрастанию.
Рассмотрим примеры.

Пример 1.
Найдем медиану следующего ряда:
123, 78, 11, 95, 34, 67, 101, 356, 44, 73, 47.

Решение.
Сначала нужно записать числа этого ряда по возрастанию:
11, 34, 44, 47, 67, 73, 78, 95, 101, 123, 356.
Количество чисел в этом ряду равно 11, то есть оно нечетное. Поэтому медианой будет число, которое стоит посередине этого ряда. Это число 73.

Ответ. Медиана равна 73.

Пример 2.
Найдем медиану ряда:
23, 76, 34, 115, 6, 58, 88, 39, 17, 25, 7, 54, 49, 52.

Решение.
Сначала запишем числа данного ряда по возрастанию:
6, 7, 17, 23, 25, 34, 39, 49, 52, 54, 58, 76, 88, 115.
Количество чисел в этом ряду равно 14, то есть оно четное. Поэтому медианой будет половина суммы двух чисел, которые стоят посередине этого ряда. То есть (39 + 49) : 2 = 44.

Ответ. Медиана равна 44.

Эти три термина являются основными показателями в статистическом анализе. Если 20 лет назад в нашей стране они интересовали только экономистов и работников статистики, то теперь почти каждый, кто имеет хоть какое-либо отношение к коммерции, следит за этими данными. Это работники банковского сектора, торговли, сервиса о больше всех брокеры.

В последние годы все чаще появляются такие заумные термины, как Бизнес-аналитика (Business Analytics или Business Intelligence), Система поддержки принятия решений (Decision Support System или DSS), Аналитическая обработка данных в реальном времени (Online Analytical Processing, OLAP), нейронные сети. Последние 2 года еще один “модный” термин добавился к их числу. Это Предсказательная аналитика (Predictive Analytics) .

Но в этой статье мы не будем подробно объяснять каждый из этих терминов. Их достаточно распиарили и без нас. Вместо этого остановимся на объяснении этих трех терминов: среднее значение, медиана и мода. Все три термина объясним с примерами.

Среднее значение

Часто так называют среднеарифметическое значение выборки (или множества чисел). Это, пожалуй, самый распространенный термин, из вышеперечисленных трех. Хотя бы потому, что почти каждый день мы слышим это слово в СМИ. Значение его тоже объясняет само название. Тем не менее, для тех, кому непонятен смысл этого слова, объясним “на пальцах”.

Это сумма данных чисел, деленное на количество. Если написать в виде формулы, это выглядит так.

Здесь $ar$ – среднее арифметическое значение. Если у Вас имеется $5$ чисел $<10, 12, 5, 20, 8>$, то их сумма будет $10+12+3+20+8=55$ . Так как количество равно $5$, то делим $55:5=11$. Это и есть среднеарифметическое значение.

Пример из практики

Допустим, у вас есть магазин, и вы торгуете чем то. В день, выручка составляет от $600$ до $1,200$ у.е. По итогам месяца вы наторговали на сумму $30,000$ у.е. Если условное количество дней в месяце $30$, значит, ваша средняя ежедневная выручка составляет $1,000$ у.е. ($30000:30 = 1000$).

Медиана

Медиана – число, характеризующее выборку, т.е. если взять все элементы множества, то это число ровно делит множество пополам. Одна половина множества равна или больше этого число, а другая меньше или равна этому числу.

Объясним это на примере. Допустим, дано следующее множество: $<2, 5, 10, 8, 7>$. Здесь число $7$ делит это множество пополам. $2$ и $5$ меньше, а $10$ и $8$ больше этого числа. Для удобства нахождения медианы сначала нужно отсортировать выборку в возрастающем или убывающем порядке $<2, 5, 7, 8, 10>$. Тогда элемент, стоящий ровно посередине, будет медианой. Как видите, это число $7$.

А как быть, если во множестве четное количество чисел? Например $<2, 5, 6, 8, 10, 15>$. Тогда берем среднеарифметическое значение двух чисел, которые стоят посередине. У нас эти числа $6$ и $8$. Значит $(6+8):2=14:2=7$. Среднее значение этих двух чисел, а значит медиана равна $7$.

Читайте также:  Как вставить файл в таблицу excel

Пример из практики

Допустим, в стране $1\%$ взрослого населения зарабатывает $1$ млн. у.е. в год (может быть больше, но для примера ограничимся этим числом), $10\%$ населения зарабатывает по $20,000$ у.е. в год. Остальные живут за чертой бедности, зарабатывая всего $100$ у.е. в год. Тогда, несмотря на большие заработки $11\%$ населения, медиана все равно будет равна $100$ у.е. Потому что подавляющее большинство получает всего $100$ у.е. в год. Теперь вычислим среднее значение.

$1\%$ получает $1,000,000$ у.е. = $1 cdot 1,000,000 = 1,000,000$ у.е.
$10\%$ получают $20,000$ у.е. = $10 cdot 20,000 = 200,000$ у.е.
$89\%$ получают $100$ у.е. = $89 cdot 100 = 8,900$ у.е.

Значит, среднее значение в год составляет

$(1,000,000 + 200,000 + 8,900) : 100 = 1,208,900 : 100 = 12,089$ у.е.

Зная соотношение неработающих людей, на каждого работающего, и поделив полученное на это число, получим доход на душу населения (с учетом детей, стариков и больных без пенсии).

Итак, такая статистика показывает, что народ живет припеваючи, зарабатывая примерно 1,000 у.е. в месяц, а действительность другая. Как раз, так и вычисляется доход на душу населения. Берется национальный доход и делится на численность населения. Теперь вы понимаете, почему в сводках всегда называют эту цифру, потому что она никоим образом не отображает благосостояние большинства, а только является показателем экономического благосостояния страны.

Название этого термина само говорит за себя. Это значение, которое больше всего встречается в выборке. Чего больше, то и “в моде”. Например, посмотрим множество $<5, 3, 1, 3, 7, 5, 3, 10>$. В этом множестве больше всего встречается число $3$. Это число является модой данного множества. Если выборка имеет несколько мод, т.е. несколько часто встречающихся элементов, число повторений которых равно, то эта выборка мультимодальна. Например, рассмотрим множество $<1, 3, 10, 3, 1, 2>$. Здесь числа $1$ и $3$ встречаются больше всех. В статистике мода применяется больше по отношению к нечисловым данным.

Пример из практики

Если постоять на проспекте и в течение 10 минут и посчитать все проезжающие автомобили и классифицировать их по цветам, то можно определить моду для цвета автомобилей этого города. Допустим, насчитали 95 белых, 45 черных, 12 красных, 38 серых и 70 других цветов. Значит, модой в этом городе являются автомобили белого цвета. Это хорошая информация для дистрибьюторов автомобилей.

Подробнее о среднем значении

Иногда вычисляют среднее значение для группы данных. Тогда значения разбивают на группы и вычисляют серединную точку каждой группы. Затем эти значения умножают на количество членов каждой группы (на частотность) и складывают. А результат делят на общее количество. Такое значение называют средним значением группы. Посмотрите на этот пример:

Группа Частота Середина
1-20 5 10.5
21-40 25 30.5
41-60 37 50.5
61-80 23 70.5

Здесь середина вычисляется таким образом: $(20+1):2 = 10.5, (40+21):2 = 30.5$, и т.д.

Умножаем эти значения на частоты и складываем, затем делим на общее количество:

Как уже показали на примере с доходом населения, экстремумы сильно влияют на среднеарифметическое значение, поэтому иногда полезно их отбрасывать. Тогда среднее значение называется урезанным средним.

Иногда среднее значение вычисляется для дихотомных данных (когда члены множества принимают два значения) используя $0-1$ кодировку. Например, если из $10$ людей $6$ мужчин и $4$ женщины, то обозначив мужчин числом $1$, а женщин числом $0$, можно найти процент мужчин, вычисляя среднее значение.

В симметричном распределении (типа нормального распределения) среднее значение, медиана и мода равны или близки друг другу. В асимметричном же, они отличаются, и число, на которое отличаются эти показатели, дают информацию о “скошенности” распределения относительно нормального.

Надеемся, что нам удалось “на пальцах” объяснить значение терминов среднеарифметическое значение, медиана и мода. Если кто-то из Ваших знакомых до сих пор в недоумении, просвещайте их, поделившись данной статьей в соц. сетях.

Читайте также:  Вирус эпштейн барра у детей последствия

Читайте также

Переменные потока и запасы

Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Показатели вариации

Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

Типы выборки

Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.

Скользящее среднее значение

Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка

Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Нулевая гипотеза

Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.

Типы данных в статистике

Такие выражения, как минимум, максимум, медиана и процентиль имеют значение лишь для порядковых данных. Порядковые данные делятся на метрические и неметрические.

Что такое тренд?

Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Ошибка репрезентативности

Стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Ошибка репрезентативности показывает, насколько результаты, полученные при выборочном наблюдении отличаются от результатов, полученных при исследовании генеральной совокупности.

Медиана в статистике

Медиана – середина упорядоченного ряда. Медиана делит этот ряд пополам таким образом, что в одной половине стоят все значения меньшие, а в другой все значения большие медианы.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.

Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.

Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).

Читайте также:  Принтер hp deskjet gt 5820

Формула медианы

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.

Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где xMe — нижняя граница медианного интервала;

iMe — ширина медианного интервала;

∑f/2 — количество всех значений, деленное на 2 (два);

S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

fMe — число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.

Ниже видеоролик о том, как рассчитать медиану в Excel.

Ссылка на основную публикацию
Что можно делать с айфоном
Не отвлекать оповещениями, когда вы смотрите кино или отдыхаете. Не беспокоить. Вы можете включить режим «Не беспокоить» одним касанием. И...
Хрипит динамик на телефоне при прослушивании
Одной из самых распространенных поломок мобильных аппаратов является выход из строя динамика. Любой пользователь мобильных телефонов знает, что сейчас производители...
Хэнкок из какой вселенной комиксов
Хэнкок Общая информацияЖанр Научная фантастика Драма Комедия Страна производстваСШАКиностудия Columbia Pictures РежиссёрПитер БергАвтор сценария Винс Джиллиган Винсент Нго Когда вышел2008...
Что можно сделать из перебойника от компьютера
Всем привет! В общем валялся у меня в гараже ненужный компьютерный безперебойник, сначала хотел его выбросит. но потом разобрав я...
Adblock detector