Правильное среднее

08.02.2011 05:10 26 15 225 просмотров
Я уже много раз говорил о том, что усреднение - опасная штука. Когда цифр много, то так и хочется упростить реальность и сказать: а в среднем все так и этак. Казалось бы, ну что уж тут сложного: это плюс то делим на сё - вот тебе и среднее. И в большинстве случаев именно здесь и начинаются грубые, но совсем незаметные ошибки.
Как же нужно правильно считать среднее?

Начнем с главного: среднее - это не просто число. Это число со смыслом. Причем со вполне конкретным физическим смыслом, который мы можем (и должны) ощущать в реальном мире. Нельзя оперировать только цифрами на бумаге или в компьютере, иначе можно получить бессмысленные и нереальные цифры.

Существует много видов средних, но в каждой ситуации только одно из них правильное. Только один вид среднего следует использовать в каждом конкретном случае, и ошибка может вам стоить очень дорого.


Среднее арифметическое
Самый простой и широко известный вид среднего значения: складываем все значения, делим на количество значений - и получаем среднее арифметическое.

Именно это среднее обычно используется для усреднения всего подряд... но используется обычно неправильно.

Дело в том, что в основе такого усреднения лежит закон больших чисел и допущение, что исходная величина распределена нормально. А это подразумевает, что возможные значения сконцентрированы вокруг некоторого наиболее частого значения, а отклонения и в большую, и в меньшую сторону относительно невелики и равновероятны.


Проблема в том, что в бизнесе нормальное распределение встречается довольно редко.

Длительность обслуживания, длина очередей, время ожидания, сумма контракта, размер перевода, остатки на счетах, доля рынка, процент прироста - все эти и многие другие бизнес-показатели распределены ненормально, и их, как правило, не стоит усреднять с помощью средего арифметического.
Нормальное распределение обычно встречается при большом числе значений - сотни и тысячи штук. Например, число обращений в крупный колл-центр может быть распределено нормально. Однако одного количества мало, и поэтому в каждом случае следует убедиться в нормальности распределения, чтобы без сомнений усреднять с помощью среднего арифметического.

В следующих записях я приведу интересные примеры неправильного усреднения, а сейчас перейдем к другим видам среднего.


Среднее гармоническое
Первые 100 км автомобиль проехал со скоростью 50 км/ч, а следующие 100 км - со скоростью 80 км/ч. С какой средней скоростью двигался автомобиль на всем пути?

Сначала, наверное, может показаться, что правильное значение 65 км/ч, потому что (50+80)/2 = 65.
Однако быстро становится понятно, что если бы другой автомобиль двигался со средней скоростью, то он провел бы в пути столько же времени, что и первый. Именно в этом смысл усреднения в данном случае.

И вот тут на помощь приходит среднее гармоническое:

Для нашей задачи искомое среднее равно 2/(1/50+1/80)=61.54 км/ч. И действительно в первом случае автомобиль затратил 2 часа на преодоление 100 км со скоростью 50 км/ч и еще 1.25 часа ему потребовалось на следующие 100 км, потому что скорость возросла до 80 км/ч. Таким образом, всего ушло 3.25 часа.
Если бы автомобиль все 200 км двигался со скоростью 61.54 км/ч, то у него также ушло бы на дорогу 3.25 часа.

Близость значений 65 и 61.54 не должна вас обманывать. Среднее гармоническое в данном случае не просто дает более точный результат. Это единственно правильный способ усреднения, потому что он соответствует физическому смыслу измеряемых явлений.
При других исходных данных разница между средним гармоническим и средним арифметическим могла бы быть больше. Но среднее арифметическое здесь не имеет никакого смысла. Для усреднения в подобных задачах допустимо использовать только среднее гармоническое.

Обычно задачи этого типа связаны со временем и производительностью: например, сотрудник А выполняет операцию за 10 минут, а сотрудник Б - за 25 минут; сколько в среднем им требуется времени на выполнение операции, если бы они работали вместе?
Правильный ответ: 14 мин 17 сек. А отличие от среднего арифметического (17 мин 30 сек) уже превышает 20%. Именно на столько вы бы ошиблись, если бы усредняли неправильно.


Среднее геометрическое
В 2009 году выручка выросла на 12% от уровня 2008 года, а в в 2010 - на 42% от уровня 2009. На сколько росла выручка в среднем за год?

Можно предположить, что есть несколько вариантов усреднения. Во-первых, среднее арифметическое: (12+42)/2 = 27%. Во-вторых, сложный процент: 1.12*1.42=1.5904, т.е. 59.04% за 2 года или 28.02% за год.

Но "в среднем" означает, что применив это значение к каждому году, мы получим тот же самый результат, что и при использовании множества исходных значений.

Проверяем. Среднее арифметическое: 1.27*1.27=1.6129 (на 61.29%). Сложный процент: 1.2802*1.2802=1.6389 (на 63.89%). Результаты мало того, что разные, так и оба неправильные, потому что выручка за 2 года выросла на 59.04%.

В данном случае есть только один осмысленный способ усреднения - это среднее геометрическое

Таким образом, для нашей задачи средний прирост за год составит 26.11% (проверка 1.2611*1.2611=1.5904)

Среднее геометрическое часто встречается в реальных бизнес-задачах вместе с процентами и долями. Если в вашей задаче что-то растет или падает и вы хотите усреднить динамику показателя, то вам следует применять среднее геометрическое.


Вместо заключения
Повторю главные моменты:
- среднее арифметическое далеко не всегда соответствует смыслу и физической сущности усредняемого показателя;
- существует много видов средних значений, но в каждом конкретном случае есть только один правильный вид среднего, и именно его следует использовать в расчетах.

Комментарии 26

Артем Родичев  (arodichev)
#
Хочется как-то прокомментировать, но так все стройно и наглядно, что просто скажу: спасибо за отличное обобщение полезного материала! smile:)
Полярная Сова  (Полярная Сова)
#
Роман, спасибо! Интересное исследование. Еще очень хотелось бы про среднее хронологическое Ваше мнение увидеть smile:) Может, на досуге изложите?
Роман Худорожков  (roman_h)
#
Да, хорошо. Спасибо за совет. Сделаю про это отдельную небольшую запись.
Роман Худорожков  (roman_h)
#
Среднее хронологическое
Если вам необходимо усреднить набор значений величины, которая изменяется во времени, (например, размер выручки или численность персонала), то вам может в этом помочь среднее хронологическое.

На самом деле, задача нахождения среднего может быть решена и в геометрических терминах. Фактически, говоря о среднем, мы говорим о равенстве площадей многоугольника, отражающего изменение исходной величины, и "усредняющего" прямоугольника.

Согласитесь, гляда на график нелегко понять равны площади фигур или нет. Причем здесь нужно не приближенное равенство "на глазок", а абсолютно точное соответствие.


Но к данной задаче можно подойти и с другой стороны. Можно разбить исходный многоугольник на совокупность трапеций:

Площадь трапеций рассчитывается по простой формуле:
- для первой трапеции: (X1+X2)/2
- для второй трапеции: (X2+X3)/2
и так далее

Складывая площади, получаем:

А упростив это выражение, приходим к формуле:

Это еще пока не среднее, а лишь площадь всего многоугольника. Но зато это точная площадь.

Теперь для усреднения раделим общую площадь на число трапеций - а их (n-1) штук.
И в итоге приходим к формуле среднего хронологического:
Роман Худорожков  (roman_h)
#
Низкая распространенность "среднего хронологического" объясняется тем, что
- для выборок маленького размера его, как и среднее арифметическое, употреблять не рекомендуется из-за больших отклонений от реальных величин;
- а для выборок большого размера оно практически неотличимо от среднего арифметического.
Роман Худорожков  (roman_h)
#
Еще один важный момент - приведенную выше формулу "среднего хронологического" следует применять только для величин, измеренных через равные интервалы времени.
Урри Кадыков  (Дистандер)
#
Цитаты их "Занимательной математики" Я.И.Перельмана ?
Марина (mashen)  (mashen)
#
Ну среднее значение, определяемое по среднеранжированному ряду.

Допустим, автомобилистов на самом деле пять.
Один едет на гоночной машине со скоростью 200 км. час
Второй на жигулях со скоростью 90 км в час

Трое - со скоростью 120 км. час

Среднее медианное будет 120 км. час как наиболее вероятное.

Вопрос был в том, почему медианное среднее не попало в число "правильных" средних.
Сергей Савельев  (kev)
#
спасибо, я знаю, эта фраза была ироничным ответом на Ваш предыдущий комментарий моей про немцев smile:)
Роман Худорожков  (roman_h)
#
Это значение, которое находится ровно в середине отсортированного ряда значений.

Допустим у нас есть ряд измерений какого-нибудь показателя: 4,8,5,4,6,7,8
Сортируем по возрастанию: 4,4,5,6,7,8,8.
В самом центре этой последовательности число 6 - это и есть медиана.
Важная особенность медианы - в исследуемой последовательности половина чисел всегда меньше медианы, а половина - всегда больше.
Роман Худорожков  (roman_h)
#
Про медиану, моду и квартили планирую в одном из следующих материалов написать.
сеятель эквиобусов  (сеятель эквиобусов)
#
Роман, у меня вопрос по поводу применения среднего гармонического в задачах на работу и производительность. Возьмём Ваш пример.
Цитата
сотрудник А выполняет операцию за 10 минут, а сотрудник Б - за 25 минут; сколько в среднем им требуется времени на выполнение операции, если бы они работали вместе?
Правильный ответ: 14 мин 17 сек.

Чтобы привязаться одновременно и к тематике сайта и теме Вашего блога, допустим что это будут два операциониста в офисе банка, у каждого из них своё "окно" и к каждому из них стоит своя очередь из клиентов для выполнения некой одной и той же стандартной операции. Тогда за 50 минут операционист А выполнит 5 операций. Операционист Б за те же 50 минут выполнит 2 операций. Всего за 50 минут обоими операционистами в сумме выполнено 7 операций, 7 довольных клиентов вышли из офиса банка. Т.е. в среднем на одну операцию (одного клиента) затрачено 50/7 = 7мин 8,5 сек. Это у двух операционистов, работающих одновременно. У одного операциониста за эти 50 минут на одну операцию затрачено в среднем в два раза больше времени, т.е. как Вы написали 14 мин 17сек.

Вопрос у меня такой: Вы могли бы привести пример, как можно использовать эти 14 мин 17сек в реальной ситуации, т.е. что нам даёт знание этой цифры? Физический смысл измеренной величины понятен: если бы мы искали на замену операционистам А и Б операционистов В и Г с абсолютно одинаковой производительностью, и суммарной отдачей точно такой же как у операционистов А и Б, то какова должна быть эта производительность - 1 операция за 14мин 17сек у каждого. Но вот практическое применение?
Роман Худорожков  (roman_h)
#
Спасибо за ценный комментарий и интересный вопрос.

14мин17сек в данном случае определяют темп работы "среднего исполнителя". И входящий поток заявок должен соответствовать этому темпу.

Если в системе 1 исполнитель, то заявки должны приходить "в среднем" через каждые 14мин17сек.
Если 2 исполнителя, то интенсивность входящего потока должна быть не более 7мин8сек (т.е. средний темп делить на 2).
Для 3 исполнителей - 4 мин 41 сек (14:17 делить на 3)
Для 4 исполнителей - 3 мин 34 сек (14:17 делить на 4)

Иными словами, с помощью усреднения вы переходите от сложных комбинированных вычислений (с большим числом сложений, умножений и делений) к односрочным выражениям в одну операцию (умножить или разделить).

И при этом вы можете сравнивать два очень важных для пропускной способности показателя, имеющих очень разную природу: интенсивность входящего потока клиентов и скорость обслуживания.
Если входящий поток для вас данность, на которую нельзя повлиять, то вы легко сможете рассчитать необходимую скорость работы.
Или наоборот, если ресурсы ограничены, то вы всегда сможете точно сказать, под какую интенсивность заявок вы способны подстроиться.
Роман Худорожков  (roman_h)
#
При этом важно понимать, что в реальном мире "средняя" скорость обслуживания должна быть выше "средней" интенсивности входящего потока, потому что иначе будут скапливаться значительные очереди.

Дело в том, что эти величины не только не постоянны, но и распределены ненормально, а это значит, что
- вероятность более частого, чем в среднем, прихода заявки, выше чем более редкого;
- вероятность более медленного обслуживания выше, чем более быстрого.

Так что даже если "средняя" интенсивность потока и скорость обслуживания совпадают, время от времени будут происходить "очень не средние" события (частый приход клиентов или задержка в обслуживании), которые будут создавать очереди... и они уже никуда не денутся, потому что вероятность обратного события (редкий приход клиентов или очень быстрое обслуживание) намного ниже.
сеятель эквиобусов  (сеятель эквиобусов)
#
Роман, спасибо за ответ. А почему мы можем быть уверены, что третий операционист, который подсядет на работу к предыдущим двум, будет тратить на операцию время, равное среднему гармоническому по первым двум. Ведь 14 мин 17сек мы посчитали для первых двух. И чтобы посчитать максимальную интенсивность входящего потока для трёх операционистов как 14мин17сек/3 мы должны быть уверены, что третий операционист не внесёт изменение в среднее гармоническое, посчитанное по первым двум. Учитывая, что разброс в производительности между А и Б очень большой (что кстати и даёт такое большое процентное различие между использованием среднего гармонического и арифметического) можно ожидать, что производительность третьего операциониста будет грубо говоря «любой». А если учитывать в рассчётах, что третий операционист придёт со своим временем на операцию, отличным от среднего гармонического по первым двум, то тогда для определения максимальной интенсивности потока заявок мы используем величину обратную суммарной производительности по всем трём операционистам, а расчёт среднего гармонического будет в данном случае лишним, т.к. оно получается путём умножения на тройку величины обратной суммарной производительности по трём операционистам, и потом её нужно будет на эту же тройку поделить.
Роман Худорожков  (roman_h)
#
Это зависит от постановки задачи. Естественно добавление операциониста может изменить среднее время обслуживания.
Я же говорил про случай, когда у нас есть некоторое фиксированное число (2, 3 или 4) операционистов со средним временем обслуживания 14мин17сек.
И зная, что у нас именно 2, 3 или 4 операциониста и среднее время 14:17 мы можем определить с какой интенсивностью должны поступать входящие заявки.

Дело в том, что во многих случаях производительность имеет смысл определять именно в терминах времени, а не числа заявок, выполненных в единицу времени. Заявка выполняется за 10 минут, а не за час выполняется 6 заявок. Потому что никогда не нужно 6 заявок, а нужна только одна заявка и интересно именно за сколько она выполнится. Тем более что 6 заявок в час - это не значит, что 1 заявка за 10 минут. Может быть просто раз в час обрабатывается 6 заявок. И это принципиально разные ситуации с точки зрения обслуживания.

Второй важный момент связан разницей в скорости разных сотрудников или устройств. Это как раз самая частая жизненная ситуация, для которой и нужны расчеты. Приведу пару примеров:
- клиентов обслуживают опытные сотрудники, которые работают быстро, но в пиковое время они не справляются с наплывом посетителей, и к ним присоединяются менее опытные сотрудники, которые работают заметно медленнее, но их участие позволяет сгладить пики и сократить очереди;
- клиенты обслуживаются с помощью суперскоростного устройства, но в пики и их не хватает; покупать второе устройство не выгодно, потому что оно будет простаивать, поэтому в пиковое время клиентов дополнительно обслуживают сотрудники, которые в 10 раз медленнее устройства, и это позволяет избежать столпотворения в пиковое время.
Михаил Козлов  (MidNightExpress)
#
а как на счет CAGR?

это формула выглядит гораздо проще и эффективнее для расчетов среднегодовых темпов прироста и т.д.
Михаил Козлов  (MidNightExpress)
#
Спасибо, не знал.

Просто в виде


формула выглядит проще и понятнее, на мой взгляд.
Роман Худорожков  (roman_h)
#
Все правильно. В этом и состоит смысл прикладной формулы - она должна оперировать простыми объектами реального мира.
Если есть данные, допустим, о выручке на начала и конец периода, то можно рассчитать среднее по формуле CAGR.
Однако если в наличии есть только прирост в % по отдельным месяцам, то CAGR уже не применим.
иван латиков  (чубака)
#
Представим, что есть трапеция АБВГ с основаниями БВ и АГ. Точка О- точка пересечения диагоналей. Тогда проведём линию
ДЕ, параллельную основаниям, через т.О. Тогда ДЕ будет равно среднему гармоническому оснований. Проведём среднюю линию- ЖЗ. ЖЗ равно среднему арифметическому оснований. Проведём линию ИК, такую что она параллельна основаниям и делит трапецию на 2 равновеликие фигуры. ИК будет равно среднему квадратическому оснований. Они распологаются согласно неравенству средних. Тогда, исходя из этого, получим, что есть линия ЛМ, параллельная основаниям, расположенная между линиями ДЕ и ЖЗ и равная среднему геометрическому оснований. Есть ли какие-то особенности её расположения, которые могут помочь её построить?
Комментарии и отзывы могут оставлять только зарегистрированные пользователи.
Авторизуйтесь или зарегистрируйтесь.

Популярные сообщения

Новости по итогам отчетности за февраль 2017 г.
Нарушители нормативов ЦБ в феврале (тех, кто находится на санации, тех, у кого уже отозвана лицензия и тех, где введена временная администрация, не обсуждаем
9
День Святого Патрика
Рубрика Карта к празднику Сегодня отмечается красивый ирландский праздник День Святого Патрика. В этот праздник люди желают друг другу, чтобы каждый
0
Кредитные карты Tinkoff All Airlines и S7 World. Сравним?
Тут на днях случилось! Вау! Более 2-х недель банк Тинькофф пытался вбрасывать разного рода «намеки» на скорый анонс очередного продукта который «порвет
3
ОФЗ для ИИС
Гуглил я тут в поисках ответов по некоторым непонятным вопросам в отношении ОФЗ для ИИС. Увы, но абсолютное большинство статей, лекций вебинаров и т.д.
0
Почему на карт-счете дебетовой карты может появиться отрицательный остаток, то есть долг перед банком?
Почему на карт-счете дебетовой карты может появиться отрицательный остаток, то есть долг перед банком? Обсуждение данного вопроса с завидной регулярностью
2

Новые сообщения

  • Кредитные карты Tinkoff All Airlines и S7 World. Сравним?
    Тут на днях случилось! Вау! Более 2-х недель банк Тинькофф пытался вбрасывать разного рода «намеки» на скорый анонс очередного продукта который «порвет
  • Рынок нефти 24 марта
    Цена на нефть Brent на утро - $50.72. В течение предыдущего дня ценовая динамика рынка нефти была относительно стабильной, с умеренной волатильностью.
  • Миллионы кредитных карт, или полный кэшбэк России
    Спрос на банковские продукты в России активизировался: только 1355468079_rmit.jpgза январь месяц россияне оформили более 700.000 новых кредитных и дебетовых
  • «Черный Лебедь» всё ближе
    На дворе уже заканчивается март, а половина «голубых фишек» или титанов российской экономики не отчиталась о проделанной работе за 2016 год. Некоторые
  • Рынок нефти 23 марта
    Цена на нефть Brent на утро - $50.99. В течение дня цены на нефть постепенно снижались и даже на короткое время опустились ниже $50. Однако после опубликования