Есть любопытная задачка анализа данных. Есть такие вот полученные данные измерения скорости.

Тут примерно 5000 точек, но в будущем возможно будет на несколько порядков больше. Каждая точка примерно раз в минуту.
Как хорошо видно, скорость пляшет будь здоров (и да, вот у вас тоже так выглядит). Но есть некое среднее значение, которое можно принять за базу. А так же есть максимальное и минимальное значение (разброс). И результирующий график я вижу как-то так.

Вот подскажите мне, каким лучшим образом получить второй график и оценить разброс (дисперсию). Из примитивных способов - это взять скользящее среднее, допустим по десять значений (почему по десять?) и получить сглаженный график и там же вычислить дисперсию по этим десяти точкам.
Но что-то мне подсказывает, что это не очень красиво и не очень правильно. Буду рад услышать любые идеи.
Приглашаю к обсуждению
eddy_em

Тут примерно 5000 точек, но в будущем возможно будет на несколько порядков больше. Каждая точка примерно раз в минуту.
Как хорошо видно, скорость пляшет будь здоров (и да, вот у вас тоже так выглядит). Но есть некое среднее значение, которое можно принять за базу. А так же есть максимальное и минимальное значение (разброс). И результирующий график я вижу как-то так.

Вот подскажите мне, каким лучшим образом получить второй график и оценить разброс (дисперсию). Из примитивных способов - это взять скользящее среднее, допустим по десять значений (почему по десять?) и получить сглаженный график и там же вычислить дисперсию по этим десяти точкам.
Но что-то мне подсказывает, что это не очень красиво и не очень правильно. Буду рад услышать любые идеи.
Приглашаю к обсуждению
no subject
Date: 2020-04-26 03:26 pm (UTC)Следующий вариант - подобрать КИХ-фильтр какой-нибудь. Но все равно, у тебя есть какие-то совсем ненормальные выбросы, даже плавающая медиана по 9 точкам их бы подчистила. А дальше — уже любой аналитический фильтр.
no subject
Date: 2020-04-26 03:33 pm (UTC)no subject
Date: 2020-04-26 03:34 pm (UTC)А какая точность измерения скорости?
Тьфу, не посмотрел сразу, что это скорость upload/donload…
no subject
Date: 2020-04-26 04:00 pm (UTC)Со скользящей медианой надо аккуратнее: она хороша когда нужно срезать/отбрасывать короткие выбросы (получить "наиболее типичное" значение), но если эти выбросы составляют существенную часть данных, может получиться фигня (ведь эти "выбросы" дают реальный вклад в среднюю скорость, просто срезать их нельзя). Ну и в силу особенностей медианы усредненный график может получиться "со ступеньками", это визуально неприятно.
Ширину окна выбирать субъективно, по желаемой гладкости графика. Тут явно можно довольно большое окно замутить, как бы не в несколько десятков точек если не больше. Окно обычно берут нечётного размера - тогда центральная точка окна ляжет на реальную точку на оси времени, но это более эстетика чем наука :-)
no subject
Date: 2020-04-26 07:37 pm (UTC)Если чтоб оценить эффективность канала в целом то проще замерять не мгновенную скорость а отправить большой обьем замерить время и поделить. Вот и усредненная скорость. И усреднять уже эту скорость.
А на графике этом мы видим мне кажется не эффективность канала а график загруженности линии в зависимости от времени. Все имхо.
no subject
Date: 2020-04-27 07:46 am (UTC)Смысл в лучшей визуальной оценке сигнала.
>>Если чтоб оценить эффективность канала в целом то проще замерять не мгновенную скорость а отправить большой обьем замерить время и поделить. Вот и усредненная скорость. И усреднять уже эту скорость.
На графике каждая точка снята таким образом. Это не помогает.
>>А на графике этом мы видим мне кажется не эффективность канала а график загруженности линии в зависимости от времени. Все имхо.
В данном случае нас не интересует линии или канала, мы как конечный потребитель иммеет такой график скорости.
no subject
Date: 2020-04-26 08:21 pm (UTC)Что я виду на графике - это наличие как высоко-, так и низкочастотных составляющих. Тебе нужна низкочастотная, чтобы ее вычесть из сигнала и оставить высокочастотную, по которой считать сигмы.
Я бы, наверное, прогнал данные через FFT, посмотрел граничные частоты "шума" и наложил ФНЧ какого-нибудь Баттерворта, он, помнится, считается проще других. А уж посчитать по нормализованным данным СКО - дело одной формулы...
ПыСы: Кстати, отклонение отличаться почти не будет в очень большом диапазоне фильтров, от умеренного скользящего среднего до более умных фильтров более высоких порядков. Только если начнешь давить и низкочастотные колебания - тогда уползет.
no subject
Date: 2020-04-27 07:48 am (UTC)no subject
Date: 2020-04-27 07:59 am (UTC)no subject
Date: 2020-04-27 06:52 am (UTC)no subject
Date: 2020-04-27 07:45 am (UTC)no subject
Date: 2020-04-27 08:58 am (UTC)Уже второй час я пытаюсь осознать как же всё-таи мы их рисуем.