Сглаживание по пяти точкам

Дата добавления: 2013-12-23 ; просмотров: 4275 ; Нарушение авторских прав

При анализе статистических данных весьма распространенной является ситуация, когда накопленных данных или мало, или они не отличаются достаточной достоверностью (точностью). В этой связи оказываются полезными методы робастой статистики, в частности, — методы статистического сглаживания данных. Сглаживание данных является специальной операцией усреднения (обычно, с помощью интерполяционных полиномов). Такая операция обеспечивает получение уточненного значения y * _i по заданному значениюy_i и ряду близлежащих значений <…, y _i-1,y _i, y _i+1, …>, известных с заданной погрешностью.

Наиболее часто для статистического сглаживания данных используют:

· алгоритм линейного сглаживания по 3 точкам;

· алгоритм линейного сглаживания по 5 точкам;

· алгоритм нелинейного сглаживания по 7 точкам.

Алгоритм линейного сглаживания по 3 точкам.

Сглаживание выполняют с помощью многочленов. Например, формулыдляскользящего сглаживания по трем точкам имеют вид:

y * =(1 / 3)∙(y_-1 +y+y₊₁);

y * _-1= (1 / 6)∙(5∙y_-1+ 2∙y—y₊₁);

y * ₊₁= (1 / 6)∙(-y_-1+2∙y+5∙y₊₁),

где: y, y * — значения исходной и сглаженной функций в средней точке группы;

y_-1, y * _-1 — значения исходной и сглаженной функций в левой точке группы;

y₊₁, y * ₊₁ — значения исходной и сглаженной функций в правой точке группы.

Примечание. Первые две формулы применяются для сглаживания крайних точек ряда, а нижняя формула — для сглаживания промежуточных точек ряда.

Алгоритм линейного сглаживания по 5 точкам. Реализуется с использованием следующих формул:

y * _о= ( 3y_o + 2y₁ +y₂ —y₄ ) / 5;

y * ₁ = ( 4y_o + 3y₁ + 2y₂ +y₃ ) / 10;

y * _i = (y_{i — 2} +y_{i — 1} +y_i +y_{i + 1} +y_{i + 2} ) / 5,

2 Ј i Јn— 2;

y * _{n — 1} = (y_{n — 3} + 2y_{n — 2} + 3y_{n — 1} + 4y_n ) / 10;

y * _n = ( 3y_n + 2y_{n — 1} +y_{n — 2} —y_{n — 4} ) / 5.

Алгоритм нелинейного сглаживания по 7 точкам. Обеспечивает усреднение на основе применения полинома третьей степени и реализуется применением следующих формул:

y * _o = ( 39y_o + 8y₁ — 4 (y₂ +y₃ —y₄ ) +y₅ — 2y₆ ) / 42;

y * ₁ = ( 8y_o + 19y₁ + 16y₂ + 6 y₃ — 4y₄ — 7y₅ + 4y₆ ) / 42;

y * ₂ = (-4y_o + 16y₁ + 19y₂ + 12y₃ + 2y₄ — 4y₅ +y₆ ) / 42;

y * _i = ( 7y_i + 6 (y_{i + 1} +y_{i — 1} ) + 3 (y_{i + 2} +y_{i — 2} ) — 2 (y_{i + 3} +y_{i — 3} )) / 21,

3 ЈiЈn— 3;

y * _{n — 2} = (y_{n — 6} — 4y_{n — 5} + 2y_{n — 4} + 12y_{n — 3} + 19y_{n — 2} + 16y_{n — 1} — 4y_n ) / 42;

y * _{n — 1} = (4y_{n — 6} — 7y_{n — 5} — 4y_{n — 4} + 6y_{n — 3} + 16y_{n — 2} + 19y_{n — 1} + 8y_n) / 42;

y * _n = (-2y_{n — 6} + 4y_{n — 5} +y_{n — 4} — 4y_{n — 3} — 4y_{n — 2} + 8y_{n — 1} + 39y_n) / 42.

Овладеть практическими навыками применения простейших алгоритмов линейного и нелинейного сглаживания данных (функций, заданных табличным способом) и их численного дифференцирования, а также получение навыков проведения оценок полученных результатов относительно погрешностей и коэффициентов обусловленности.

Для заданного ряда экспериментальных измерений функции в равноотстоящих узлах . Требуется произвести сглаживание результатов измерений, представленных таблично (Таблица 1). Для этого необходимо использовать алгоритмы линейного и нелинейного сглаживания.

Выполнить численное дифференцирование для исходных и сглаженных данных, используя формулы численного дифференцирования, основанные на формуле Бесселя и на второй формуле Гаусса.

Для заданных формул численного дифференцирования вычислить коэффициенты обусловленности, сравнить полученные значения и сделать рекомендации по применению соответствующих методов.

Определить оптимальное значение шага численного дифференцирования для достижения заданного значения точности решения. Сравнить полученное значение оптимального шага с заданным шагом аргумента в табличном представлении функции и сделать соответствующие рекомендации по изменению процедуры проведении последующих измерений значений функции.

MEDSMOOTH и SUPSMOOTH

Проведем сглаживание данных с использованием встроенных функций MEDSMOOTH и SUPSMOOTH.

Присваиваем переменной ORIGIN значение, равное единице.

Из таблицы 1 введем исходные данные и разместим их в массивах (x), (y).

Рисунок 1 — Графическое сравнение функций medsmooth и supsmooth с исходной функцией

Линейное сглаживание данных по трем и пяти точкам

Используя алгоритм линейного сглаживания данных по трем точкам изобразим на одном графике исходные (у) и сглаженные данные.

Рисунок 2 — График данной функции и сглаженных данных (по трем точкам)

Проведем линейное сглаживание данных по пяти точкам и построим графики исходных и сглаженных данных.

Рисунок 3 — График данной функции и сглаженных данных (по пяти точкам)

Нелинейное сглаживание данных по семи точкам

Проведем нелинейное сглаживания по семи точкам и изобразим на одном графике исходные и сглаженные данные. сглаживание.

Рисунок 4 — График данной функции и сглаженных данных (по семи точкам)

Построим таблицы сглаженных данных, полученных разными методами.

Таблица 1 — Исходные данные и данные, полученные в результате сглаживания линейными и нелинейным методами

Фильтрация и сглаживание данных

Об усреднении данных и фильтрации

Можно использовать smooth функционируйте, чтобы сглаживать данные об ответе. Можно использовать дополнительные методы для скользящего среднего значения, фильтров Savitzky-Golay и локальной регрессии с и без весов и робастности ( lowess , loess , rlowess и rloess ).

Фильтрация скользящего среднего значения

Фильтр скользящего среднего значения сглаживает данные, заменяя каждую точку данных на среднее значение соседних точек данных, заданных в промежутке. Этот процесс эквивалентен фильтрации lowpass с ответом сглаживания, данного разностным уравнением

y s ( i ) = 1 2 N + 1 ( y ( i + N ) + y ( i + N − 1 ) + . + y ( i − N ) )

где _ys ( i) является сглаживавшим значением для i точка данных th, N является количеством соседних точек данных по обе стороны от _ys ( i), и 2N+1 промежуток.

Метод сглаживания скользящего среднего значения, используемый Curve Fitting Toolbox™, следует этим правилам:

Промежуток должен быть нечетным.

Точка данных, которая будет сглаживаться, должна находиться в центре промежутка.

Промежуток настроен для точек данных, которые не могут разместить конкретное количество соседей с обеих сторон.

Конечные точки не сглаживаются, потому что промежуток не может быть задан.

Обратите внимание на то, что можно использовать filter функционируйте, чтобы реализовать разностные уравнения такой как один показанный выше. Однако из-за способа, которым обработаны конечные точки, результат скользящего среднего значения тулбокса будет отличаться от результата, возвращенного filter . Обратитесь к Разностным уравнениям и Фильтрации (MATLAB) для получения дополнительной информации.

Например, предположите, что вы сглаживаете данные с помощью фильтра скользящего среднего значения с промежутком 5. Используя правила, описанные выше, первые четыре элемента y s дают

Обратите внимание на то, что y _s1 Y _s2 Y _{отправка} обратитесь к порядку данных после сортировки, и не обязательно первоначального заказа.

Сглаживавшие значения и промежутки для первых четырех точек данных сгенерированного набора данных показывают ниже.

Постройте (a) указывает, что точка First Data не сглаживается, потому что промежуток не может быть создан. Постройте (b) указывает, что вторая точка данных сглаживается с помощью промежутка три. Графики (c) и (d) укажите, что промежуток пять используется, чтобы вычислить сглаживавшее значение.

Фильтрация Savitzky-Golay

Фильтрация Savitzky-Golay может считаться обобщенным скользящим средним значением. Вы выводите коэффициенты фильтра путем выполнения невзвешенной подгонки линейного метода наименьших квадратов использование полинома данной степени. Поэтому фильтр Savitzky-Golay также называется цифровым фильтром полинома сглаживания или наименьшие квадраты, сглаживающие фильтр. Обратите внимание на то, что более высокий полином степени позволяет достигнуть высокого уровня сглаживания без затухания функций данных.

Savitzky-Golay фильтрация метода часто используется с данными о частоте или со спектроскопическими (пиковыми) данными. Для данных о частоте метод является эффективным при сохранении высокочастотных компонентов сигнала. Для спектроскопических данных метод является эффективным при сохранении более высоких моментов пика, таких как ширина линии. Для сравнения фильтр скользящего среднего значения имеет тенденцию отфильтровывать значительный фрагмент высокочастотного содержимого сигнала, и это может только сохранить более низкие моменты пика, такие как центроид. Однако фильтрация Savitzky-Golay может быть менее успешной, чем фильтр скользящего среднего значения при отклонении шума.

Savitzky-Golay сглаживание метода, используемого программным обеспечением Curve Fitting Toolbox, следует этим правилам:

Промежуток должен быть нечетным.

Полиномиальная степень должна быть меньше, чем промежуток.

Точки данных не требуются, чтобы иметь универсальный интервал.

Обычно, фильтрация Savitzky-Golay требует универсального интервала данных о предикторе. Однако алгоритм Curve Fitting Toolbox поддерживает неоднородный интервал. Поэтому вы не обязаны выполнять дополнительный шаг фильтрации, чтобы создать данные с универсальным интервалом.

График, показанный ниже отображений, сгенерировал Гауссовы данные и несколько попыток сглаживания использования метода Savitzky-Golay. Данные являются очень шумными, и пиковые ширины варьируются от широко, чтобы сузиться. Промежуток равен 5% количества точек данных.

Постройте (a) показывает зашумленные данные. Более легко сравнить сглаживавшие результаты, (b) графиков и (c) покажите данные без добавленного шума.

Постройте (b) показывает результат сглаживания с квадратичным полиномом. Заметьте, что метод выполняет плохо для узкого peaks. Постройте (c) показывает результат сглаживания с биквадратным полиномом. В общем случае более высокие полиномы степени могут более точно получить высоты и ширины узкого peaks, но могут сделать плохо при сглаживании более широкого peaks.

Локальное сглаживание регрессии

Lowess и Loess

Имена “lowess” и “лесс” выведены от термина, “локально взвесил сглаженный график рассеивания”, как оба использования методов локально взвешенная линейная регрессия, чтобы сглаживать данные.

Процесс сглаживания рассматривается локальным, потому что, как метод скользящего среднего значения, каждое сглаживавшее значение определяется путем граничения с точками данных, заданными в промежутке. Процесс взвешивается, потому что функция веса регрессии задана для точек данных, содержавших в промежутке. В дополнение к функции веса регрессии можно использовать устойчивую функцию веса, которая делает процесс стойким к выбросам. Наконец, методы дифференцируются моделью, используемой в регрессии: lowess использует линейный полином, в то время как лесс использует квадратичный полином.

Локальные методы сглаживания регрессии, используемые программным обеспечением Curve Fitting Toolbox, следуют этим правилам:

Промежуток может быть даже или нечетен.

Можно задать промежуток как процент общего количества точек данных в наборе данных. Например, промежуток 0,1 использования 10% точек данных.

Локальный метод регрессии

Локальный процесс сглаживания регрессии выполняет эти шаги для каждой точки данных:

Вычислите веса регрессии для каждой точки данных в промежутке. Веса даны функцией tricube, показанной ниже.

w i = ( 1 − | x − x i d ( x ) | 3 ) 3

x является значением предиктора, сопоставленным со значением ответа, которое будет сглаживаться, _xi самые близкие соседи x, как задано промежутком, и d ( x) является расстоянием вдоль абсциссы от x до самого удаленного значения предиктора в промежутке. Веса имеют эти характеристики:

Точка данных, которая будет сглаживаться, имеет самый большой вес и большую часть влияния на подгонку.

Точки данных вне промежутка имеют нулевой вес и никакое влияние на подгонку.

Выполняется взвешенная регрессия линейного метода наименьших квадратов. Для lowess регрессия использует первый полином степени. Для лесса регрессия использует второй полином степени.

Сглаживавшее значение дано взвешенной регрессией в значении предиктора интереса.

Если сглаженное вычисление включает то же количество соседних точек данных по обе стороны от сглаживавшей точки данных, функция веса симметрична. Однако, если количество соседних точек не симметрично о сглаживавшей точке данных, то функция веса не симметрична. Обратите внимание на то, что различающийся процесс сглаживания скользящего среднего значения, промежуток никогда не изменяется. Например, когда вы сглаживаете точку данных с наименьшим значением предиктора, форма функции веса является усеченной одной половиной, крайняя левая точка данных в промежутке имеет самый большой вес, и все соседние точки справа от сглаживавшего значения.

Функцию веса для конечной точки и для внутренней точки показывают ниже для промежутка 31 точки данных.

Используя lowess метод с промежутком пять, сглаживавшие значения и сопоставленные регрессии для первых четырех точек данных сгенерированного набора данных показывают ниже.

Заметьте, что промежуток не изменяется, в то время как процесс сглаживания прогрессирует от точки данных до точки данных. Однако в зависимости от количества самых близких соседей, вес регрессии функциональная сила не быть симметричным о точке данных, которая будет сглаживаться. В частности, строит (a) и (b) используйте асимметричную функцию веса, в то время как графики (c) и (d) используйте симметричную функцию веса.

Для метода лесса графики выглядели бы одинаково кроме сглаживавшего значения, будет сгенерирован полиномом второй степени.

Устойчивая локальная регрессия

Если ваши данные содержат выбросы, сглаживавшие значения могут стать искаженными и не отразить поведение объема соседних точек данных. Чтобы преодолеть эту проблему, можно сглаживать данные с помощью устойчивой процедуры, которая не является под влиянием небольшой части выбросов. Для описания выбросов обратитесь к Остаточному Анализу.

Программное обеспечение Curve Fitting Toolbox обеспечивает устойчивую версию и для lowess и для методов сглаживания лесса. Эти устойчивые методы включают дополнительное вычисление устойчивых весов, которое является стойким к выбросам. Устойчивая процедура сглаживания выполняет эти шаги:

Вычислите остаточные значения из процедуры сглаживания, описанной в предыдущем разделе.

Вычислите устойчивые веса для каждой точки данных в промежутке. Веса даны функцией bisquare,

где _ri является невязкой i th точка данных, произведенная процедурой сглаживания регрессии, и MAD является средним абсолютным отклонением остаточных значений,

M A D = медиана ( | r | ) .

Среднее абсолютное отклонение является мерой того, насколько распространенный остаточные значения. Если _ri мал по сравнению с 6 MAD, то устойчивый вес близко к 1. Если _ri больше, чем 6 MAD, устойчивый вес 0, и связанная точка данных исключена из сглаженного вычисления.

Сглаживайте данные снова с помощью устойчивых весов. Сглаживавшее значение финала вычисляется с помощью и локального веса регрессии и устойчивого веса.

Повторите предыдущие два шага для в общей сложности пяти итераций.

Результаты сглаживания lowess процедуры сравнены ниже с результатами устойчивой lowess процедуры для сгенерированного набора данных, который содержит один выброс. Промежуток для обеих процедур является 11 точками данных.

Постройте (a) показывает, что выброс влияет на сглаживавшее значение для нескольких самых близких соседей. Постройте (b) предполагает, что невязка выброса больше, чем шесть средних абсолютных отклонений. Поэтому устойчивый вес является нулем для этой точки данных. Постройте (c) показывает, что сглаживавшие значения, граничащие с выбросом, отражают объем данных.

Пример: сглаживание данных

Загрузите данные в count.dat :

24 3 массив count содержит количества трафика на трех пересечениях в течение каждого часа дня.

Во-первых, используйте фильтр скользящего среднего значения с 5-часовым промежутком, чтобы сглаживать все данные целиком (линейным индексом):

Отобразите на графике исходные данные и сглаживавшие данные:

Во-вторых, используйте тот же фильтр, чтобы сглаживать каждый столбец данных отдельно:

Снова, отобразите на графике исходные данные и сглаживавшие данные:

Постройте различие между двумя сглаживавшими наборами данных:

Отметьте дополнительные эффекты конца в сглаженном с 3 столбцами.

Пример: сглаживание данных Используя лесс и устойчивый лесс

Создайте зашумленные данные с выбросами:

Сглаживайте данные с помощью loess и rloess методы с промежутком 10%:

Отобразите на графике исходные данные и сглаживавшие данные.

Обратите внимание на то, что выбросы имеют меньше влияния на устойчивый метод.