Иллюстративные примеры применения одномерной "Гусеницы"
Н.Э.Голяндина
Введение
Целью раздела является демонстрация работы метода "Гусеница" на реальных данных и на модельных примерах. В первом параграфе описываются все основные
этапы метода на реальном примере. Используется вариант метода с центрированием.
Во втором параграфе более коротко, чем в предыдущем случае, описываются
результаты работы метода для двух рядов по отдельности, которые в примерах
раздела III.2 анализируются как двумерный
ряд. Используется вариант метода без центрирования.
В третьем параграфе различные аспекты работы метода "Гусеница" анализируются
на модельных примерах. Там же содержатся некоторые рекомендации и предостережения.
Заметим, что набор содержательных примеров может быть расширен неограничено,
но размеры книги не позволяют сделать это. Мы надеемся, что читатель с
помощью прилагаемой к книге программы "Гусеница" сам сможет приобрести
дальнейший опыт по применению метода "Гусеница". Например, читатель сможет
сам убедиться в том, что результаты метода, с одной стороны, устойчивы
как к выбору длины гусеницы, так и к выбору варианта метода. С другой стороны,
этот выбор может помочь добиться лучшего разделения компонент ряда.
Иллюстрации к этой html-версии статьи подготовлены с помощью новой 32-разрядной
программы "Гусеница" (CaterpillarSSA). Отметим, что в силу большого количества иллюстраций их нумерация будет в каждом параграфе начинаться с единицы.
Подробное описание примера AIRLINES
Рассмотрим временной ряд, содержащий месячные данные по числу пассажиров
международных авиалиний (в тысячах), 144 временные точки. Этот временной
ряд рассматривается, например, в книгах O.D.Anderson, Time Series Analysis
and Forecasting: the Box-Jenkins Approach, 1976, Butterworth и G.E.P.Box
and G.M.Jenkins, The Time Series Analysis: Forecasting and Control, 1976,
Holden-Day. На прилагаемой дискете временной ряд содержится в файле
AIRLINES.DAT и имеет название PASS.
Данный ряд для демонстрации работы метода "Гусеница" был выбран в силу
того, что он используется для анализа во многих работах, но стандартные
методы требуют его логарифмирования. Здесь же мы выделим тренд, сезонные
компоненты и их составляющие без каких-либо преобразований ряда. В разделе
IV для сравнения со стандартными методами
проводится анализ прологарифмированного ряда.
Так как в ряде присутствует очевидная годичная периодичность, то длина
гусеницы была взята кратной двенадцати (M=36).
На рис.1 приведен график исходного ряда. Первым
шагом реализации алгоритма "Гусеница" является построение по ряду матрицы
наблюдений. Корреляционная матрица матрицы наблюдений изображена на
рис.4. Для ее изображения предлагается визуальный способ, в котором большие значения обозначаются более темным цветом. Рис.2
содержит средние значения и стандарты для матрицы наблюдений, соответствующей
ряду. Можно увидеть возрастание как средних, так и дисперсий. На рис.3
изображен ряд осредненных ковариаций, который строится как усреднение ковариационной матрицы вдоль диагонали.
Графики, изображенные на рис.2 и
рис.3, представляют информацию на уровне первых двух моментов. Среднее и стандарт соответствуют среднему и стандарту для самого ряда, полученных методом скользящего среднего с параметром, равным N–M+1. С помощью ряда осредненных ковариаций можно увидеть основную периодичность.
Следующим шагом метода "Гусеница" является анализ главных компонент.
В качестве первого результата АГК на рис.5 и
рис.6 представлены различные характеристики собственных
чисел ковариационной матрицы. Для большей контрастности графика на
рис.6 приведены логарифмы и корни из собственных чисел. По этим рисункам можно предположить, сколькими главными компонентами описывается ряд, используя
применяемые обычно критерии АГК. Например, рис.6
может говорить о том, что после приблизительно 15–17 главной компоненты
находится шум (равномерное убывание очень маленьких собственных чисел).
Метод "Гусеница" предполагает так же другие критерии. Так как одной синусоидальной
составляющей соответствует в идеальной ситуации две главных компоненты
с одинаковым периодом ("синус" и "косинус"), соответствующие одному собственному
числу, то в реальной ситуации эти две главные компоненты соответствуют
близким собственным числам. Поэтому на графике можно увидеть "ступеньку".
Такие ступеньки могут быть и для маленьких собственных чисел. На рис.6 наиболее заметны "ступеньки", соответствующие ГК 2–3 и 4–5.
На рис.7 и
рис.8 представлены
одномерные графики собственных векторов и главных компонент. Посмотрев
на эти графики, можно увидеть, что первая компонента является составляющей
тренда. Пары ГК 6 и 9 и ГК 14 и 15 могут относиться как к тренду, так и
к низкочастотной составляющей (что формально неразличимо). Здесь мы отнесем
их к тренду. Наиболее очевидно наличие годичной (ГК 2–3) и полугодичной
(ГК 4–5) периодик. Также можно заметить четырех-месячную и трех-месячную
периодичности (ГК 7–8 и ГК 10–11). Часть четырех-месячной составляющей
попала в медленно-меняющуюся компоненту (ГК 6 и 9). Необходимо обратить
внимание на то, что наличие периодик с кратными периодами означает, что
в данном случае мы нашли годичную периодику и ее разложение по синусоидальным
составляющим. Т.о., очевидно, что годичная периодика разлагается
на синусы с периодами 12, 6=12/2, 4=12/3, 3=12/4. Следует также
поискать главные компоненты, соответствующие периоду 2.4=12/5 (их должно
быть две) и 2=12/6 (одна главная компонента, так как синус с периодом 2
порождает подпространство размерности 1). Действительно, ГК 12 и
13 соответствуют периоду 2.4, а главная компонента с периодом 2 в
данном случае отсутствует.
Следует также отметить, что обнаружение высокочастотных составляющих
может быть результатом дискретизации данных (месячной агрегации) или причиной
может быть шум. Поэтому, если для низкочастотных составляющих обычно решается
вопрос о том, что это, тренд или периодика, то для высокочастотных составляющих
должен ставиться вопрос об их случайности. Например, о случайности может
говорить биение амплитуды периодики (см. рис.8,
ГК 16–17). В то же время, увеличение амплитуды ГК 2–3, 4–5, 7–8, 10–11,
12–13 говорит только о нестационарности амплитуды периодики самого ряда.
Для облегчения разбиения главных компонент по парам служат двухмерные
графики собственных векторов и главных компонент (
рис.9 и рис.10).
Так как двумерное изображение синуса и косинуса образует единичную окружность,
то гармоническая составляющая с целым периодом изображается в виде правильного
многоугольника с числом вершин, равным величине периода. При изменении
амплитуды многоугольник превращается в спираль (сравните
рис.9 и рис.10).
Звездообразный график (рис.10, ГК 12–13) свидетельствует о наличие периодики с дробным периодом 2.4. Заметим, что в поиске составляющей с периодом 2 двумерные графики помочь не могут.
Воспользовавшись приведенным выше анализом графиков собственных векторов
и главных компонент, проведем восстановление ряда по выбранным составляющим
(рис.11–17). Рис.11 содержит восстановление
исходного ряда по гусеничному среднему и по ГК 1 (грубый тренд). На
рис.13 в тренд включена медленно меняющаяся составляющая.
Рис.14 содержит годовую цикличность без учета тренда. Заметим,
что для рассматриваемого ряда удалось проинтерпретировать (в ряде случаев
условно) все 17 первых ГК. Рис.16 содержит восстановление
по среднему и первым семнадцати ГК. Не удивительно, что исходный и восстановленный
ряд практически совпадают, так как вклад среднего и первых семнадцати главных
компонент составляет 99.98%. На рис.17 изображен
ряд остатков (т.е. разность между исходным и восстановленным рядами).
В заключении отметим, что ковариационная функция (осредненные ковариации),
построенная по соответствующей ряду матрице наблюдений, обладает периодическими
составляющими, аналогичными периодическим составляющим самого ряда. Это
демонстрирует рис.18, на котором изображены в
режиме "нечетные с четными" пары ГК, соответствующие годичной, полугодовой,
4-месячной и 3-месячной составляющим ковариационной функции.
Боевые потери войск союзников в войне во Вьетнаме
Рассмотрим два временных ряда, содержащие ежемесячные данные по боевым
потерям во Вьетнаме, 1966–1971 года, 72 временные точки, с американской
и с южно-вьетнамской стороны. Эти временные ряды описаны в M.F.Janowitz,
B.Schweizer Ordinal and Percentile Clusterimg, Mathematical Social Sciences
18 (1989) 135–186, Table 10, p.177 (со ссылкой на J.A.Hartigan, Clustering
Algorithms , Wiley, N-Y, 1975, p.138). На прилагаемой дискете временные
ряды содержатся в файле WAR_VIET.DAT
и имеют названия соответственно US и SV.
На рис.1 и рис.2
изображены оба ряда. Более подробно рассмотрим ряд потерь с американской
стороны. Возьмем длину гусеницы, равную 12 (годовая периодичность). Воспользуемся
вариантом метода "Гусеница" без центрирования матрицы наблюдений, соответствующей
ряду. Для рассматриваемых рядов этот вариант метода дает лучшую разделимость
тренда и периодики, чем вариант с центрированием. Заметим, что в предыдущем
примере AIRLINES оба варианта дают полностью аналогичные результаты.
На рис.3 и рис.4
представлены графики собственных векторов и главных компонент для первых
пяти ГК. Если бы мы взяли длину гусеницы равной половине ряда, то для рассматриваемого
варианта графики бы практически совпали (с точностью до масштаба), так
как собственные вектора для длины гусеницы M совпадают с нормированными
главными компонентами при длине гусеницы N–M+1, где N – длина ряда. В данном
же случае собственные вектора короче и имеют более регулярный вид, в то
время как все изменения амплитуды попадают в главные компоненты.
Аналогичный эффект наблюдался и в предыдущем примере.
На рис.5 и рис.10
для обоих рядов потерь представлены результаты восстановления по первой
главной компоненте, которую естественно отнести к тренду. Заметим, что
в варианте "Гусеницы" без центрирования средне-гусеничное отсутствует,
поэтому тренд нужно искать среди главных компонент.
На рис.6 и рис.11
представлены результаты восстановления по ГК 2–3, которые соответствуют
годичной периодике, выраженной наиболее ярко. Можно заметить, что для потерь
американских и южно-вьетнамский войск фазы этой периодики совпадают. В
то же время амплитуды ведут себя по-разному. Видно увеличение амплитуды
в районе 20–30 точек (1968 год) для обеих стран, но наблюдается также увеличение
амплитуды потерь южно-вьетнамских войск в 1971 г.
На рис.7 и рис.12
приведены результаты восстановления с учетом тренда и годовой периодики (ГК 1–3).
Рис.8 и рис.9 содержат также результаты восстановления для ряда потерь американских войск с учетом замеченной там трех-месячной периодичности (ГК 4–5). Видно, что первые 5 компонент описывают ряд "US" довольно хорошо.
Модельные примеры
В этом параграфе с помощью модельных примеров продемонстрируем следующие
эффекты:
- Разделение тренда и периодики
- Разделение синусоид
- Выделение тренда
- Роль длины ряда
- Роль длины гусеницы
- Влияние шума
- Случайность высокочастотных составляющих
Все рассматриваемые примеры находятся на прилагаемой дискете в файле MODEL.DAT.
Линейный тренд и синусоида.
Рассмотрим три ряда, длиной 100 точек, состоящих из линейного тренда и
периодик: ряд "v1" – синус с периодом 2.5, ряд "v2" – с периодом 5.3 и
ряд "v3" – с периодом 10.
Продемонстрируем отделимость тренда от периодики и то, как периодики
с различными, дробными и целыми, периодами выглядят при изображении соответствующих
главных компонент.
На рис.1 изображен ряд "v1", первая
компонента которого дает вместе с гусеничным средним линейный тренд, две
другие представляют собой синус с периодом 2.5. Если изобразить ГК 2–3
на двумерном графике, то мы получим изображение звезды (рис.3).
Рис.4 и рис.5
содержат аналогичные графики для рядов "v2" и "v3".
Рассмотрим подробнее ряд "v3" и на его примере покажем важность учета
масштаба при изображении собственных векторов и главных компонент. Глядя
на рис.6, может показаться, что первый собственный
вектор также, как второй и третий, имеет период 10. Но после изображения
в одном масштабе (рис.7) видно, что очень незначительная
(невидимая) часть периодики вошла в тренд. Также по рис.8 может показаться (ГК 4,5,...), что в ряде есть еще и шум. Рис.9, где все графики в одинаковом масштабе, говорит о том, что на самом деле эти компоненты практически нулевые и их ненулевые очень маленькие значения вызваны только погрешностью вычислений. Напомним, что главные
компоненты нормированы на соответствующее собственное число, в то время
как собственные вектора нормированы на единицу. На рис.8 можно увидеть также, что часть тренда вошла в ГК 3. Это является следствием небольшой длины ряда и выражается в небольшом смещении правильных 10-угольников на рис.5. Для ряда "v1" такого
эффекта не было (рис.3), так как понятие большой
или маленькой длины ряда относительно и выражается в числе периодов гармонической
составляющей, которую мы хотим из ряда выделить, например, длине ряда "1",
равной 100, соответствует ряд "2" длины 400.
Рис.10, рис.11
и рис.12 содержат двумерное изображение двух
ГК, соответствующих периодике 10 и полученных с помощью трех вариантов
метода "Гусеница": без центрирования, с центрированием и с двойным центрированием.
Двойное центрирование описано в разделе V.1
и там показано, что при наличие линейного тренда он полностью восстанавливается
по гусеничному среднему при любой длине ряда, поэтому мы и имеем идеальную
картину (рис.12).
Разделение двух синусов.
При разделении суммы двух синусов с одинаковой амплитудой обычно
возникают трудности. Даже при большой длине ряда и большой длине гусеницы
они не разделяются.
Мы рассмотрим в качестве примера ряд длины 1000, равный сумме синуса
с периодом 17 и половины синуса с периодом 10 (ряд "v4"). Первые 100 точек
ряда приведены на рис.13. Синусоиды хорошо отделяются
друг от друга. На рис.14 приведен результат
восстановления ряда по ГК 1–2 (синус с периодом 17). Ясно видно, что остатки,
изображенные на рис.15, имеют период 10.
Разделение двух синусов при наличие шума.
Усложним задачу, добавив к ряду нормальный шум с дисперсией 0.25 (ряд "v5").
Первый 100 точек ряда приведены на рис.16.
Рис.17 показывает, что обе периодики опять хорошо выделились
(ГК 1–2 и ГК 3–4). В то же время есть подозрение на периодичность ГК 5–6. Так как
мы знаем, что кроме двух синусоид в ряде есть только шум, то можно предположить,
что эта периодичность случайна. Характерный вид главных компонент, соответствующих
случайной периодике, изображен на рис.18
(ГК 5 и 6). На рис.20 изображен ряд, восстановленный
по ГК 5–6 (сравните с рис.19, на котором представлен
результат восстановления по ГК 3–4). Особенностью случайных периодик является
синусоидальное изменение амплитуды (биение) и сбои в периоде.
"Регулярность" шума в коротких рядах.
Для демонстрации того, что еще можно найти в шуме, особенно в коротких
рядах, рассмотрим ряд длины 60, состоящий только из шума с распределением
Лапласа (ряд "v6").
Этот пример показывает, что восстановление по среднему может дать медленно
растущий тренд (рис.22), а восстановление по
медленно меняющимся ГК 1 и 4 дает периодику (рис.21 и
рис.23). Заметим, что одним из признаков
случайной периодики может быть значительное различие собственных чисел
(в данном случае, 10.8% для ГК 1 и 7.5% для ГК 4).
Для сравнения на рис.24–26 приведены графики собственных чисел для
ряда, состоящего из двух гармонических составляющих (рис.24), для ряда, в котором к двум гармоническим составляющим добавлен
шум (рис.25) и для ряда, состоящего только из
шума (рис.26). Бросается в глаза сильное отличие
в поведении собственных чисел. Рис.26 показывает
поведение собственных чисел, при котором нужно быть очень осторожными с интерпретацией найденных составляющих ряда.
|