Tuesday 26 December 2017

Moving average pacf no Brasil


Zeitreihenanalyse bewertet vergangene Daten und extrapoliert in die Zukunft. Das Hufigste Modell dafr ist das ARIMA Modell, modificação modificada integrada automática de progresso. Módulo Médico Motivo Integrado AutoRegressivo. Dieses Modell dient zur Beschreibung von Datenreihen in der Zeitreihenanalyse und ist so allgemein, dass es mehrere unter anderem Namen bekannte Methoden als Spezialflle enthlt. Das hier vorgestellte Modell ist additiv, das heisst, die einzelnen Komponenten addieren sich zum Gesamtergebnis. Im Gegensatz dazu steht das Multiplikative Modell. Aufgrund der Komplexitt dieses Modells und der zahlreichen Varianten und Erweiterungsmglichkeiten kann hier nur das Grundgerst auf anschaulicher Ebene wiedergegeben werden. Fr konkrete Berechnungen rt der Verfasser unbedingt zu einschlgiger Literatur und Software. Die hier dargestellten Rechenwege sind derart, dass sie im Kopf nachvollzogen werden knnen sie fhren aber mit grosser Wahrscheinlichkeit nicht zu den optim erzielbaren ARIMA Modellen. Ziel der aus den 3 Parametern p, d, q bestehenden Methode ARIMA (p, d, q) ist es: Die vorliegende Messreihe vollstndig zu beschreiben Dies ist nach dem Theorem von Wold fr alle stationren Zeitreihen mglich. Zuknftige Werte der Zeitreihe vorherzusagen. Dies funktioniert deshalb, weil der jeweils aktuelle Wert mittels Kombination von Einflssen vorangehender Werte beschrieben wird. Es handelt sich hier um eine mathematische Zerlegungsmethode. Vom Grundgerst its ist das vergleichbar beispielsweise mit Taylorreihen (Darstellung einer beliebigen Funktion mit einem Polynom) Fourierreihen (Darstellung einer beliebigen Funktion mit Sinus oder Cosinusfunktionen) p: siehe Schritt 2, d: siehe Schritt 1, q: siehe Schritt 3ARIMA arbeitet mit 2 Komponenten Einer gewichteten Summe aus zurckliegenden Messwerten (AR, AutoRegressive, Schritt2) einer gewichteten Summe aus zurckliegenden Zufallseinfluessen (MA, Moving Average, Schritt 3). Diese beiden Komponenten ergeben strenggenommen nur ein ARMA Modell (ohne I, Schritt 1). Der Buchstabe I (Integrado) symbolisiert die Sicherstellung der Nahezu alle statistischen Verfahren verlangen stationre, também sich nicht ndernde Randedingungen. Im Falle von Zeitreihen bedeutet Stationaritt, dass die zugrundegelegte Verteilungsfunktion der Messwerte zeitlich konstant ist. Die Nicht-Erfllung dieser Voraussetzung sei anhand folgender Beispiele veranschaulicht: Hier nimmt offensichtlich der Mittelwert mit der Zeit zu Zeitreihen mit (nicht nur linearem) Trend knnen mit dem ARIMA Modell unter Umstnden erfolgreich beschrieben werden. Hier nimmt offensichtlich die Varianz mit der Zeit zu Zeitreihen mit vernderlicher Varianz und vernderlicher hherer Momente knnen mit der ARIMA Methode nicht beschrieben werden. Eine stationre Zeitreihe besteht também aus Werten, die entsprechend der zugrundegelegten Verteilungsfunktion um einen zeitlich konstanten Mittelwert streuen. Interessant ist hier, dass die einzelnen Werte - obwohl aus einer konstant bleibenden Verteilungsfunktion stammend - nicht voneinander unabhngig zu sein brauchen. Em solchen Fllen macht die Vorhersage zuknftiger Werte sogar erst richtig Sinn. Dies knnte ein Zufallsrauschen sein, dem ein langwelliges Schwingungsgemisch berlagert ist. Die Funktionsweise des ARIMA Modells soll im Folgenden schrittweise erarbeitet werden. Anmerkung: Es wird davon ausgegangen, dass saisonale Effekte bereits herausgerechnet worden sind. Die Bercksichtigung saisonaler Effekte gehrt eigentlich nicht zum ARIMA Modell. Schritt 1. Herstellung von Stationaritt: Trendbeseitigung Besitzt die zu untersuchende Zeitreihe einen Trend. Dann muss dieser também zuerst beseitigt werden. Da man zur Vorhersage von Messwerten immer die Originalreihe vor Augen habam muss, ist es ratsam, zur Erreichung von Stationaritt mglichst einfache mathematische Operationen zu verwenden, die man leicht wieder rckgngig machen kann. Hat der Trend die Forte eines Polynoms n-ter Ordnung: dann lsst er sich einfach durch n-faches Differenzieren beseitigen Aus Sicht des ARIMA Modells ist die Originalmessere o folclich integriert (Integrado). Nach 2facher Differenzierung (Abziehen jeweils benachbarter Werte) einer Reihe mit offenbar quadratischem Tendência erhlt man eine Reihe, die offenbar keinen Trend mehr enthlt. (Rauschen wurde der bersicht halber weggelassen) Saisonale Schwankungen (Periodizitt) e a nossa Weitere Verletzung von Stationaritt. Sie lassen sich dadurch beseitigen, indem man im ersten Differezierungsschritt nicht jeweils benachbarte Werte voneinander abzieht, sondern zB. 6. vom 1. den 7. vom 2. den 8. vom 3. usw. (Em Diesem Beispiel besteht die Periodendauer aus 5 Messwerten) Anschliessend kann - falls notwendig - wieder normal, também zwischen jeweils benachbarten Werten differenziert werden. Saisonale Schwankungen lassen sich aber auch durch die autoregressive Komponente (AR) beschreiben, welche im nchsten Schritt beschrieben wird. Waren im konkreten Fall beispielsweise 2 Differenzierungen zur Erreichung von Stationaritt notwendig, dann muss man zur Vorhersage bezglich der Originalreihe erst wieder 2 mal integrieren. Formal wird dieser Fall alls ARIMA (p, d, q) mit d2, também ARIMA (p, 2, q) bezeichnet. Schritt 2. AutoRegressive Komponente: Vorhersage mittels zurckliegender Messwerte. Ergebnis dieses Schrittes ist eine Gleichung der Form der n-te Wert hngt também von einer Reihe vorausgegangener Werte ab. (Rauschen wurde hier weggelassen) Um Die Koeffizienten a n-i zu ermitteln wird zunchst der Korrelationskoeffizient zwischen der stationr gemachten Messreihe und der um i Messwerte verschobenen stationr gemachten Messreihe (sogenanntes i-tes Lag) berechnet. Beispiel 2 (hat nichts mit Beispiel 1 zu tun) Folgende Grafik visualisiert die Tabellenwerte: In der rechten Spalte der Tabelle (rot) stehen die Korrelationskoeffizienten zwischen der stationr gemachten Originalreihe und ihrem 1. bis 5. Lag. Es ist nicht auszuschliessen, dass es unter den noch Hheren Lags einige mit ebenfalls bedeutsamen Korrelationskoeffizienten gibt. Bei der Berechnung der Korrelationskoeffizienten wird nicht zyklisch gerechnet (wie bei der Autokorrelation), sondern es werden nur bereinanderstehende Werte verwendet. Das bedeutet, dass die Anzahl Wertepaare fr hhere Lags geringer wird. Folgende Tabelle zeigt die Berechnungen der Signifikanz der Korrelationskoeffizienten. Das genaue Vorgehen hierzu ist unter der Rubrik Z-transformation beschrieben. Die Tabelle zeigt 5 einzeln und unabhngig durchgefhrte Testes. Zur hier auftretenden Problematik siehe Multiples Testen und Alpha Inflação. Wir knnten hier an dieser Stelle entscheiden, dass der 1. und 4. Lag zur Modellierung ausreichen. Genausogut knnten wir auch alle 5 Komponenten im weiteren Modell hinzunehmen. Beide Flle sind in folgender Grafik dargestellt. Man sieht, dass die Hinzunahme der Lags 2,3 e 5 nicht unbedingt das bessere Modell ergibt. Die Berechnung erfolgte então, dass die Summe der quadrierten Korreletionskoeffizienten der jeweils verwendeten Lags zu Eins normiert und gewichtet worden ist. Die bisher ermittelten Modellgleichungen der beiden Modelle lauten: Hier ist 5.2 der Mittelwert der Originalreihe. Die Werte der anderen Vorfaktoren ergeben sich aus den normierten Bestimmtkeitsmassen (quadrierte Korrelationskoeffizienten) der Lags, wobei die Vorzeichen von den Korrelationskoeffizienten bernommen wurden. Folgend Tabelle veranschaulicht den Rechengang: Es ist zu bedenken, dass die Signifikanz werte in der Tabelle keine Verbindung mit einem mehr oder weniger guten Modell haben. Sie bedeuten lediglich, dass die Korrelationskoeffizienten nicht bloss Zufall sind. Wurde hier nicht berechnet, wie Lag 4 direkt mit der stationr gemachten Original reel korreliert, da hierarquia Berechnete Korrelationskoeffizient alle Einflsse der Lags 1, 2, 3 und 4 beinhaltet. Diese Art Korrelation heisst partielle Autokorrelation und wird hier nicht behandelt. Es gibt spezielle Signifikanztests, die auf Autokorrelation testen. Durbin h-Statistik. Testet die Autokorrelation der Zeitreihenwerte mit dem ersten Lag. Durbin Watson Test: Testet die Autokorrelation der Residuen der Zeitreihenwerte mit dem ersten Lag. Testet também em Autokorrelation der Fehler --gt Schritt 3. Schritt 3. Média de Movimento: Vorhersage mittels vorangegangener Fehler. Unter Fehler ist hier zuflliger statistischer Einfluss zu verstehen, denn eine stationre Zeitreihe besteht aus Werten, morre entsprechend der zugrundegelegten Verteilungsfunktion um einen zeitlich konstanten Mittelwert streuen. Ergebnis dieses Schrittes ist eine Gleichung der Form Die autorregressivo Komponente des vorhergehenden Schrittes 2 wird também mit gewichteten Fehlern vorangehender Werte korrigiert. Folgende Tabelle entablo in der obersten Zeile die stationr gemachte Originalreihe aus Beispiel 2, in der 2. Zeile das AR Modell aus Schritt 2, dann den Fehler des Modells aus Schritt 2, e schliesslich die ersten 5 Lags des Fehlers (também morre Wertereihe des Modellfehlers Um 1,2,3,4 und 5 Positionen verschoben). Ohne explizite Rechnung ist bereits erkennbar, dass keiner der Korrelationskoeffizienten signifikant ist, ja sogar jeder relativ klein ist. Das deutet stark darauf hin, dass der Fehler des in Schritt 2 gewonnenen Models fast nur aus zuflligem (normalverteiltem) Rauschen besteht. Das bedeutet konkret: Der n1 - te Messwert wird durch keine Zufallskomponente irgendeines vorhergehenden Wertes n, n-1. N-s beeinflusst Die Fehler korrelieren nicht einmal mit den Werten selbst (0.20) Es gibt in der vorliegenden Reihe keine Fehlerfortpflanzung. Das Bisher entwickelte Modell lautet demnach ARIMA (4,2,0) 4. Der autorregressivo Teil des Modells (AR) greift bis auf den 4. Lag zurck 2. Morrer Originalmente musste 2 Mal differenziert werden, um stationr zu werden. 0. Der Moving Average Teil (MA) greift auf keinen Lag zurck. Im Folgenden seien zum allgemeinen Verstndnis bildhaft ein paar schne Autokorrelationsfunktionen und partielle Autokorrelationsfunktionen sowie die dazugehrende Nomenklatur dargestellt. Die Sulen stellen Korrelationswerte dar. Bei Autokorrelationsfunktionen, ACF. Handelt es sich um Funktionen wie bisher beschrieben, d. h. Es werden alle Einflsse berrcksichtigt. In dem obigen Beispiel 2 wurde zwar entschieden, nur Lag 1 e 4 fr das zu erstellende Modell zu verwenden, trotzdem sind dort die eventuellen Einflsse der Lags 2 e 3 mit enthalten, denn Lag 4 kann ja von Lag 3 abhngen e Lag 3 von Lag 2, und dieses wiederum von Lag 1 alternativ knnte Lag 4 aber auch direkt von Lag 1 abhngen und nicht von Lag 2 und 3, wieder alternativ knnte Lag 4 von allen Lags 1,2 und 3 abhngen die bisher beschriebene Vorgehensweise zur Bildung der Autokorrelationsfunktion Kann diese Flle grundstzlich nicht unterscheiden (ob Lags direkt voneinander abhngen oder ber dazwischenliegende Lags). Aus diesem Grund verwendet man Partielle Autokorrelationsfunktionen, PACF. Dort berechnet man z. B.den direkten Einfluss des Lags 4 auf die originale Messreihe und rechnet die Einflsse der Lags 1,2 e 3 no Lag 4 heraus. Die blosse visuelle Analyze der beiden Funktionen ACF (pdq) e PACF (pdq) em vielen Fellen bereits richtungsweisende Aussagen. Allerdings erfordert bereits die Erstellung der beiden Funktionen schon spezielle Statistiksoftware. Fator de auto-correlação automática (PACF) de Partielle Identificando os números de termos AR ou MA em um modelo ARIMA Acervos ACF e PACF: após uma série temporal ter sido estacionada por diferenciação, o próximo passo na montagem de um modelo ARIMA é determinar se os termos AR ou MA são necessários Para corrigir qualquer autocorrelação que permaneça na série diferenciada. Claro, com um software como o Statgraphics, você poderia tentar algumas combinações diferentes de termos e ver o que funciona melhor. Mas há uma maneira mais sistemática de fazer isso. Ao analisar as linhas de função de autocorrelação (ACF) e autocorrelação parcial (PACF) da série diferenciada, você pode identificar tentativamente os números de termos AR e ou MA que são necessários. Você já conhece o gráfico ACF: é apenas um gráfico de barras dos coeficientes de correlação entre séries temporais e atrasos de si. O plano PACF é um gráfico dos coeficientes de correlação parciais entre as séries e os atrasos de si. Em geral, a correlação quotpartial entre duas variáveis ​​é a quantidade de correlação entre elas que não é explicada por suas correlações mútuas com um conjunto especificado de outras variáveis. Por exemplo, se estamos regredindo uma variável Y em outras variáveis ​​X1, X2 e X3, a correlação parcial entre Y e X3 é a quantidade de correlação entre Y e X3 que não é explicada pelas suas correlações comuns com X1 e X2. Essa correlação parcial pode ser calculada como a raiz quadrada da redução de variância que é alcançada pela adição de X3 à regressão de Y em X1 e X2. Uma correlação automática parcial é a quantidade de correlação entre uma variável e um atraso de si que não é explicado por correlações em todas as notas de ordem inferior. A autocorrelação de uma série temporal Y no intervalo 1 é o coeficiente de correlação entre Y t e Y t - 1. O que é presumivelmente também a correlação entre Y t -1 e Y t -2. Mas se Y t está correlacionado com Y t -1. E Y t -1 está igualmente correlacionado com Y t -2. Então também devemos esperar encontrar correlação entre Y t e Y t-2. Na verdade, a quantidade de correlação que devemos esperar no intervalo 2 é precisamente o quadrado da correlação lag-1. Assim, a correlação no intervalo 1 quotpropagatesquot para lag 2 e presumivelmente para atrasos de ordem superior. A autocorrelação parcial no intervalo 2 é, portanto, a diferença entre a correlação real no intervalo 2 e a correlação esperada devido à propagação da correlação no intervalo 1. Aqui está a função de autocorrelação (ACF) da série UNITS, antes de qualquer diferenciação ser realizada: As autocorrelações são significativas para um grande número de atrasos, mas talvez as autocorrelações nos intervalos 2 e acima sejam meramente decorrentes da propagação da autocorrelação no intervalo 1. Isso é confirmado pelo argumento PACF: Observe que o gráfico PACF tem uma significância Pico apenas no intervalo 1, o que significa que todas as autocorrelações de ordem superior são efetivamente explicadas pela autocorrelação lag-1. As autocorrelações parciais em todos os atrasos podem ser calculadas ajustando uma sucessão de modelos autorregressivos com um número crescente de atrasos. Em particular, a autocorrelação parcial no intervalo k é igual ao coeficiente estimado de AR (k) em um modelo auto-regressivo com termos k, isto é, Um modelo de regressão múltipla em que Y é regredido em LAG (Y, 1), LAG (Y, 2), etc. até LAG (Y, k). Assim, por mera inspeção do PACF, você pode determinar quantos termos de AR você precisa usar para explicar o padrão de autocorrelação em uma série de tempo: se a autocorrelação parcial é significativa no intervalo k e não significativa em atrasos de ordem superior - ou seja. Se o PACF quotcuts offquot at lag k - então isso sugere que você deve tentar ajustar um modelo de ordem autorregressivo k O PACF da série UNITS fornece um exemplo extremo do fenômeno de corte: ele tem um pico muito grande no intervalo 1 E nenhum outro pico significativo, indicando que, na ausência de diferenciação, um modelo AR (1) deve ser usado. No entanto, o termo AR (1) neste modelo resultará ser equivalente a uma primeira diferença, porque o coeficiente estimado de AR (1) (que é a altura do pico PACF no intervalo 1) será quase exatamente igual a 1 . Agora, a equação de previsão para um modelo AR (1) para uma série Y sem ordens de diferenciação é: Se o coeficiente AR (1) 981 1 nesta equação for igual a 1, é equivalente a prever que a primeira diferença De Y é constante - ou seja É equivalente à equação do modelo de caminhada aleatória com crescimento: o PACF da série UNITS está nos dizendo que, se não diferenciarmos, devemos caber um modelo AR (1) que se tornará equivalente a tomar Uma primeira diferença. Em outras palavras, está nos dizendo que UNITS realmente precisa de uma ordem de diferenciação para ser estacionada. Assinaturas AR e MA: se o PACF exibir um corte acentuado enquanto o ACF decai mais devagar (ou seja, tem picos significativos em atrasos maiores), dizemos que a série estacionada exibe uma assinatura quotAR, o que significa que o padrão de autocorrelação pode ser explicado com mais facilidade Adicionando termos AR do que adicionando termos MA. Provavelmente, você achará que uma assinatura AR é comumente associada à autocorrelação positiva no intervalo 1 - ou seja. Ele tende a surgir em séries que são ligeiramente inferiores. A razão para isso é que um termo AR pode atuar como uma diferença quotparcial na equação de previsão. Por exemplo, em um modelo AR (1), o termo AR age como uma primeira diferença se o coeficiente autorregressivo for igual a 1, não faz nada se o coeficiente autorregressivo for zero, e ele age como uma diferença parcial se o coeficiente for entre 0 e 1. Então, se a série for ligeiramente inferior à diferença - ou seja Se o padrão não estacionário de autocorrelação positiva não tiver sido completamente eliminado, ele irá trocar por uma diferença parcial ao exibir uma assinatura AR. Portanto, temos a seguinte regra de ouro para determinar quando adicionar termos AR: Regra 6: Se o PACF da série diferenciada exibir um corte nítido e ou a autocorrelação lag-1 é positiva - isto é. Se a série aparecer um pouco quotunderdifferencedquot - então considere adicionar um termo AR ao modelo. O atraso em que o PACF corta é o número indicado de termos AR. Em princípio, qualquer padrão de autocorrelação pode ser removido de uma série estacionada, adicionando termos autorregressivos suficientes (atrasos da série estacionada) para a equação de previsão, e o PACF lhe diz quantos desses termos provavelmente serão necessários. No entanto, esta não é sempre a maneira mais simples de explicar um determinado padrão de autocorrelação: às vezes é mais eficiente adicionar os termos MA (atrasos dos erros de previsão). A função de autocorrelação (ACF) desempenha o mesmo papel para os termos MA que o PACF reproduz para os termos AR - ou seja, o ACF informa quantos termos MA são susceptíveis de serem necessários para remover a autocorrelação restante da série diferenciada. Se a autocorrelação é significante no intervalo k mas não em atrasos maiores - isto é. Se o ACF quotcuts offquot no lag k - isso indica que exatamente os termos de k MA devem ser usados ​​na equação de previsão. No último caso, dizemos que a série estacionada exibe uma assinatura quotMA, o que significa que o padrão de autocorrelação pode ser explicado mais facilmente adicionando termos MA que adicionando termos AR. Uma assinatura MA é comumente associada à autocorrelação negativa no intervalo 1 - isto é. Tende a surgir em séries que são ligeiramente diferenciadas. A razão para isso é que um termo de MA pode quettamente cancelar uma ordem de diferenciação na equação de previsão. Para ver isso, lembre-se de que um modelo ARIMA (0,1,1) sem constante é equivalente a um modelo de Suavização Exponencial Simples. A equação de previsão para este modelo é onde o coeficiente MA (1) 952 1 corresponde à quantidade 1 - 945 no modelo SES. Se 952 1 for igual a 1, isso corresponde a um modelo SES com 945 0, que é apenas um modelo CONSTANT porque a previsão nunca é atualizada. Isto significa que quando 952 1 é igual a 1, é realmente cancelar a operação de diferenciação que normalmente permite que a previsão de SES se recupere na última observação. Por outro lado, se o coeficiente de média móvel for igual a 0, este modelo reduz-se a um modelo de caminhada aleatória - ou seja. Ele deixa a operação de diferenciação sozinha. Então, se 952 1 for algo maior que 0, é como se cancelássemos parcialmente uma ordem de diferenciação. Se a série já estiver ligeiramente diferenciada - ou seja. Se a autocorrelação negativa for introduzida - então as cotas para uma diferença serão parcialmente canceladas ao exibir uma assinatura MA. (Muita onda de braços está acontecendo aqui Uma explicação mais rigorosa desse efeito é encontrada na Folha de Matemática de Modelos ARIMA). Daí a seguinte regra adicional: Regra 7: Se o ACF da série diferenciada exibir uma O corte nítido e a autocorrelação de lag-1 são negativos --e Se a série aparecer um pouco quotoverdifferencedquot - então considere adicionar um termo MA ao modelo. O atraso em que o ACF corta é o número indicado de termos MA. Um modelo para a série UNITS - ARIMA (2,1,0): Anteriormente, determinamos que a série UNITS precisava (pelo menos) de uma modalidade de diferenciação não-sazonal para ser estacionada. Depois de tomar uma diferença não-sazonal - ou seja. Ajustando um modelo ARIMA (0,1,0) com constante - as parcelas ACF e PACF se parecem com isto: Observe que (a) a correlação no intervalo 1 é significativa e positiva, e (b) o PACF mostra um quotcutoffquot mais nítido do que O ACF. Em particular, o PACF tem apenas dois picos significativos, enquanto o ACF tem quatro. Assim, de acordo com a Regra 7 acima, a série diferenciada exibe uma assinatura AR (2). Se, portanto, definir a ordem do termo AR para 2 - ou seja. Ajustar um modelo ARIMA (2,1,0) - obtemos as seguintes parcelas ACF e PACF para os resíduos: a autocorrelação nos atrasos cruciais - ou seja, defasos 1 e 2 - foi eliminada e não existe um padrão discernível Em atrasos de ordem superior. A série de séries temporais dos resíduos mostra uma tendência ligeiramente preocupante para se afastar da média: no entanto, o relatório de resumo de análise mostra que o modelo, no entanto, funciona bastante bem no período de validação, ambos os coeficientes de AR são significativamente diferentes de zero e o padrão O desvio dos resíduos foi reduzido de 1.54371 para 1.4215 (quase 10) pela adição dos termos AR. Além disso, não há nenhum sinal de quotunit rootquot porque a soma dos coeficientes AR (0.2522540.195572) não é próxima de 1. (As raízes das unidades são discutidas em detalhes mais detalhadamente abaixo). No geral, isso parece ser um bom modelo . As previsões (não transformadas) para o modelo mostram uma tendência ascendente linear projetada para o futuro: a tendência nas previsões de longo prazo deve-se ao fato de que o modelo inclui uma diferença não-temporária e um termo constante: este modelo é basicamente uma caminhada aleatória com Crescimento ajustado pela adição de dois termos autorregressivos - ou seja, Dois atrasos da série diferenciada. A inclinação das previsões de longo prazo (ou seja, o aumento médio de um período para outro) é igual ao termo médio no resumo do modelo (0.467566). A equação de previsão é: onde 956 é o termo constante no resumo do modelo (0.258178), 981 1 é o coeficiente AR (1) (0.25224) e 981 2 é o coeficiente AR (2) (0.195572). Média versus constante: em geral, o quotmeanquot termo na saída de um modelo ARIMA refere-se à média da série diferenciada (ou seja, a tendência média se a ordem de diferenciação for igual a 1), enquanto o quotconstantquot é o termo constante que aparece No lado direito da equação de previsão. Os termos médios e constantes são relacionados pela equação: MEIO CONSTANTE (1 menos a soma dos coeficientes AR). Neste caso, temos 0.258178 0.467566 (1 - 0.25224 - 0.195572) Modelo alternativo para a série UNITS - ARIMA (0,2,1): Lembre-se de que, quando começamos a analisar a série UNITS, não estávamos inteiramente certos do Ordem correta de diferenciação para uso. Uma ordem de diferenciação não-sazonal produziu o desvio padrão mais baixo (e um padrão de autocorrelação positiva leve), enquanto duas ordens de diferenciação não-sazonal produziram uma trama de séries temporais mais estacionárias (mas com autocorrelação negativa bastante forte). Aqui estão ambos ACF e PACF da série com duas diferenças não-sazonais: O pico negativo único no intervalo 1 na ACF é uma assinatura MA (1), de acordo com a Regra 8 acima. Assim, se usássemos 2 diferenças não sazonais, gostaríamos também de incluir um termo MA (1), produzindo um modelo ARIMA (0,2,1). De acordo com a Regra 5, também queremos suprimir o termo constante. Aqui, então, são os resultados da montagem de um modelo ARIMA (0,2,1) sem constante: Observe que o desvio padrão de ruído branco estimado (RMSE) é apenas muito ligeiramente maior para esse modelo do que o anterior (1.46301 aqui versus 1.45215 anteriormente). A equação de previsão para este modelo é: onde theta-1 é o coeficiente MA (1). Lembre-se que isso é semelhante a um modelo Linear Exponential Suavização, com o coeficiente MA (1) correspondente à quantidade 2 (1-alfa) no modelo LES. O coeficiente MA (1) de 0,76 neste modelo sugere que um modelo de LES com alfa na proximidade de 0,72 se encaixaria igualmente bem. Na verdade, quando um modelo LES é ajustado para os mesmos dados, o valor ideal de alfa é de cerca de 0,61, o que não está muito longe. Aqui está um relatório de comparação de modelos que mostra os resultados da montagem do modelo ARIMA (2,1,0) com constante, o modelo ARIMA (0,2,1) sem constante eo modelo LES: os três modelos executam quase idênticamente em O período de estimativa eo modelo ARIMA (2,1,0) com constante aparece um pouco melhor do que os outros dois no período de validação. Com base apenas nestes resultados estatísticos, seria difícil escolher entre os três modelos. No entanto, se traçamos as previsões de longo prazo feitas pelo modelo ARIMA (0,2,1) sem constante (que são essencialmente iguais às do modelo LES), vemos uma diferença significativa daqueles do modelo anterior: As previsões têm um pouco menos de tendência ascendente do que as do modelo anterior - porque a tendência local próxima ao final da série é ligeiramente inferior à tendência média em toda a série -, mas os intervalos de confiança se expandem muito mais rapidamente. O modelo com duas ordens de diferenciação pressupõe que a tendência da série é variável no tempo, portanto, considera que o futuro distante é muito mais incerto do que o modelo com apenas uma ordem de diferenciação. Qual modelo devemos escolher. Isso depende dos pressupostos que fazemos com relação à constância da tendência nos dados. O modelo com apenas uma ordem de diferenciação assume uma tendência média constante - é essencialmente um modelo de caminhada aleatória ajustado com crescimento - e, portanto, faz projeções de tendência relativamente conservadoras. Também é bastante otimista sobre a precisão com que pode prever mais de um período à frente. O modelo com duas ordens de diferenciação assume uma tendência local variável no tempo - é essencialmente um modelo de alisamento exponencial linear - e suas projeções de tendência são um pouco mais difíceis. Como regra geral neste tipo de situação, eu recomendaria escolher o modelo com a menor ordem de diferenciação, outras coisas sendo aproximadamente iguais. Na prática, os modelos de alinhamento aleatório ou simples-exponencial-suavização parecem funcionar melhor do que os modelos de alisamento exponencial linear. Modelos mistos: na maioria dos casos, o melhor modelo revela um modelo que usa apenas os termos AR ou apenas os termos MA, embora em alguns casos um modelo quotmixedquot com ambos os termos AR e MA possa fornecer o melhor ajuste para os dados. No entanto, deve-se ter cuidado ao montar modelos mistos. É possível um termo AR e um termo MA para cancelar os efeitos uns dos outros. Mesmo que ambos possam parecer significativos no modelo (conforme julgado pelas estatísticas t de seus coeficientes). Assim, por exemplo, suponha que o modelo quotcorrectquot para uma série temporal seja um modelo ARIMA (0,1,1), mas, em vez disso, você se encaixa em um modelo ARIMA (1,1,2) - ou seja. Você inclui um termo de AR adicional e um termo de MA adicional. Em seguida, os termos adicionais podem acabar aparecendo significativo no modelo, mas, no interior, eles podem estar apenas trabalhando uns contra os outros. As estimativas de parâmetros resultantes podem ser ambíguas e o processo de estimação de parâmetros pode demorar muitas (por exemplo, mais de 10) iterações para convergir. Assim: Regra 8: É possível que um termo de AR e um termo de MA cancelem os efeitos uns dos outros, então, se um modelo de AR-MA misturado parece se adequar aos dados, também tente um modelo com um termo de AR menos e um termo de MA menor - principalmente se as estimativas de parâmetros no modelo original exigirem mais de 10 iterações para convergir. Por esse motivo, os modelos ARIMA não podem ser identificados por uma abordagem passo a passo que inclui os termos AR e MA. Em outras palavras, você não pode começar por incluir vários termos de cada tipo e, em seguida, atirar aqueles cujos coeficientes estimados não são significativos. Em vez disso, você normalmente segue uma abordagem stepwisequot quotforward, adicionando termos de um tipo ou outro como indicado pela aparência das parcelas ACF e PACF. Raizes da unidade: se uma série estiver grosseiramente subjugada ou superdiferenciada - isto é. Se uma série completa de diferenciação precisa ser adicionada ou cancelada, isso geralmente é sinalizado por uma quotunit rootquot nos coeficientes estimados de AR ou MA do modelo. Um modelo de AR (1) é dito ter uma raiz unitária se o coeficiente estimado de AR (1) for quase exatamente igual a 1. (Por citar exatamente quot, eu realmente não significa significativamente diferente de. Em termos do erro padrão próprio dos coeficientes. ) Quando isso acontece, significa que o termo AR (1) imita com precisão uma primeira diferença, caso em que você deve remover o termo AR (1) e, em vez disso, adicionar uma ordem de diferenciação. (Isso é exatamente o que aconteceria se você montasse um modelo AR (1) na série UNITS indiferenciada, como observado anteriormente.) Em um modelo AR de ordem superior, existe uma raiz unitária na parte AR do modelo se a soma de Os coeficientes AR são exatamente iguais a 1. Neste caso, você deve reduzir o orden do termo AR por 1 e adicionar uma ordem de diferenciação. Uma série de tempo com uma raiz de unidade nos coeficientes de AR é não estacionária - ou seja. Ele precisa de uma maior ordem de diferenciação. Regra 9: Se houver uma unidade de raiz na parte AR do modelo - isto é. Se a soma dos coeficientes AR for quase exatamente 1 - você deve reduzir o número de termos AR em um e aumentar a ordem de diferenciação por um. Da mesma forma, um modelo de MA (1) é dito ter uma raiz de unidade se o coeficiente estimado de MA (1) for exatamente igual a 1. Quando isso acontece, significa que o termo MA (1) está exatamente cancelando uma primeira diferença, em Em qual caso, você deve remover o termo MA (1) e também reduzir a ordem de diferenciação por um. Em um modelo de MA de ordem superior, existe uma raiz de unidade se a soma dos coeficientes MA for exatamente igual a 1. Regra 10: Se houver uma raiz de unidade na parte MA do modelo - isto é. Se a soma dos coeficientes MA for quase exatamente 1 - você deve reduzir o número de termos MA por um e reduzir a ordem de diferenciação por um. Por exemplo, se você encaixa um modelo de alisamento exponencial linear (um modelo ARIMA (0,2,2)) quando um modelo de suavização exponencial simples (um modelo ARIMA (0,1,1) teria sido suficiente, você pode achar que A soma dos dois coeficientes MA é quase igual a 1. Ao reduzir a ordem MA e a ordem de diferenciação por cada uma, você obtém o modelo SES mais apropriado. Um modelo de previsão com uma unidade de raiz nos coeficientes MA estimados é dito não invariável. O que significa que os resíduos do modelo não podem ser considerados como estimativas do ruído aleatório quottruequot que gerou as séries temporais. Outro sintoma de uma raiz unitária é que as previsões do modelo podem significar upquot ou comportar-se estranhamente. Se a trama de séries temporais das previsões de longo prazo do modelo parece estranha, você deve verificar os coeficientes estimados do seu modelo para a presença de uma unidade de raiz. Regra 11: Se as previsões a longo prazo parecerem erráticas ou instáveis, pode haver uma unidade de raiz nos coeficientes AR ou MA. Nenhum desses problemas surgiu com os dois modelos instalados aqui, porque nós tínhamos o cuidado de começar com ordens plausíveis de diferenciação e números apropriados de coeficientes AR e MA ao estudar os modelos ACF e PACF. Discussões mais detalhadas das raízes das unidades e efeitos de cancelamento entre os termos AR e MA podem ser encontradas na documentação da Estrutura Matemática do modelo ARIMA.

No comments:

Post a Comment