Autoregressive Moving-Average-Fehlerprozesse (ARMA-Fehler) und andere Modelle, die Lags von Fehlertermen beinhalten, können durch Verwendung von FIT-Anweisungen geschätzt und mit Hilfe von SOLVE-Anweisungen simuliert oder prognostiziert werden. ARMA-Modelle für den Fehlerprozess werden oft für Modelle mit autokorrelierten Residuen verwendet. Mit dem AR-Makro können Modelle mit autoregressiven Fehlerprozessen spezifiziert werden. Mit dem MA-Makro können Modelle mit gleitenden Durchschnittsfehlern angegeben werden. Autoregressive Fehler Ein Modell mit autoregressiven Fehler erster Ordnung, AR (1), hat die Form, während ein AR (2) Fehlerprozess die Form hat und so weiter für Prozesse höherer Ordnung. Beachten Sie, dass die s unabhängig und identisch verteilt sind und einen erwarteten Wert von 0 haben. Ein Beispiel für ein Modell mit einer AR (2) - Komponente ist usw. für Prozesse höherer Ordnung. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA (2) gleitenden Durchschnittsfehlern schreiben, da MA1 und MA2 die gleitenden Durchschnittsparameter sind. Beachten Sie, dass RESID. Y automatisch durch PROC MODEL definiert wird. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Verzögerungen zu verkürzen. Dadurch wird sichergestellt, dass die verzögerten Fehler in der Lag-Priming-Phase bei Null beginnen und fehlende Werte nicht ausbreiten, wenn Lag-Priming-Periodenvariablen fehlen und stellt sicher, dass die zukünftigen Fehler null sind, anstatt während Simulation oder Prognose fehlen. Einzelheiten zu den Verzögerungsfunktionen finden Sie im Abschnitt Lag Logic. Dieses mit dem MA-Makro geschriebene Modell lautet wie folgt: Allgemeine Form für ARMA-Modelle Das allgemeine ARMA-Verfahren (p, q) hat die folgende Form Ein ARMA-Modell (p, q) kann wie folgt angegeben werden: wobei AR i und MA j repräsentieren Die autoregressiven und gleitenden Durchschnittsparameter für die verschiedenen Verzögerungen. Sie können beliebige Namen für diese Variablen verwenden, und es gibt viele äquivalente Möglichkeiten, die die Spezifikation geschrieben werden könnte. Vektor-ARMA-Prozesse können auch mit PROC MODEL geschätzt werden. Beispielsweise kann ein zweidimensionaler AR (1) - Prozess für die Fehler der beiden endogenen Variablen Y1 und Y2 wie folgt spezifiziert werden: Konvergenzprobleme mit ARMA-Modellen ARMA-Modelle können schwer abzuschätzen sein. Wenn die Parameterschätzwerte nicht innerhalb des geeigneten Bereichs liegen, wachsen exponentiell gleitende Modellrestriktionen. Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil sich die Iterationen von vernünftigen Werten entfernt haben. Bei der Auswahl der Anfangswerte für ARMA-Parameter sollte Sorgfalt angewendet werden. Startwerte von 0,001 für ARMA-Parameter arbeiten normalerweise, wenn das Modell die Daten gut passt und das Problem gut konditioniert ist. Man beachte, dass ein MA-Modell oft durch ein höherwertiges AR-Modell angenähert werden kann und umgekehrt. Dies kann zu einer hohen Kollinearität bei gemischten ARMA-Modellen führen, was wiederum zu ernsthaften Konditionierungen in den Berechnungen und der Instabilität der Parameterschätzungen führen kann. Wenn Sie Konvergenzprobleme haben, während Sie ein Modell mit ARMA-Fehlerprozessen schätzen, versuchen Sie in Schritten abzuschätzen. Verwenden Sie zuerst eine FIT-Anweisung, um nur die strukturellen Parameter mit den auf Null gehaltenen ARMA-Parametern zu schätzen (oder zu vernünftigen vorherigen Schätzungen, falls verfügbar). Als nächstes verwenden Sie eine andere FIT-Anweisung, um die ARMA-Parameter nur unter Verwendung der strukturellen Parameterwerte aus dem ersten Lauf zu schätzen. Da die Werte der Strukturparameter wahrscheinlich nahe an ihren endgültigen Schätzwerten liegen, können die ARMA-Parameterschätzungen nun konvergieren. Verwenden Sie schließlich eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Da die Anfangswerte der Parameter nun sehr nahe an ihren endgültigen gemeinsamen Schätzungen liegen, sollten die Schätzungen schnell zusammenlaufen, wenn das Modell für die Daten geeignet ist. AR Anfangsbedingungen Die Anfangsverzögerungen der Fehlerterme von AR (p) - Modellen können auf unterschiedliche Weise modelliert werden. Die von SASETS-Prozeduren unterstützten Autoregressive-Fehler-Startup-Methoden sind die folgenden: Bedingte kleinste Fehlerquadrate (ARIMA - und MODEL-Prozeduren) Unbedingte Kleinstquadrate (AUTOREG, ARIMA und MODEL) Maximale Wahrscheinlichkeit (AUTOREG, ARIMA und MODEL) Yule-Walker (AUTOREG Hildreth-Lu, das die ersten p-Beobachtungen löscht (nur MODELL-Verfahren) Siehe Kapitel 8, Die AUTOREG-Prozedur, für eine Erklärung und Diskussion der Vorzüge verschiedener AR (p) - Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können mit PROC MODEL durchgeführt werden. Für AR (1) Fehler können diese Initialisierungen wie in Tabelle 18.2 gezeigt erzeugt werden. Diese Verfahren sind in großen Proben äquivalent. Tabelle 18.2 Initialisierungen durchgeführt durch PROC MODELL: AR (1) ERRORS Die anfänglichen Verzögerungen der Fehlerausdrücke von MA (q) - Modellen können auch unterschiedlich modelliert werden. Die folgenden gleitenden durchschnittlichen Fehlerstartparadigmen werden von den ARIMA - und MODEL-Prozeduren unterstützt: unbedingte kleinste Fehlerquadrate bedingte kleinste Fehlerquadrate Die bedingte Methode der kleinsten Fehlerquadrate zur Schätzung der gleitenden durchschnittlichen Fehlerterme ist nicht optimal, da sie das Startproblem ignoriert. Dies verringert die Effizienz der Schätzungen, obwohl sie unverändert bleiben. Die anfänglichen verzögerten Residuen, die sich vor dem Start der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert. Dies führt zu einer Differenz zwischen diesen Residuen und den verallgemeinerten Resten der kleinsten Quadrate für die gleitende durchschnittliche Kovarianz, die im Gegensatz zum autoregressiven Modell durch den Datensatz fortbesteht. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht-invertierbare gleitende Durchschnittsprozesse ist die Konvergenz ziemlich langsam. Um dieses Problem zu minimieren, sollten Sie viele Daten haben, und die gleitenden Durchschnittsparameter-Schätzungen sollten gut innerhalb des invertiblen Bereichs liegen. Dieses Problem kann auf Kosten des Schreibens eines komplexeren Programms korrigiert werden. Unbedingte Kleinste-Quadrate-Schätzungen für das MA (1) - Prozeß können durch Spezifizieren des Modells wie folgt erzeugt werden: Gleitende Durchschnittsfehler können schwer abgeschätzt werden. Man sollte erwägen, eine AR (p) - Näherung für den gleitenden Durchschnitt zu verwenden. Ein gleitender Durchschnitt kann in der Regel durch einen autoregressiven Prozess gut approximiert werden, wenn die Daten nicht geglättet oder differenziert sind. Das AR-Makro Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle. Das AR-Makro ist Teil der SASETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Das autoregressive Verfahren kann auf die strukturellen Gleichungsfehler oder auf die endogenen Reihen selbst angewendet werden. Das AR-Makro kann für folgende Arten von Autoregression verwendet werden: uneingeschränkte Vektorautoregression beschränkte Vektorautoregression Univariate Autoregression Um den Fehlerausdruck einer Gleichung als autoregressiven Prozess zu modellieren, verwenden Sie die folgende Anweisung nach der Gleichung: Angenommen, Y ist eine Linearen Funktion von X1, X2 und einem AR (2) Fehler. Sie würden dieses Modell wie folgt schreiben: Die Aufrufe zu AR müssen nach allen Gleichungen kommen, auf die sich der Prozess bezieht. Der vorhergehende Makroaufruf AR (y, 2) erzeugt die in der LIST-Ausgabe in Abbildung 18.58 gezeigten Anweisungen. Abbildung 18.58 LIST Optionsausgabe für ein AR (2) - Modell Die PRED-Präfixvariablen sind temporäre Programmvariablen, die verwendet werden, so dass die Verzögerungen der Residuen die korrekten Residuen sind und nicht die, die durch diese Gleichung neu definiert werden. Beachten Sie, dass dies den Aussagen entspricht, die explizit im Abschnitt Allgemeine Formulare für ARMA-Modelle beschrieben sind. Sie können die autoregressiven Parameter auch bei ausgewählten Verzögerungen auf Null setzen. Wenn Sie zum Beispiel autoregressive Parameter in den Lags 1, 12 und 13 wünschen, können Sie die folgenden Anweisungen verwenden: Diese Anweisungen erzeugen die in Abbildung 18.59 dargestellte Ausgabe. Abbildung 18.59 LIST-Option Ausgang für ein AR-Modell mit Lags bei 1, 12 und 13 Die MODEL-Prozedurauflistung der kompilierten Programmcode-Anweisung als Parsed PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Es gibt Variationen der Methode der bedingten Kleinste-Quadrate, je nachdem, ob Beobachtungen am Anfang der Serie zum Aufwärmen des AR-Prozesses verwendet werden. Die AR-bedingte Methode der kleinsten Quadrate verwendet standardmäßig alle Beobachtungen und nimmt Nullen für die Anfangsverzögerungen autoregressiver Terme an. Wenn Sie die M-Option verwenden, können Sie anfordern, dass AR die unbedingte Methode der kleinsten Fehlerquadrate (ULS) oder Maximum-Likelihood (ML) anwendet. Zum Beispiel, Diskussionen dieser Methoden wird im Abschnitt AR Anfangsbedingungen zur Verfügung gestellt. Unter Verwendung der Option MCLS n können Sie anfordern, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der anfänglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1. Beispielsweise können Sie mit dem AR-Makro ein autoregressives Modell an die endogene Variable anstelle des Fehlerterms über die Option TYPEV anwenden. Wenn Sie beispielsweise die fünf letzten Lags von Y der Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie AR verwenden, um die Parameter und die Lags mit den folgenden Anweisungen zu generieren: Die obigen Anweisungen erzeugen die in Abbildung 18.60 dargestellte Ausgabe. Abbildung 18.60 LIST Option Ausgang für ein AR-Modell von Y Dieses Modell prognostiziert Y als lineare Kombination von X1, X2, einem Intercept und den Werten von Y in den letzten fünf Perioden. Unrestricted Vector Autoregression Um die Fehlerausdrücke eines Gleichungssystems als vektorautoregressiven Prozess zu modellieren, verwenden Sie die folgende Form des AR-Makros nach den Gleichungen: Der Name des Prozessnamens ist ein beliebiger Name, den Sie für AR verwenden, um Namen für den autoregressiven Namen zu verwenden Werden. Mit dem AR-Makro können Sie verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen modellieren, indem Sie für jeden Satz unterschiedliche Prozessnamen verwenden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen eindeutig sind. Verwenden Sie für den Prozess einen kurzen Prozessname-Wert, wenn Parameter-Schätzwerte in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen zu erstellen, die kleiner oder gleich acht Zeichen sind, aber dies ist durch die Länge des Prozessnamens begrenzt. Die als Präfix für die AR-Parameternamen verwendet wird. Der Variablenlistenwert ist die Liste der endogenen Variablen für die Gleichungen. Beispielsweise wird angenommen, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess der zweiten Ordnung erzeugt werden. Sie können die folgenden Aussagen verwenden, die für Y1 und ähnlichen Code für Y2 und Y3 erzeugen: Für Vektorprozesse kann nur die Methode der bedingten kleinsten Quadrate (MCLS oder MCLS n) verwendet werden. Sie können auch das gleiche Formular mit Einschränkungen verwenden, dass die Koeffizientenmatrix bei ausgewählten Verzögerungen 0 ist. Zum Beispiel verwenden die folgenden Aussagen einen Vektorprozess der dritten Ordnung auf die Gleichungsfehler, wobei alle Koeffizienten bei Verzögerung 2 auf 0 beschränkt sind und die Koeffizienten bei den Verzögerungen 1 und 3 unbeschränkt sind: Sie können die drei Serien Y1Y3 als vektorautoregressiven Prozess modellieren In den Variablen statt in den Fehlern, indem Sie die Option TYPEV verwenden. Wenn Sie Y1Y3 als Funktion von vergangenen Werten von Y1Y3 und einigen exogenen Variablen oder Konstanten modellieren möchten, können Sie mit AR die Anweisungen für die Lag-Terme erzeugen. Schreiben Sie eine Gleichung für jede Variable für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPEV auf. Zum Beispiel kann der nichtautoregressive Teil des Modells eine Funktion von exogenen Variablen sein, oder es können Abfangparameter sein. Wenn es keine exogenen Komponenten für das Vektorautoregressionsmodell gibt, die keine Abschnitte enthalten, dann weisen Sie jeder der Variablen Null zu. Es muss eine Zuordnung zu jeder der Variablen vorhanden sein, bevor AR aufgerufen wird. Dieses Beispiel modelliert den Vektor Y (Y1 Y2 Y3) als eine lineare Funktion nur seines Werts in den beiden vorhergehenden Perioden und einen Weißrauschenfehlervektor. Das Modell hat 18 (3 3 3 3) Parameter. Syntax des AR-Makros Es gibt zwei Fälle der Syntax des AR-Makros. Wenn Einschränkungen für einen Vektor-AR-Prozess nicht benötigt werden, hat die Syntax des AR-Makros die allgemeine Form, die ein Präfix für AR spezifiziert, das beim Konstruieren von Namen von Variablen zum Definieren des AR-Prozesses verwendet werden soll. Wenn der Endolist nicht angegeben wird, ist die endogene Liste standardmäßig der Name. Der der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Name darf nicht länger als 32 Zeichen sein. Ist die Reihenfolge des AR-Prozesses. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Wenn mehr als ein Name gegeben wird, wird ein unbeschränkter Vektorprozess mit den strukturellen Residuen aller Gleichungen erzeugt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, verwendet endolist standardmäßig den Namen. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Lags müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung angegeben wird. Die ULS - und ML-Methoden werden für AR-AR-Modelle von AR nicht unterstützt. Dass das AR-Verfahren auf die endogenen Variablen anstelle der strukturellen Residuen der Gleichungen angewendet werden soll. Eingeschränkte Vektorautoregression Sie können steuern, welche Parameter in den Prozess eingeschlossen werden, wobei die Parameter auf 0 begrenzt werden, die Sie nicht einschließen. Verwenden Sie zuerst AR mit der Option DEFER, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann zusätzliche AR-Aufrufe, um Ausdrücke für ausgewählte Gleichungen mit ausgewählten Variablen an ausgewählten Verzögerungen zu generieren. Zum Beispiel sind die erzeugten Fehlergleichungen wie folgt: Dieses Modell besagt, daß die Fehler für Y1 von den Fehlern sowohl von Y1 als auch von Y2 (aber nicht von Y3) bei beiden Verzögerungen 1 und 2 abhängen und daß die Fehler für Y2 und Y3 davon abhängen Die vorherigen Fehler für alle drei Variablen, aber nur bei Verzögerung 1. AR-Makro-Syntax für eingeschränkten Vektor-AR Eine alternative Verwendung von AR kann Einschränkungen für einen Vektor-AR-Prozess durch Aufruf von AR mehrmals aufrufen, um verschiedene AR-Terme und - Lags für verschiedene anzugeben Gleichungen. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für AR zu verwenden, bei der Konstruktion von Namen von Variablen benötigt, um den Vektor AR-Prozess zu definieren. Gibt die Reihenfolge des AR-Prozesses an. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Gibt an, dass AR den AR-Prozess nicht generieren soll, sondern auf weitere Informationen warten soll, die in späteren AR-Aufrufen für denselben Namenwert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem AR-Aufruf angewendet werden sollen. Nur Namen, die im Endolistenwert des ersten Aufrufs für den Namenswert angegeben sind, können in der Liste der Gleichungen in eqlist erscheinen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Nur Namen im Endolisten des ersten Aufrufs für den Namenswert können in varlist erscheinen. Wenn nicht angegeben, wird varlist standardmäßig Endolist. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich dem Wert von nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, verwendet laglist standardmäßig alle Verzögerungen 1 bis nlag. Das MA-Makro Das SAS-Makro MA generiert Programmieranweisungen für PROC MODEL für gleitende Durchschnittsmodelle. Das Makro MA ist Teil der SASETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der gleitende Mittelwertfehlerprozeß kann auf die strukturellen Gleichungsfehler angewendet werden. Die Syntax des MA-Makros entspricht dem AR-Makro, außer es gibt kein TYPE-Argument. Wenn Sie die kombinierten MA - und AR-Makros verwenden, muss das Makro MA dem AR-Makro folgen. Die folgenden SASIML-Anweisungen erzeugen einen ARMA-Fehlerprozess (1, (1 3)) und speichern ihn im Datensatz MADAT2. Die folgenden PROC MODEL-Anweisungen werden verwendet, um die Parameter dieses Modells unter Verwendung der maximalen Wahrscheinlichkeitsfehlerstruktur zu schätzen: Die Schätzungen der durch diesen Durchlauf erzeugten Parameter sind in Abbildung 18.61 dargestellt. Abbildung 18.61 Schätzungen aus einem ARMA-Prozess (1, (1 3)) Es gibt zwei Fälle der Syntax für das MA-Makro. Wenn Beschränkungen für einen Vektor-MA-Prozess nicht erforderlich sind, hat die Syntax des MA-Makros die allgemeine Form, die ein Präfix für MA vorgibt, das beim Konstruieren von Namen von Variablen verwendet wird, die benötigt werden, um den MA-Prozess zu definieren, und ist der Standard-Endolist. Ist die Reihenfolge des MA-Prozesses. Spezifiziert die Gleichungen, auf die das MA-Verfahren angewendet werden soll. Wenn mehr als ein Name angegeben wird, wird die CLS-Schätzung für den Vektorprozess verwendet. Gibt die Verzögerungen an, zu denen die MA-Bedingungen hinzugefügt werden sollen. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung im Endolisten angegeben ist. MA-Makro-Syntax für eingeschränkte Vektorbewegungsmittel Eine alternative Verwendung von MA ist es, Beschränkungen für einen Vektor-MA-Prozeß durch Aufruf von MA mehrere Male aufzuerlegen, um verschiedene MA-Terme und Verzögerungen für verschiedene Gleichungen anzugeben. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für MA, um beim Erstellen von Namen von Variablen für die Definition der Vektor-MA-Prozess zu verwenden. Spezifiziert die Reihenfolge des MA-Prozesses. Spezifiziert die Liste der Gleichungen, auf die das MA-Verfahren angewendet werden soll. Spezifiziert, daß MA nicht den MA-Prozeß erzeugen soll, sondern auf weitere Informationen, die in späteren MA-Aufrufen für denselben Namenwert spezifiziert werden, wartet. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem MA-Aufruf angewendet werden sollen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. (P, d, q) Modelle für die Zeitreihenanalyse Im vorigen Satz von Artikeln (Teile 1. 2 und 3) gingen wir in signifikante Werte über Details zu den linearen Zeitreihenmodellen AR (p), MA (q) und ARMA (p, q). Wir verwendeten diese Modelle zur Generierung von simulierten Datensätzen, angepassten Modellen, um Parameter zurückzugewinnen und diese Modelle dann auf Finanzaktiendaten anzuwenden. In diesem Artikel werden wir eine Erweiterung des ARMA-Modells diskutieren, nämlich das Modell Autoregressive Integrated Moving Average oder das Modell ARIMA (p, d, q). Wir werden sehen, dass es notwendig ist, das ARIMA-Modell zu betrachten, wenn wir nichtstationäre Serien haben. Solche Reihen treten in der Gegenwart von stochastischen Trends auf. Quick Recap und die nächsten Schritte Bisher haben wir die folgenden Modelle betrachtet (die Links führen zu den entsprechenden Artikeln): Wir haben unser Verständnis von Zeitreihen mit Konzepten wie Serienkorrelation, Stationarität, Linearität, Residuen, Korrektrammen, Simulation, Montage, Saisonalität, bedingte Heterosedastizität und Hypothesentests. Bis jetzt haben wir keine Vorhersage oder Prognose aus unseren Modellen durchgeführt und daher keinen Mechanismus zur Herstellung eines Handelssystems oder einer Eigenkapitalkurve gehabt. Sobald wir ARIMA (in diesem Artikel), ARCH und GARCH (in den nächsten Artikeln) studiert haben, sind wir in der Lage, eine grundlegende langfristige Handelsstrategie auf der Grundlage der Vorhersage der Aktienindexrenditen aufzubauen. Trotz der Tatsache, dass ich in viele Details über Modelle, die wir kennen wird letztlich nicht über eine große Leistung (AR, MA, ARMA) gegangen sind, sind wir nun gut versiert in den Prozess der Zeitreihen-Modellierung. Dies bedeutet, dass wir, wenn wir neuere Modelle (und sogar solche, die derzeit in der Forschungsliteratur studieren), über eine wichtige Wissensbasis verfügen, um diese Modelle effektiv zu bewerten, anstatt sie als Schlüssel zu behandeln Verschreibung oder Black Box. Noch wichtiger ist, wird es uns mit dem Vertrauen, zu verlängern und zu modifizieren sie auf unsere eigenen und verstehen, was wir tun, wenn wir es tun Id wie vielen Dank für Ihre Geduld so weit, wie es scheint, dass diese Artikel weit entfernt sind Die eigentliche Handlung des tatsächlichen Handels. Allerdings echte quantitative Handelsforschung ist vorsichtig, gemessen und nimmt erhebliche Zeit, um richtig zu bekommen. Es gibt keine schnelle Lösung oder reiches Schema in quant trading. Wir waren fast bereit, unser erstes Handelsmodell zu betrachten, das eine Mischung aus ARIMA und GARCH sein wird. Daher ist es zwingend notwendig, dass wir einige Zeit damit verbringen, das ARIMA-Modell gut zu verstehen. Sobald wir unser erstes Handelsmodell aufgebaut haben, werden wir mehr berücksichtigen Fortgeschrittene Modelle wie Langzeitgedächtnisprozesse, State-Space-Modelle (dh der Kalman-Filter) und Vector Autoregressive (VAR) Modelle, die uns zu anderen, anspruchsvolleren Handelsstrategien führen werden. Autoregressive Integrated Moving Average (ARIMA) Modelle der Ordnung p, d, q ARIMA-Modelle werden verwendet, da sie eine nicht stationäre Serie auf eine stationäre Serie reduzieren können, indem sie eine Folge von differenzierenden Schritten verwenden. Wir können uns an den Artikel über weißes Rauschen und zufällige Wanderungen erinnern, daß wir, wenn wir den Differenzoperator auf eine zufällige Wegserie (eine nicht stationäre Reihe) anwenden, mit weißem Rauschen (einer stationären Reihe) verlassen werden: begin nabla xt xt - x wt Ende führt ARIMA diese Funktion im Wesentlichen aus, tut dies jedoch wiederholt d-mal, um eine nicht-stationäre Serie auf eine stationäre zu reduzieren. Um andere Formen der Nicht-Stationarität über stochastische Trends hinaus zu bewältigen, können zusätzliche Modelle verwendet werden. Saisonale Effekte (wie die, die in den Rohstoffpreisen auftreten) können mit dem saisonalen ARIMA-Modell (SARIMA) angegangen werden, aber wir werden nicht über SARIMA viel in dieser Serie diskutieren. Bedingte heteroscedastische Effekte (wie bei Volatilitäts-Clustern in Aktienindizes) können mit ARCHGARCH angegangen werden. In diesem Artikel werden wir betrachten nicht-stationäre Serie mit stochastischen Trends und passen ARIMA-Modelle zu diesen Serien. Wir werden auch endlich Prognosen für unsere Finanzserie produzieren. Definitionen Vor der Definition von ARIMA-Prozessen müssen wir das Konzept einer integrierten Reihe diskutieren: Integrierte Reihenfolge d Eine Zeitreihe ist in Ordnung d integriert. I (d), wenn: begin nablad xt wt end Das heißt, wenn wir die Serie d mal differenzieren, erhalten wir eine diskrete weiße Rauschenserie. Alternativ können Sie mit dem Backward Shift Operator eine entsprechende Bedingung definieren: Nachdem wir eine integrierte Serie definiert haben, können wir den ARIMA Prozess selbst definieren: Autoregressives Integriertes Moving Average Modell der Ordnung p, d, q Eine Zeitreihe ist ein autoregressives integriertes gleitendes Durchschnittsmodell Der Ordnung p, d, q. ARIMA (p, d, q). Wenn nablad xt ein autoregressiver gleitender Durchschnitt der Ordnung p, q, ARMA (p, q) ist. Das heißt, wenn die Reihe d-mal differenziert wird und dann einem ARMA (p, q) - Prozess folgt, dann handelt es sich um eine ARIMA-Reihe (p, d, q). Wenn wir die Polynomnotation aus Teil 1 und Teil 2 der ARMA-Reihe verwenden, dann kann ein ARIMA (p, d, q) - Prozeß in Form des Rückwärtsverschiebungsoperators geschrieben werden. : Wobei wt eine diskrete weiße Rauschreihe ist. Es gibt einige Punkte, um über diese Definitionen zu beachten. Da der zufällige Weg durch xt x wt gegeben ist, kann man sehen, daß I (1) eine andere Darstellung ist, da nabla1 xt wt. Wenn wir einen nicht-linearen Trend vermuten, könnten wir möglicherweise in der Lage sein, wiederholtes Differenzieren (d. h. d gt & sub1;) zu verwenden, um eine Reihe auf stationäres weißes Rauschen zu reduzieren. In R können wir den diff-Befehl mit zusätzlichen Parametern verwenden, z. B. Diff (x, d3), um wiederholte Differenzen auszuführen. Simulation, Correlogram und Modellbefestigung Da wir bereits den Befehl arima. sim verwendet haben, um einen ARMA (p, q) Prozess zu simulieren, wird das folgende Verfahren ähnlich dem in Teil 3 der ARMA Serie durchgeführt. Der Hauptunterschied besteht darin, dass wir nun d1 setzen, dh, wir werden eine nicht-stationäre Zeitreihe mit einer stochastischen Trending-Komponente erzeugen. Nach wie vor passen wir ein ARIMA-Modell an unsere simulierten Daten an, versuchen, die Parameter wiederherzustellen, Konfidenzintervalle für diese Parameter zu erzeugen, ein Korrelogramm der Residuen des eingebauten Modells zu erstellen und schließlich einen Ljung-Box-Test durchzuführen, um festzustellen, ob wir es haben eine gute Passform. Wir werden ein ARIMA (1,1,1) Modell mit dem autoregressiven Koeffizienten alpha0,6 und dem gleitenden mittleren Koeffizienten beta-0,5 simulieren. Hier ist der R-Code zu simulieren und plotten eine solche Serie: Nun, da wir unsere simulierte Serie werden wir versuchen zu versuchen und passen ein ARIMA (1,1,1) - Modell. Da wir die Reihenfolge kennen, geben wir sie einfach im Fit an: Die Konfidenzintervalle werden berechnet als: Die beiden Parameterschätzungen liegen innerhalb der Konfidenzintervalle und liegen nahe bei den wahren Parameterwerten der simulierten ARIMA-Reihe. Daher sollten wir nicht überrascht sein, die Residuen sehen wie eine Realisierung von diskreten weißen Rauschen zu sehen: Schließlich können wir eine Ljung-Box-Test, um statistische Beweise für eine gute Passform liefern: Wir können sehen, dass der p-Wert ist deutlich größer als 0,05 und als solche können wir sagen, dass es einen starken Beweis für diskrete weiße Rauschen, die eine gute Passung zu den Residuen ist. Daher ist das ARIMA (1,1,1) - Modell, wie erwartet, eine gute Passform. Finanzdaten und Prognosen In diesem Abschnitt werden wir ARIMA-Modelle an Amazon, Inc. (AMZN) und den SampP500 US Equity Index (GPSC, in Yahoo Finance) anpassen. Wir verwenden die Prognose-Bibliothek, geschrieben von Rob J Hyndman. Gehen Sie voran und installieren Sie die Bibliothek in R: Jetzt können wir quantmod nutzen, um die tägliche Preisreihe von Amazon ab Anfang 2013 herunterzuladen. Da wir schon die ersten Bestellunterschiede der Serie genommen haben, wird die ARIMA fit in Kürze durchgeführt Benötigen wir für die integrierte Komponente nicht d gt 0: Wie in Teil 3 der ARMA-Reihe werden wir nun die Kombinationen von p, d und q durchlaufen, um das optimale ARIMA (p, d, q) Modell zu finden. Unter optimaler Bedeutung verstehen wir die Ordnungskombination, die das Akaike Information Criterion (AIC) minimiert: Wir können sehen, dass eine Ordnung von p4, d0, q4 ausgewählt wurde. Bemerkenswert ist d0, wie wir bereits oben besprochen haben: Wenn wir das Korrelogramm der Residuen darstellen, können wir sehen, ob wir Beweise für eine diskrete weiße Rauschreihe haben: Es gibt zwei signifikante Peaks, nämlich bei k15 und k21, obwohl wir es sollten Erwarten, statistisch signifikante Peaks nur aufgrund der Abtastvariation 5 der Zeit zu sehen. Wir können einen Ljung-Box-Test durchführen (siehe vorherigen Artikel) und sehen, ob wir Beweise für eine gute Passform haben: Wie wir sehen können, ist der p-Wert größer als 0,05 und so haben wir Beweise für eine gute Passform auf der 95-Ebene. Wir können nun den Prognosebefehl aus der Prognosebibliothek verwenden, um 25 Tage vor der Rendite-Serie von Amazon zu prognostizieren: Wir sehen die Punktprognosen für die nächsten 25 Tage mit 95 (dunkelblau) und 99 (hellblau) Fehlerbändern . Wir werden diese Prognosen in unserer ersten Zeitreihenhandelsstrategie verwenden, wenn wir kommen, um ARIMA und GARCH zu kombinieren. Wir können das gleiche Verfahren für den SampP500 durchführen. Zuerst erhalten wir die Daten von quantmod und konvertieren sie in einen täglichen log returns stream: Wir passen ein ARIMA Modell, indem wir die Werte von p, d und q durchlaufen: Die AIC sagt uns, dass das beste Modell die ARIMA (2,0, 1) - Modell. Beachten Sie noch einmal, dass d0, da wir bereits erste Ordnung Differenzen der Serie genommen haben: Wir können die Residuen des eingebauten Modells zu sehen, ob wir Beweise für diskrete weißes Rauschen haben: Das Korrelogram sieht vielversprechend, so dass der nächste Schritt zu laufen ist Die Ljung-Box-Test und bestätigen, dass wir ein gutes Modell passen: Da der p-Wert größer als 0,05 haben wir Beweise für eine gute Modell passen. Warum ist es, dass im vorherigen Artikel unsere Ljung-Box-Test für die SampP500 zeigte, dass die ARMA (3,3) war eine schlechte Passform für die tägliche Log Rückkehr Beachten Sie, dass ich absichtlich beschnitten die SampP500 Daten ab 2013 beginnen in diesem Artikel , Die die volatilen Perioden um 2007-2008 praktisch ausschließt. Daher haben wir einen großen Teil des SampP500 ausgeschlossen, wo wir eine übermäßige Volatilitäts-Clusterbildung hatten. Dies wirkt sich auf die serielle Korrelation der Reihe aus und hat daher die Wirkung, die Serie scheinbar stationärer zu machen als in der Vergangenheit. Dies ist ein sehr wichtiger Punkt. Bei der Analyse von Zeitreihen müssen wir sehr vorsichtig auf bedingt heteroszedierte Serien wie Börsenindizes achten. In quantitativen Finanzen ist der Versuch, Perioden mit unterschiedlicher Volatilität zu bestimmen, oft als Regime-Detektion bekannt. Es ist eine der härteren Aufgaben zu erreichen Nun besprechen diesen Punkt ausführlich im nächsten Artikel, wenn wir die ARCH und GARCH Modelle zu betrachten. Wir können nun eine Prognose für die nächsten 25 Tage der SampP500-täglichen Log-Rückkehr erstellen: Nachdem wir nun die Möglichkeit haben, Modelle wie ARIMA zu installieren und zu prognostizieren, waren wir sehr nahe daran, Strategieindikatoren für den Handel zu schaffen. Nächste Schritte Im nächsten Artikel werden wir einen Blick auf die Generalized Autoregressive Conditional Heteroscedasticity (GARCH) - Modell und verwenden Sie es zu erklären, mehr der seriellen Korrelation in bestimmten Aktien-und Aktienindex-Serie. Sobald wir GARCH diskutiert haben, werden wir in der Lage sein, es mit dem ARIMA-Modell zu kombinieren und Signalindikatoren und damit eine grundlegende quantitative Handelsstrategie zu schaffen. Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Unterlassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Darüber hinaus kann diese Website erhalten finanzielle Entschädigung von den Unternehmen erwähnt durch Werbung, Affiliate-Programme oder auf andere Weise. Preise und Angebote von Inserenten auf dieser Website ändern sich häufig, manchmal ohne Vorankündigung. Während wir uns bemühen, rechtzeitige und genaue Informationen aufrechtzuerhalten, können Angebot Details veraltet sein. Besucher sollten daher die Bedingungen dieser Angebote vor der Teilnahme an ihnen überprüfen. Der Autor und sein Herausgeber haften nicht für die Aktualisierung von Informationen und haften nicht für die Inhalte, Produkte und Dienstleistungen von Drittanbietern, auch wenn sie über Hyperlinks und Anzeigen auf dieser Website aufgerufen werden. Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 1 Im letzten Artikel sahen wir zufällige Wanderungen und weißes Rauschen als grundlegende Zeitreihenmodelle für bestimmte Finanzinstrumente wie Tagesaktien und Aktienindexpreise an. Wir fanden, dass in einigen Fällen ein zufälliges Wanderungsmodell nicht ausreicht, um das vollständige Autokorrelationsverhalten des Instruments zu erfassen, das anspruchsvollere Modelle motiviert. In den folgenden Artikeln werden drei Modelltypen diskutiert, nämlich das Autoregressive (AR) - Modell der Ordnung p, das Moving Average (MA) - Modell der Ordnung q und das gemischte Autogressive Moving Average (ARMA) - Modell der Ordnung p , Q. Diese Modelle werden uns helfen zu erfassen oder zu erklären, mehr der seriellen Korrelation in einem Instrument. Letztlich werden sie uns ein Mittel zur Prognose der künftigen Preise bieten. Es ist jedoch bekannt, dass finanzielle Zeitreihen eine Eigenschaft besitzen, die als Volatilitäts-Clusterung bekannt ist. Das heißt, die Flüchtigkeit des Instruments ist nicht zeitlich konstant. Der technische Begriff für dieses Verhalten wird als bedingte Heteroskedastizität bezeichnet. Da die AR-, MA - und ARMA-Modelle nicht bedingt heteroskedastisch sind, dh sie nicht das Volatilitäts-Clustering berücksichtigen, benötigen wir letztlich ein anspruchsvolleres Modell für unsere Prognosen. Zu diesen Modellen gehören das Autogressive Conditional Heteroskedastic (ARCH) Modell und das Generalized Autogressive Conditional Heteroskedastic (GARCH) Modell und die vielen Varianten davon. GARCH ist in Quantfinance besonders bekannt und wird vor allem für finanzielle Zeitreihensimulationen als Mittel zur Risikoabschätzung eingesetzt. Wie bei allen QuantStart-Artikeln möchte ich aber diese Modelle aus einfacheren Versionen aufbauen, damit wir sehen können, wie jede neue Variante unsere Vorhersagefähigkeit ändert. Trotz der Tatsache, dass AR, MA und ARMA relativ einfache Zeitreihenmodelle sind, sind sie die Grundlage für kompliziertere Modelle wie den Autoregressive Integrated Moving Average (ARIMA) und die GARCH-Familie. Daher ist es wichtig, dass wir sie studieren. Einer unserer ersten Trading-Strategien in der Zeitreihe Artikel-Serie wird es sein, ARIMA und GARCH zu kombinieren, um die Preise n Perioden im Voraus vorherzusagen. Allerdings müssen wir warten, bis weve diskutiert sowohl ARIMA und GARCH separat, bevor wir sie auf eine echte Strategie anwenden Wir werden in diesem Artikel werden wir einige neue Zeitreihen-Konzepte, die gut für die restlichen Methoden, nämlich streng zu skizzieren Stationarität und dem Akaike-Informationskriterium (AIC). Im Anschluss an diese neuen Konzepte werden wir dem traditionellen Muster für das Studium neuer Zeitreihenmodelle folgen: Begründung - Die erste Aufgabe ist es, einen Grund dafür zu liefern, warum sich ein bestimmtes Modell als Quants interessierte. Warum stellen wir das Zeitreihenmodell vor Welche Auswirkungen kann es erfassen Was gewinnen wir (oder verlieren), indem wir zusätzliche Komplexität hinzufügen Definition - Wir müssen die vollständige mathematische Definition (und damit verbundene Notation) des Zeitreihenmodells zur Minimierung bereitstellen Jede Unklarheit. Eigenschaften der zweiten Ordnung - Wir diskutieren (und in einigen Fällen) die Eigenschaften zweiter Ordnung des Zeitreihenmodells, das sein Mittel, seine Varianz und seine Autokorrelationsfunktion enthält. Correlogram - Wir verwenden die Eigenschaften zweiter Ordnung, um ein Korrektramm einer Realisierung des Zeitreihenmodells zu zeichnen, um sein Verhalten zu visualisieren. Simulation - Wir simulieren Realisierungen des Zeitreihenmodells und passen dann das Modell an diese Simulationen an, um sicherzustellen, dass wir genaue Implementierungen haben und den Anpassungsprozess verstehen. Echte Finanzdaten - Wir passen das Zeitreihenmodell auf echte Finanzdaten an und betrachten das Korrektramm der Residuen, um zu sehen, wie das Modell die serielle Korrelation in der ursprünglichen Serie berücksichtigt. Vorhersage - Wir erstellen n-Schritt-Voraus-Prognosen des Zeitreihenmodells für besondere Realisierungen, um letztendlich Handelssignale zu erzeugen. Fast alle Artikel, die ich auf Zeitreihenmodellen schreibe, werden in dieses Muster fallen und es wird uns erlauben, die Unterschiede zwischen jedem Modell leicht zu vergleichen, da wir weitere Komplexität hinzufügen. Wurden zu Beginn mit Blick auf strenge Stationarität und die AIC. Strengst stationär Wir haben die Definition der Stationarität in dem Artikel über die serielle Korrelation. Da wir jedoch in die Reichweite vieler Finanzserien mit verschiedenen Frequenzen treten, müssen wir sicherstellen, dass unsere (eventuellen) Modelle die zeitlich variierende Volatilität dieser Serien berücksichtigen. Insbesondere müssen wir ihre Heteroskedastizität berücksichtigen. Wir werden auf dieses Problem stoßen, wenn wir versuchen, bestimmte Modelle zu historischen Serien zu passen. Grundsätzlich können nicht alle seriellen Korrelationen in den Resten von eingebauten Modellen berücksichtigt werden, ohne Heteroskedastizität zu berücksichtigen. Das bringt uns zurück zur Stationarität. Eine Serie ist nicht stationär in der Varianz, wenn sie zeitvariable Volatilität hat, per Definition. Dies motiviert eine rigorosere Definition der Stationarität, nämlich eine strenge Stationarität: Strengst stationäre Serie Ein Zeitreihenmodell ist streng stationär, wenn die gemeinsame statistische Verteilung der Elemente x, ldots, x die gleiche ist wie die von xm, ldots, xm, Für alle ti, m. Man kann an diese Definition nur denken, daß die Verteilung der Zeitreihen für jede zeitliche Verschiebung unverändert bleibt. Insbesondere sind das Mittel und die Varianz rechtzeitig für eine streng stationäre Reihe konstant und die Autokovarianz zwischen xt und xs (nur) hängt nur von der absoluten Differenz von t und s, t-s ab. In zukünftigen Beiträgen werden wir streng stationäre Serien besprechen. Akaike Information Criterion Ich erwähnte in früheren Artikeln, dass wir schließlich zu prüfen, wie die Wahl zwischen getrennten besten Modelle. Dies gilt nicht nur für die Zeitreihenanalyse, sondern auch für das maschinelle Lernen und generell für die Statistik im Allgemeinen. Die beiden Hauptmethoden (vorläufig) sind das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (wie wir mit unseren Artikeln über Bayesian Statistics weiter vorankommen). Nun kurz die AIC, wie es in Teil 2 des ARMA Artikel verwendet werden. AIC ist im Wesentlichen ein Hilfsmittel zur Modellauswahl. Das heißt, wenn wir eine Auswahl von statistischen Modellen (einschließlich Zeitreihen) haben, dann schätzt die AIC die Qualität jedes Modells, relativ zu den anderen, die wir zur Verfügung haben. Sie basiert auf Informationstheorie. Das ist ein sehr interessantes, tiefes Thema, das wir leider nicht in zu viel Detail gehen können. Es versucht, die Komplexität des Modells, die in diesem Fall bedeutet die Anzahl der Parameter, wie gut es passt die Daten. Lets eine Definition: Akaike Information Criterion Wenn wir die Likelihood-Funktion für ein statistisches Modell, das k Parameter hat, und L maximiert die Wahrscheinlichkeit. Dann ist das Akaike Information Criterion gegeben durch: Das bevorzugte Modell, aus einer Auswahl von Modellen, hat die minium AIC der Gruppe. Sie können sehen, dass die AIC wächst mit der Anzahl der Parameter, k, erhöht, aber reduziert wird, wenn die negative Log-Likelihood erhöht. Im Wesentlichen bestraft sie Modelle, die übermäßig sind. Wir werden AR, MA und ARMA Modelle von unterschiedlichen Aufträgen erstellen und eine Möglichkeit, das beste Modell zu wählen, das zu einem bestimmten Datensatz passt, ist, die AIC zu verwenden. Dies ist, was gut tun, im nächsten Artikel, vor allem für ARMA Modelle. Autoregressive (AR) Modelle der Ordnung p Das erste Modell, das die Grundlage von Teil 1 bildet, ist das autoregressive Modell der Ordnung p, oft verkürzt zu AR (p). Im vorherigen Artikel betrachteten wir den zufälligen Weg. Wobei jeder Term xt nur von dem vorherigen Term x und einem stochastischen weißen Rauschterm abhängt, wt: Das autoregressive Modell ist einfach eine Erweiterung des zufälligen Wegs, der Terme weiter zurück in der Zeit enthält. Die Struktur des Modells ist linear. Das heißt, das Modell hängt linear von den vorherigen Bedingungen ab, wobei für jeden Term Koeffizienten vorliegen. Dies ist, wo die regressive kommt aus der autoregressive. Es ist im Wesentlichen ein Regressionsmodell, bei dem die vorherigen Begriffe die Prädiktoren sind. Autoregressives Modell der Ordnung p Ein Zeitreihenmodell ist ein autoregressives Modell der Ordnung p. AR (p), wenn: begin xt alpha1 x ldots alphap x wt sum p alpha x wt end Wo ist weißes Rauschen und alpha in mathbb, mit alphap neq 0 für einen autoregressiven p-order Prozess. Wenn wir den Backward Shift Operator betrachten. (Siehe vorheriger Artikel), dann können wir das obige als eine Funktion theta folgendermaßen umschreiben: begin thetap () xt (1 - alpha1 - alpha2 2 - ldots - alphap) xt wt Ende Vielleicht das erste, was über das AR (p) Ist, dass ein zufälliger Weg einfach AR (1) mit alpha1 gleich Eins ist. Wie oben erwähnt, ist das autogressive Modell eine Erweiterung des zufälligen Weges, so dass dies sinnvoll ist. Es ist einfach, Vorhersagen mit dem AR (p) - Modell zu jeder Zeit t vorzunehmen, sobald wir die alphai-Koeffizienten, unsere Schätzung, bestimmt haben Wird einfach: anfangen Hut t alpha1 x ldots alphap x end So können wir n-Schritt voraus Prognosen durch die Herstellung Hut t, Hut, Hut, etc. bis zu Hut. Tatsächlich werden wir, wenn wir die ARMA-Modelle in Teil 2 betrachten, die R-Vorhersagefunktion verwenden, um Prognosen (zusammen mit Standardfehler-Konfidenzintervallbändern) zu erzeugen, die uns helfen, Handelssignale zu erzeugen. Stationarität für autoregressive Prozesse Eines der wichtigsten Aspekte des AR (p) - Modells ist, dass es nicht immer stationär ist. Tatsächlich hängt die Stationarität eines bestimmten Modells von den Parametern ab. Ive berührte dieses vorher in einem vorhergehenden Artikel. Um zu bestimmen, ob ein AR (p) - Prozeß stationär ist oder nicht, müssen wir die charakteristische Gleichung lösen. Die charakteristische Gleichung ist einfach das autoregressive Modell, geschrieben in Rückwärtsverschiebung Form, auf Null gesetzt: Wir lösen diese Gleichung für. Damit das bestimmte autoregressive Verfahren stationär ist, brauchen wir alle Absolutwerte der Wurzeln dieser Gleichung, um Eins zu übersteigen. Dies ist eine äußerst nützliche Eigenschaft und ermöglicht es uns schnell zu berechnen, ob ein AR (p) - Prozeß stationär ist oder nicht. Wir betrachten einige Beispiele, um diese Idee konkret zu machen: Random Walk - Der AR (1) Prozess mit alpha1 1 hat die charakteristische Gleichung theta 1 -. Offensichtlich hat diese Wurzel 1 und als solche ist nicht stationär. AR (1) - Wenn wir alpha1 frac wählen, erhalten wir xt frac x wt. Dies ergibt eine charakteristische Gleichung von 1 - frac 0, die eine Wurzel von 4 gt 1 hat und somit dieses AR (1) - Verfahren stationär ist. AR (2) - Wenn wir alpha1 alpha2 frac setzen, erhalten wir xt frac x frac x wt. Seine charakteristische Gleichung wird - frac () () 0, die zwei Wurzeln von 1, -2 ergibt. Da es sich um eine Einheitswurzel handelt, handelt es sich um eine nichtstationäre Serie. Andere AR (2) - Serien können jedoch stationär sein. Eigenschaften der zweiten Ordnung Der Mittelwert eines AR (p) - Prozesses ist Null. Allerdings sind die Autokovarianzen und Autokorrelationen durch rekursive Funktionen, bekannt als die Yule-Walker-Gleichungen gegeben. Die vollständigen Eigenschaften sind unten angegeben: begin mux E (xt) 0 end begin gammak sum p alpha gamma, enspace k 0 end begin rhok sum p alphai rho, enspace k 0 end Beachten Sie, dass es notwendig ist, die alpha-Parameterwerte vor zu kennen Berechnen der Autokorrelationen. Nachdem wir die Eigenschaften zweiter Ordnung angegeben haben, können wir verschiedene Ordnungen von AR (p) simulieren und die entsprechenden Korrektramme darstellen. Simulationen und Correlogramme Beginnen wir mit einem AR (1) - Prozess. Dies ist ähnlich einem zufälligen Weg, außer dass alpha1 nicht gleich Eins haben muss. Unser Modell wird alpha1 0,6 haben. Der R-Code für die Erzeugung dieser Simulation ist wie folgt gegeben: Beachten Sie, dass unsere for-Schleife von 2 bis 100, nicht 1 bis 100, als xt-1 ausgeführt wird, wenn t0 nicht indexierbar ist. Ähnlich für AR (p) Prozesse höherer Ordnung muss t in dieser Schleife von p bis 100 reichen. Wir können die Realisierung dieses Modells und seines zugehörigen Korrelogramms mit Hilfe der Layout-Funktion darstellen: Lasst uns jetzt versuchen, einen AR (p) - Prozeß an die soeben erzeugten simulierten Daten anzupassen, um zu sehen, ob wir die zugrunde liegenden Parameter wiederherstellen können. Sie können daran erinnern, dass wir ein ähnliches Verfahren in dem Artikel über weiße Rauschen und zufällige Wanderungen durchgeführt. Wie sich herausstellt, bietet R einen nützlichen Befehl ar, um autoregressive Modelle zu passen. Wir können diese Methode verwenden, um uns zuerst die beste Ordnung p des Modells zu erzählen (wie durch die AIC oben bestimmt) und liefern uns mit Parameterschätzungen für das alphai, die wir dann verwenden können, um Konfidenzintervalle zu bilden. Für die Vollständigkeit können wir die x-Reihe neu erstellen: Jetzt verwenden wir den ar-Befehl, um ein autoregressives Modell an unseren simulierten AR (1) - Prozess anzupassen, wobei die maximale Wahrscheinlichkeitsschätzung (MLE) als Anpassungsverfahren verwendet wird. Wir werden zunächst die beste erhaltene Ordnung extrahieren: Der ar Befehl hat erfolgreich festgestellt, dass unser zugrunde liegendes Zeitreihenmodell ein AR (1) Prozess ist. Wir erhalten dann die Alpha-Parameter (s) Schätzungen: Die MLE-Prozedur hat eine Schätzung erzeugt, Hut 0,523, die etwas niedriger als der wahre Wert von alpha1 0,6 ist. Schließlich können wir den Standardfehler (mit der asymptotischen Varianz) verwenden, um 95 Konfidenzintervalle um den / die zugrunde liegenden Parameter zu konstruieren. Um dies zu erreichen, erstellen wir einfach einen Vektor c (-1,96, 1,96) und multiplizieren ihn dann mit dem Standardfehler: Der wahre Parameter fällt in das 95 Konfidenzintervall, da wir von der Tatsache erwarten, dass wir die Realisierung aus dem Modell spezifisch generiert haben . Wie wäre es, wenn wir die alpha1 -0.6 ändern, können wir wie folgt ein AR (p) - Modell mit ar: Wiederherstellen wir die richtige Reihenfolge des Modells, mit einer sehr guten Schätzung Hut -0.597 von alpha1-0.6. Wir sehen auch, dass der wahre Parameter wieder innerhalb des Konfidenzintervalls liegt. Fügen wir mehr Komplexität zu unseren autoregressiven Prozessen hinzu, indem wir ein Modell der Ordnung 2 simulieren. Insbesondere setzen wir alpha10.666, setzen aber auch alpha2 -0.333. Heres den vollständigen Code, um die Realisierung zu simulieren und zu plotten, sowie das Korrelogram für eine solche Serie: Wie zuvor sehen wir, dass sich das Korrelogramm signifikant von dem des weißen Rauschens unterscheidet, wie man es erwarten kann. Es gibt statistisch signifikante Peaks bei k1, k3 und k4. Wieder einmal wollten wir den ar-Befehl verwenden, um ein AR (p) - Modell zu unserer zugrundeliegenden AR (2) Realisierung zu passen. Die Prozedur ist ähnlich wie bei der AR (1) - Sitzung: Die korrekte Reihenfolge wurde wiederhergestellt und die Parameterschätzungen Hut 0.696 und Hut -0.395 sind nicht zu weit weg von den wahren Parameterwerten von alpha10.666 und alpha2-0.333. Beachten Sie, dass wir eine Konvergenz-Warnmeldung erhalten. Beachten Sie auch, dass R tatsächlich die arima0-Funktion verwendet, um das AR-Modell zu berechnen. AR (p) - Modelle sind ARIMA (p, 0, 0) - Modelle und somit ein AR-Modell ein Spezialfall von ARIMA ohne Moving Average (MA) - Komponente. Nun auch mit dem Befehl arima, um Konfidenzintervalle um mehrere Parameter zu erstellen, weshalb wir vernachlässigt haben, es hier zu tun. Nachdem wir nun einige simulierte Daten erstellt haben, ist es an der Zeit, die AR (p) - Modelle auf finanzielle Asset-Zeitreihen anzuwenden. Financial Data Amazon Inc. Lets beginnen mit dem Erwerb der Aktienkurs für Amazon (AMZN) mit quantmod wie im letzten Artikel: Die erste Aufgabe ist es, immer den Preis für eine kurze visuelle Inspektion. In diesem Fall auch die täglichen Schlusskurse: Youll bemerken, dass quantmod einige Formatierungen für uns, nämlich das Datum, und ein etwas hübscheres Diagramm als die üblichen R-Diagramme hinzufügt: Wir werden jetzt die logarithmische Rückkehr von AMZN und dann die erste nehmen Um die ursprüngliche Preisreihe von einer nichtstationären Serie auf eine (potentiell) stationäre zu konvertieren. Dies ermöglicht es uns, Äpfel mit Äpfeln zwischen Aktien, Indizes oder anderen Vermögenswerten zu vergleichen, für die Verwendung in späteren multivariaten Statistiken, wie bei der Berechnung einer Kovarianzmatrix. Wenn Sie eine ausführliche Erklärung, warum Protokoll Rückkehr bevorzugen möchten, werfen Sie einen Blick auf diesen Artikel über bei Quantivity. Erstellt eine neue Serie, amznrt. Um unsere differenzierten Logarithmen zurückzuhalten: Wieder einmal können wir die Serie darstellen: In diesem Stadium wollen wir das Korrektramm zeichnen. Sie suchten, um zu sehen, ob die differenzierte Reihe wie weißes Rauschen aussieht. Wenn es nicht dann gibt es unerklärliche serielle Korrelation, die durch ein autoregressives Modell erklärt werden könnte. Wir bemerken einen statistisch signifikanten Peak bei k2. Daher gibt es eine vernünftige Möglichkeit der unerklärlichen seriellen Korrelation. Seien Sie sich jedoch bewusst, dass dies aufgrund der Stichprobe. Als solches können wir versuchen, ein AR (p) - Modell an die Serie anzupassen und Konfidenzintervalle für die Parameter zu erzeugen: Die Anpassung des ar-autoregressiven Modells an die erste Reihe differenzierte Serien von Logarithmen erzeugt ein AR (2) - Modell mit Hut -0,0278 Und hat -0.0687. Ive auch die aysmptotische Varianz, so dass wir berechnen können Standard-Fehler für die Parameter und erzeugen Vertrauen Intervalle. Wir wollen sehen, ob null Teil des 95 Konfidenzintervalls ist, als ob es ist, es reduziert unser Vertrauen, dass wir ein echtes zugrunde liegendes AR (2) - Verfahren für die AMZN-Serie haben. Um die Konfidenzintervalle auf der 95-Ebene für jeden Parameter zu berechnen, verwenden wir die folgenden Befehle. Wir nehmen die Quadratwurzel des ersten Elements der asymptotischen Varianzmatrix auf, um einen Standardfehler zu erzeugen, dann erzeugen Sie Konfidenzintervalle, indem wir sie mit -1,96 bzw. 1,96 für die 95-Ebene multiplizieren: Beachten Sie, dass dies bei Verwendung der Arima-Funktion einfacher wird , Aber gut bis Teil 2 warten, bevor es richtig eingeführt. Somit können wir sehen, dass für alpha1 Null innerhalb des Konfidenzintervalls enthalten ist, während für alpha2 Null nicht im Konfidenzintervall enthalten ist. Daher sollten wir sehr vorsichtig sein, wenn wir denken, dass wir tatsächlich ein zugrundeliegendes generatives AR (2) - Modell für AMZN haben. Insbesondere berücksichtigen wir, dass das autoregressive Modell nicht das Volatilitäts-Clustering berücksichtigt, was zu einer Clusterbildung der seriellen Korrelation in finanziellen Zeitreihen führt. Wenn wir die ARCH - und GARCH-Modelle in späteren Artikeln betrachten, werden wir dies berücksichtigen. Wenn wir kommen, um die volle Arima-Funktion in den nächsten Artikel verwenden, werden wir Vorhersagen der täglichen Log-Preis-Serie, um uns zu ermöglichen, Trading-Signale zu schaffen. SampP500 US Equity Index Zusammen mit einzelnen Aktien können wir auch den US Equity Index, den SampP500, berücksichtigen. Lets alle vorherigen Befehle zu dieser Serie und produzieren die Plots wie zuvor: Wir können die Preise: Wie zuvor, erstellen Sie auch die erste Ordnung Differenz der Log-Schlusskurse: Wieder einmal können wir die Serie plotten: Es ist klar Aus dieser Grafik, dass die Volatilität nicht in der Zeit stationär ist. Dies spiegelt sich auch in der Darstellung des Korrelogramms wider. Es gibt viele Peaks, einschließlich k1 und k2, die statistisch signifikant über ein weißes Rauschmodell hinausgehen. Darüber hinaus sehen wir Hinweise auf Langzeitgedächtnisprozesse, da es einige statistisch signifikante Peaks bei k16, k18 und k21 gibt: Letztlich benötigen wir ein komplexeres Modell als ein autoregressives Modell der Ordnung p. Allerdings können wir in diesem Stadium noch versuchen, ein solches Modell anzupassen. Wir sehen, was wir bekommen, wenn wir dies tun: Mit ar erzeugt ein AR (22) - Modell, dh ein Modell mit 22 Nicht-Null-Parametern Was bedeutet dies sagen uns Es ist bezeichnend, dass es wahrscheinlich viel mehr Komplexität in der seriellen Korrelation als Ein einfaches lineares Modell der vergangenen Preise kann wirklich erklären. Jedoch wussten wir dies bereits, weil wir sehen können, dass es eine signifikante serielle Korrelation in der Volatilität gibt. Betrachten wir zum Beispiel die sehr volatile Periode um 2008. Dies motiviert den nächsten Satz von Modellen, nämlich den Moving Average MA (q) und den autoregressiven Moving Average ARMA (p, q). Nun lernen Sie über diese beiden in Teil 2 dieses Artikels. Wie wir immer wieder erwähnen, werden diese letztlich zu der ARIMA - und GARCH-Modellfamilie führen, die beide eine viel bessere Anpassung an die serielle Korrelationskomplexität des Samp500 bieten. Dadurch können wir unsere Prognosen signifikant verbessern und letztendlich rentabler gestalten. Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Unterlassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Darüber hinaus kann diese Website erhalten finanzielle Entschädigung von den Unternehmen erwähnt durch Werbung, Affiliate-Programme oder auf andere Weise. Preise und Angebote von Inserenten auf dieser Website ändern sich häufig, manchmal ohne Vorankündigung. Während wir uns bemühen, rechtzeitige und genaue Informationen aufrechtzuerhalten, können Angebot Details veraltet sein. Besucher sollten daher die Bedingungen dieser Angebote vor der Teilnahme an ihnen überprüfen. Der Autor und sein Herausgeber haften nicht für die Aktualisierung der Informationen und haften nicht für Inhalte, Produkte und Dienstleistungen von Drittanbietern, auch wenn sie über Hyperlinks oder Anzeigen auf dieser Website aufgerufen werden.
No comments:
Post a Comment