Moving genomsnittet autokorrelation

Introduktion till ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser ekvation: ARIMA-modeller är i teorin den vanligaste klassen av modeller för prognoser för en tidsserie som kan göras för att vara 8220stationary8221 genom differentiering (om nödvändigt), kanske i samband med olinjära transformationer, såsom loggning eller avflöde (om nödvändigt). En slumpmässig variabel som är en tidsserie är stationär om dess statistiska egenskaper är konstanta över tiden. En stationär serie har ingen trend, dess variationer kring dess medelvärde har en konstant amplitud, och det vinklar på ett konsekvent sätt. d. v.s. dess kortsiktiga slumpmässiga tidsmönster ser alltid ut i statistisk mening. Det sistnämnda tillståndet betyder att dess autokorrelationer (korrelationer med sina egna tidigare avvikelser från medelvärdet) förblir konstanta över tiden, eller likvärdigt, att dess effektspektrum förblir konstant över tiden. En slumpmässig variabel i denna blankett kan ses som en kombination av signal och brus, och signalen (om en är uppenbar) kan vara ett mönster av snabb eller långsam mean reversion eller sinusformig oscillation eller snabb växling i tecken , och det kan också ha en säsongskomponent. En ARIMA-modell kan ses som en 8220filter8221 som försöker separera signalen från bruset, och signalen extrapoleras därefter i framtiden för att få prognoser. ARIMA-prognosekvationen för en stationär tidsserie är en linjär (d. v.s. regressionstyp) ekvation där prediktorerna består av lags av de beroende variabla andorlagren av prognosfel. Det vill säga: Förutsatt värdet på Y är en konstant och en viktad summa av ett eller flera nya värden av Y och eller en vägd summa av ett eller flera nya värden av felen. Om prediktorerna endast består av fördröjda värden på Y. Det är en ren autoregressiv (8220self-regressed8221) modell, som bara är ett speciellt fall av en regressionsmodell och som kan förses med standard regressionsprogram. Exempelvis är en första-order-autoregressiv (8220AR (1) 8221) modell för Y en enkel regressionsmodell där den oberoende variabeln bara Y är försenad med en period (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Om en del av prediktorerna är felaktiga, är en ARIMA-modell inte en linjär regressionsmodell, eftersom det inte går att ange 8220last period8217s error8221 som en oberoende variabel: felen måste beräknas periodvis när modellen är monterad på data. Tekniskt sett är problemet med att använda fördröjda fel som prediktorer att modellen8217s förutsägelser inte är linjära funktioner för koefficienterna. även om de är linjära funktioner i tidigare data. Så koefficienter i ARIMA-modeller som innehåller försenade fel måste uppskattas genom olinjära optimeringsmetoder (8220hill-climbing8221) istället för att bara lösa ett system av ekvationer. Akronymet ARIMA står för Auto-Regressive Integrated Moving Average. Lags av den stationära serien i prognosen ekvationen kallas quotautoregressivequot termer, lags av prognosfel kallas quotmoving averagequot termer och en tidsserie som behöver differentieras för att göras stationär sägs vara en quotintegratedquot-version av en stationär serie. Slumpmässiga och slumpmässiga modeller, autoregressiva modeller och exponentiella utjämningsmodeller är alla speciella fall av ARIMA-modeller. En nonseasonal ARIMA-modell klassificeras som en quotARIMA (p, d, q) kvotmodell där: p är antalet autoregressiva termer, d är antalet icke-säsongsskillnader som behövs för stationaritet och q är antalet fördröjda prognosfel i prediksionsekvationen. Prognosekvationen är konstruerad enligt följande. Först, låt y beteckna d: s skillnad på Y. Det betyder: Observera att den andra skillnaden i Y (d2-fallet) inte är skillnaden från 2 perioder sedan. Det är snarare den första skillnaden-av-första skillnaden. vilken är den diskreta analogen av ett andra derivat, dvs den lokala accelerationen av serien i stället för dess lokala trend. När det gäller y. Den allmänna prognostiseringsekvationen är: Här definieras de rörliga genomsnittsparametrarna (9528217s) så att deras tecken är negativa i ekvationen, enligt konventionen införd av Box och Jenkins. Vissa författare och programvara (inklusive R-programmeringsspråket) definierar dem så att de har plustecken istället. När faktiska siffror är anslutna till ekvationen finns det ingen tvetydighet, men det är viktigt att veta vilken konvention din programvara använder när du läser utmatningen. Ofta anges parametrarna av AR (1), AR (2), 8230 och MA (1), MA (2), 8230 etc. För att identifiera lämplig ARIMA-modell för Y. börjar du med att bestämma sorteringsordningen (d) behöver stationera serierna och ta bort säsongens bruttoegenskaper, kanske i kombination med en variationsstabiliserande transformation, såsom loggning eller avflöde. Om du slutar vid denna tidpunkt och förutsäger att den olika serien är konstant, har du bara monterat en slumpmässig promenad eller slumpmässig trendmodell. Den stationära serien kan emellertid fortfarande ha autokorrelerade fel, vilket tyder på att vissa antal AR-termer (p 8805 1) och eller några nummer MA-termer (q 8805 1) också behövs i prognosekvationen. Processen att bestämma värdena p, d och q som är bäst för en given tidsserie kommer att diskuteras i senare avsnitt av anteckningarna (vars länkar finns längst upp på denna sida), men en förhandsvisning av några av de typerna av nonseasonal ARIMA-modeller som vanligtvis förekommer ges nedan. ARIMA (1,0,0) första ordningens autoregressiva modell: Om serien är stationär och autokorrelerad kanske den kan förutsägas som en multipel av sitt eget tidigare värde plus en konstant. Prognosekvationen i detta fall är 8230, som Y är regresserad i sig själv fördröjd med en period. Detta är en 8220ARIMA (1,0,0) constant8221 modell. Om medelvärdet av Y är noll, skulle den konstanta termen inte inkluderas. Om lutningskoefficienten 981 1 är positiv och mindre än 1 i storleksordningen (den måste vara mindre än 1 i storleksordningen om Y är stillastående), beskriver modellen medelåterkallande beteende där nästa period8217s värde bör förutses vara 981 1 gånger som långt ifrån medelvärdet som detta period8217s värde. Om 981 1 är negativ förutspår det medelåterkallande beteende med teckenväxling, dvs det förutspår också att Y kommer att ligga under den genomsnittliga nästa perioden om den är över medelvärdet denna period. I en andra-ordningsautoregressiv modell (ARIMA (2,0,0)) skulle det finnas en Y t-2 term till höger också, och så vidare. Beroende på tecken och storheter på koefficienterna kan en ARIMA (2,0,0) modell beskriva ett system vars medföljande reversering sker på ett sinusformigt oscillerande sätt, som en massans rörelse på en fjäder som utsätts för slumpmässiga stötar . ARIMA (0,1,0) slumpmässig promenad: Om serien Y inte är stillastående är den enklaste möjliga modellen för en slumpmässig promenadmodell, vilken kan betraktas som ett begränsande fall av en AR (1) - modell där den autogegrativa koefficienten är lika med 1, dvs en serie med oändligt långsam medelbackning. Förutsägningsekvationen för denna modell kan skrivas som: där den konstanta termen är den genomsnittliga period-till-period-förändringen (dvs. den långsiktiga driften) i Y. Denna modell kan monteras som en icke-avlyssningsregressionsmodell där första skillnaden i Y är den beroende variabeln. Eftersom den innehåller (endast) en nonseasonal skillnad och en konstant term, klassificeras den som en quotARIMA (0,1,0) modell med constant. quot. Den slumpmässiga walk-without-drift-modellen skulle vara en ARIMA (0,1, 0) modell utan konstant ARIMA (1,1,0) annorlunda första ordningens autoregressiva modell: Om fel i en slumpmässig promenadmodell är autokorrelerade kanske problemet kan lösas genom att lägga en lag av den beroende variabeln till prediktionsekvationen - - ie genom att regressera den första skillnaden av Y på sig själv fördröjd med en period. Detta skulle ge följande förutsägelsesekvation: som kan omordnas till Detta är en första-orders autregressiv modell med en ordning av icke-säsongsskillnader och en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) utan konstant enkel exponentiell utjämning: En annan strategi för korrigering av autokorrelerade fel i en slumpmässig promenadmodell föreslås av den enkla exponentiella utjämningsmodellen. Minns att för några icke-stationära tidsserier (t ex de som uppvisar bullriga fluktuationer kring ett långsamt varierande medelvärde), utförs slumpmässiga promenadmodellen inte lika bra som ett glidande medelvärde av tidigare värden. Med andra ord, istället för att ta den senaste observationen som prognosen för nästa observation, är det bättre att använda ett genomsnitt av de sista observationerna för att filtrera bort bullret och mer exakt uppskatta det lokala medelvärdet. Den enkla exponentiella utjämningsmodellen använder ett exponentiellt vägt glidande medelvärde av tidigare värden för att uppnå denna effekt. Förutsägningsekvationen för den enkla exponentiella utjämningsmodellen kan skrivas i ett antal matematiskt ekvivalenta former. varav den ena är den så kallade 8220error correction8221-formen, där den föregående prognosen justeras i riktning mot det fel som det gjorde: Eftersom e t-1 Y t-1 - 374 t-1 per definition kan det skrivas om som : vilket är en ARIMA (0,1,1) - utan konstant prognosekvation med 952 1 1 - 945. Det innebär att du kan passa en enkel exponentiell utjämning genom att ange den som en ARIMA (0,1,1) modell utan konstant, och den uppskattade MA (1) - koefficienten motsvarar 1-minus-alfa i SES-formeln. Minns att i SES-modellen är den genomsnittliga åldern för data i prognoserna för 1-tiden framåt 1 945. Det betyder att de tenderar att ligga bakom trender eller vändpunkter med cirka 1 945 perioder. Det följer att den genomsnittliga åldern för data i de 1-prognos framåt av en ARIMA (0,1,1) utan konstant modell är 1 (1 - 952 1). Så, till exempel, om 952 1 0,8 är medelåldern 5. När 952 1 närmar sig 1 blir ARIMA (0,1,1) utan konstant modell ett mycket långsiktigt rörligt medelvärde och som 952 1 närmar sig 0 blir det en slumpmässig promenad utan driftmodell. What8217s det bästa sättet att korrigera för autokorrelation: Lägga till AR-termer eller lägga till MA-termer I de tidigare två modellerna som diskuterats ovan fixades problemet med autokorrelerade fel i en slumpmässig promenadmodell på två olika sätt: genom att lägga till ett fördröjt värde av de olika serierna till ekvationen eller lägga till ett fördröjt värde av prognosfelet. Vilket tillvägagångssätt är bäst En tumregel för denna situation, som kommer att diskuteras mer i detalj senare, är att positiv autokorrelation vanligtvis behandlas bäst genom att addera en AR-term till modellen och negativ autokorrelation behandlas vanligtvis bäst genom att lägga till en MA term. I affärs - och ekonomiska tidsserier uppstår negativ autokorrelation ofta som en artefakt av differentiering. (I allmänhet minskar differentieringen positiv autokorrelation och kan även orsaka en växling från positiv till negativ autokorrelation.) Således används ARIMA (0,1,1) - modellen, i vilken skillnad åtföljs av en MA-term, oftare än en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel exponentiell utjämning med tillväxt: Genom att implementera SES-modellen som en ARIMA-modell får du viss flexibilitet. För det första får den uppskattade MA (1) - koefficienten vara negativ. Detta motsvarar en utjämningsfaktor som är större än 1 i en SES-modell, vilket vanligtvis inte är tillåtet med SES-modellproceduren. För det andra har du möjlighet att inkludera en konstant term i ARIMA-modellen om du vill, för att uppskatta en genomsnittlig trendfri noll. ARIMA-modellen (0,1,1) med konstant har förutsägelsesekvationen: Prognoserna från den här modellen är kvalitativt likartade som i SES-modellen, förutom att banan för de långsiktiga prognoserna typiskt är en sluttande linje (vars lutning är lika med mu) snarare än en horisontell linje. ARIMA (0,2,1) eller (0,2,2) utan konstant linjär exponentiell utjämning: Linjära exponentiella utjämningsmodeller är ARIMA-modeller som använder två icke-säsongsskillnader i samband med MA-termer. Den andra skillnaden i en serie Y är inte bara skillnaden mellan Y och sig själv i två perioder, men det är snarare den första skillnaden i den första skillnaden, dvs. Y-förändringen i Y vid period t. Således är den andra skillnaden av Y vid period t lika med (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En andra skillnad av en diskret funktion är analog med ett andra derivat av en kontinuerlig funktion: det mäter kvotccelerationquot eller quotcurvaturequot i funktionen vid en given tidpunkt. ARIMA-modellen (0,2,2) utan konstant förutspår att den andra skillnaden i serien motsvarar en linjär funktion av de två sista prognosfel: som kan omordnas som: där 952 1 och 952 2 är MA (1) och MA (2) koefficienter. Detta är en generell linjär exponentiell utjämningsmodell. väsentligen samma som Holt8217s modell, och Brown8217s modell är ett speciellt fall. Den använder exponentiellt vägda glidande medelvärden för att uppskatta både en lokal nivå och en lokal trend i serien. De långsiktiga prognoserna från denna modell konvergerar till en rak linje vars lutning beror på den genomsnittliga trenden som observerats mot slutet av serien. ARIMA (1,1,2) utan konstant dämpad trend linjär exponentiell utjämning. Denna modell illustreras i de bifogade bilderna på ARIMA-modellerna. Den extrapolerar den lokala trenden i slutet av serien men plattar ut på längre prognoshorisonter för att presentera en konservatismskampanj, en övning som har empiriskt stöd. Se artikeln om varför Damped Trend worksquot av Gardner och McKenzie och artikeln "Rulequot Rulequot" av Armstrong et al. för detaljer. Det är i allmänhet lämpligt att hålla fast vid modeller där minst en av p och q inte är större än 1, dvs försök inte passa en modell som ARIMA (2,1,2), eftersom det här sannolikt kommer att leda till övermontering och quotcommon-factorquot-problem som diskuteras närmare i noterna om den matematiska strukturen för ARIMA-modeller. Implementering av kalkylark: ARIMA-modeller som de som beskrivs ovan är enkla att implementera på ett kalkylblad. Förutsägningsekvationen är helt enkelt en linjär ekvation som refererar till tidigare värden av ursprungliga tidsserier och tidigare värden av felen. Således kan du ställa in ett ARIMA-prognoskalkylblad genom att lagra data i kolumn A, prognosformeln i kolumn B och felen (data minus prognoser) i kolumn C. Förutsättningsformeln i en typisk cell i kolumn B skulle helt enkelt vara ett linjärt uttryck som hänvisar till värden i föregående rader av kolumnerna A och C multiplicerat med lämpliga AR - eller MA-koefficienter lagrade i celler på annat håll på kalkylbladet. Steg vid val av en prognosmodell Din prognosmodell ska innehålla funktioner som tar upp alla viktiga kvalitativa egenskaper av data: variationer i nivå och trend, effekter av inflation och säsonglighet, korrelationer mellan variabler etc. Vidare bör antagandena som ligger till grund för din valda modell överensstämma med din intuition om hur serien ser ut att bete sig i framtiden. När du använder en prognosmodell har du några av följande alternativ: Dessa alternativ beskrivs kortfattat nedan. Se den medföljande prognosflödesdiagrammet för en bildvy av modellspecifikationsprocessen och hänvisa till panelet Statgraphics Model Specification för att se hur modellfunktionerna väljs i programvaran. Deflation Om serien visar inflationstakt, kommer deflationen att bidra till att ta hänsyn till tillväxtmönstret och minska heteroscedasticiteten i rester. Du kan antingen (i) deflatera tidigare data och återuppliva de långsiktiga prognoserna med en konstant antagen takt, eller (ii) deflatera tidigare data med ett prisindex som KPI, och sedan kvotera de långsiktiga prognoserna en prognos av prisindexet. Alternativet (i) är det enklaste. I Excel kan du bara skapa en kolumn med formler för att dela upp de ursprungliga värdena med lämpliga faktorer. Om data till exempel är månadsvis och du vill deflera med en hastighet av 5 per 12 månader, skulle du dela med en faktor (1.05) (k12) där k är radindex (observationsnummer). RegressIt och Statgraphics har inbyggda verktyg som gör det automatiskt för dig. Om du går den här vägen är det oftast bäst att ställa in den antagna inflationen lika med din bästa uppskattning av nuvarande kurs, speciellt om du kommer att förutse mer än en period framåt. Om du istället väljer alternativ (ii) måste du först spara deflaterade prognoserna och konfidensgränserna i ditt datakalkylblad och sedan generera och spara en prognos för prisindex och slutligen multiplicera lämpliga kolumner tillsammans. (Återgå till början av sidan.) Logaritmtransformation Om serien visar sammansatt tillväxt och ett multiplicativt säsongsmönster kan en logaritmomvandling vara till hjälp förutom eller istället för deflation. Att logga in data kommer inte att platta ett inflationsmönster, men det kommer att räta ut det så att det kan monteras av en linjär modell (t. ex. en slumpmässig promenad eller ARIMA-modell med konstant tillväxt eller en linjär exponentiell utjämningsmodell). Dessutom kommer loggning att konvertera multiplicativa säsongsmönster till tillsatsmönster, så att om du utför säsongsjustering efter loggning bör du använda additivtypen. Logging handlar om inflation på ett implicit sätt om du vill att inflationen ska modelleras explicit - dvs. Om du vill att inflationstakten ska vara en synlig parameter för modellen eller om du vill se plott av deflaterad data - så ska du deflera i stället för att logga. En annan viktig användning för logtransformationen är att linearisera relationerna mellan variabler i ett regressionsläge l. Om till exempel den beroende variabeln är en multiplicativ snarare än additiv funktion av de oberoende variablerna, eller om förhållandet mellan beroende och oberoende variabler är linjär i termer av procentuella förändringar snarare än absoluta förändringar, applicerar sedan en logtransformation till en eller flera variabler kan vara lämpligt, som i ölförsäljningsexemplet. (Återgå till början av sidan.) Säsongsjustering Om serien har ett starkt säsongsmönster som tros vara konstant från år till år kan säsongsjustering vara ett lämpligt sätt att uppskatta och extrapolera mönstret. Fördelen med säsongjustering är att den modellerar säsongsmönstret explicit, vilket ger dig möjlighet att studera säsongsindex och säsongrensade data. Nackdelen är att det kräver uppskattning av ett stort antal ytterligare parametrar (speciellt för månadsdata) och det ger ingen teoretisk motivering för beräkningen av kvotintervallintervallintervall. Validering av urvalet är särskilt viktigt för att minska risken för övermontering av tidigare data genom säsongsjustering. Om data är starkt säsong men du inte väljer säsongjustering, är alternativen att antingen (i) använda en säsongsbetonad ARIMA-modell. som implicit förutser säsongsmönstret med säsongsskikt och skillnader, eller (ii) använder Winters säsongsmässiga exponentiella utjämningsmodell, som uppskattar tidsvarierande säsongsindex. (Återgå till början av sidan.) QuotIndependentquot variabler Om det finns andra tidsserier som du tror har förklarande kraft i förhållande till din serie av intresse (t. ex. ledande ekonomiska indikatorer eller policyvariabler som pris, annonsering, kampanjer, etc.) kan önska att överväga regression som din modelltyp. Oavsett huruvida du väljer regression, behöver du fortfarande överväga de möjligheter som nämns ovan för att omvandla dina variabler (deflation, logg, säsongsjustering - och kanske också differentiering) för att utnyttja tidsdimensionen och eller linearisera relationerna. Även om du inte väljer regression vid denna tidpunkt kanske du vill överväga att lägga till regressorer senare till en tidsseriemodell (t ex en ARIMA-modell) om resterna visar sig ha signifikanta korskorrelationer med andra variabler. (Återgå till början av sidan.) Utjämning, medelvärde eller slumpmässig promenad Om du har valt att säsongsmässigt justera uppgifterna - eller om uppgifterna inte är säsongsmässiga att börja med - kanske du vill använda en medelvärdes - eller utjämningsmodell till passa det nonseasonal mönstret som förblir i data vid denna punkt. Ett enkelt glidande medelvärde eller en enkel exponentiell utjämningsmodell beräknar endast ett lokalt medelvärde i slutet av serien, under antagandet att detta är den bästa uppskattningen av det nuvarande medelvärdet kring vilket data varierar. (Dessa modeller antar att seriens medelvärde varierar långsamt och slumpmässigt utan ihållande trender.) Enkel exponentiell utjämning föredras normalt för ett enkelt glidande medelvärde, eftersom dess exponentiellt viktade medel gör ett mer förnuftigt jobb att diskontera de äldre dataen, eftersom dess utjämningsparametern (alfa) är kontinuerlig och kan lätt optimeras och eftersom den har en underliggande teoretisk grund för beräkning av konfidensintervaller. Om utjämning eller medelvärde inte verkar vara till hjälp - det vill säga. om den bästa predikanten för nästa värde av tidsserierna helt enkelt är dess tidigare värde - så anges en slumpmässig promenadmodell. Detta gäller exempelvis om det optimala antalet villkor i det enkla glidande medlet visar sig vara 1, eller om det optimala värdet av alfa i enkel exponentiell utjämning visar sig vara 0.9999. Browns linjär exponentiell utjämning kan användas för att passa en serie med långsamt tidsvarierande linjära trender, men var försiktig med att extrapolera sådana trender långt in i framtiden. (Den snabbt bredda konfidensintervallet för denna modell berättar för sin osäkerhet om den avlägsna framtiden.) Hålen linjär utjämning uppskattar också tidsvarierande trender men använder separata parametrar för utjämning av nivå och trend vilket vanligtvis ger bättre passform till data än Brown8217s modell. Q-exponentialutjämning försöker uppskatta tidsvarierande kvadratiska trender och bör praktiskt taget aldrig användas. (Detta skulle motsvara en ARIMA-modell med tre ordningar av nonseasonal differencing.) Linjär exponentiell utjämning med en dämpad trend (dvs en trend som plattar ut på avlägsna horisonter) rekommenderas ofta i situationer där framtiden är mycket osäker. De olika exponentiella utjämningsmodellerna är speciella fall av ARIMA-modeller (beskrivs nedan) och kan förses med ARIMA-programvara. I synnerhet är den enkla exponentiella utjämningsmodellen en ARIMA-modell (0,1,1). Holt8217s linjär utjämningsmodell är en ARIMA-modell (0,2,2) och den dämpade trendmodellen är en ARIMA (1,1,2 ) modell. En bra sammanfattning av ekvationerna för de olika exponentiella utjämningsmodellerna finns på denna sida på SAS webbplats. (SAS-menyerna för att specificera tidsseriemodeller visas också där de är liknande dem i Statgraphics.) Lineära, kvadratiska eller exponentiella trendlinjemodeller är andra alternativ för extrapolering av en deseasonaliserad serie, men de sällan överträffar slumpmässig promenad, utjämning eller ARIMA modeller på affärsdata. (Återgå till början av sidan.) Vintrar Säsongens exponentiala utjämning Vintrar Säsongsutjämning är en förlängning av exponentiell utjämning som samtidigt uppskattar tidsvarierande nivå-, trend - och säsongsfaktorer med rekursiva ekvationer. (Således, om du använder den här modellen, skulle du inte säsongsmässigt justera uppgifterna.) Winters säsongsfaktorer kan vara antingen multiplikativa eller tillsatser: normalt bör du välja multiplikativalternativ om du inte har loggat in data. Även om Winters-modellen är smart och rimligt intuitiv, kan det vara svårt att tillämpa i praktiken: det har tre utjämningsparametrar - alfa, beta och gamma - för att separat stryka nivå-, trend - och säsongsfaktorer som måste beräknas samtidigt. Bestämning av startvärden för säsongsindex kan göras genom att tillämpa förhållande till rörlig genomsnittsmetod för säsongsjustering till del eller hela serien andor genom backforecasting. Den uppskattningsalgoritm som Statgraphics använder för dessa parametrar misslyckas med att konvergera andor ger värden som ger bizarre prognoser och konfidensintervall, så jag rekommenderar försiktighet vid användning av denna modell. (Återgå till början av sidan.) ARIMA Om du inte väljer säsongsjustering (eller om uppgifterna är säsongsbetonade) kan du använda ARIMA-modellramen. ARIMA-modeller är en väldigt generell klass av modeller som inkluderar slumpmässig promenad, slumpmässig trend, exponentiell utjämning och autoregressiva modeller som speciella fall. Den konventionella visdomen är att en serie är en bra kandidat för en ARIMA-modell om (i) den kan stationeras genom en kombination av differentiering och andra matematiska omvandlingar som loggning, och (ii) du har en stor mängd data att arbeta med : minst 4 hela säsonger vid säsongsdata. (Om serierna inte kan skrivas tillräckligt efter varandra - t. ex. om det är mycket oregelbundet eller verkar kvalitativt ändra sitt beteende över tiden - eller om du har färre än 4 säsonger av data, kanske du är bättre med en modell som använder säsongsjustering och någon form av enkel medelvärde eller utjämning.) ARIMA-modeller har en särskild namngivningskonvention införd av Box och Jenkins. En nonseasonal ARIMA-modell klassificeras som en ARIMA-modell (p, d, q), där d är antalet icke-säsongsskillnader, p är antalet autoregressiva termer (lags av den olika serien) och q är antalet rörelse - medelvärden (lags av prognosfel) i prediksionsekvationen. En säsongsbetonad ARIMA-modell klassificeras som en ARIMA (p, d, q) x (P, D, Q). där D, P och Q är respektive antal säsongsskillnader, säsongsmässiga autoregressiva termer (lags av de olika serierna vid årstidens multiplar) och säsongsmässiga glidande medelvärden (lags av prognosfelen vid flera gånger av säsongsperioden period). Det första steget i montering av en ARIMA-modell är att bestämma lämplig ordning för differentiering som behövs för att stationera serierna och ta bort säsongens bruttoegenskaper. Detta motsvarar att bestämma vilken kvotväggen eller slumpmässig trendmodell som ger den bästa utgångspunkten. Försök inte använda mer än 2 totala orderingångar (ej säsongsbetonade och säsongsbundna) och använd inte mer än 1 säsongsskillnad. Det andra steget är att bestämma om en konstant term ska inkluderas i modellen. Vanligtvis ingår en konstant term om den totala sorteringsordningen är 1 eller mindre, annars gör du det inte. I en modell med en ordning av differentiering representerar den konstanta termen den genomsnittliga trenden i prognoserna. I en modell med två order av differentiering bestäms trenden i prognoserna av den lokala trenden som observerades i slutet av tidsserierna och den konstanta termen representerar trend-i-trenden, dvs krökningen i den långsiktiga siktprognoser. Normalt är det farligt att extrapolera trender i trender, så du undertrycker kontanterna i det här fallet. Det tredje steget är att välja antal autogegressiva och rörliga genomsnittsparametrar (p, d, q, P, D, Q) som behövs för att eliminera autokorrelation som kvarstår i de naiva modellernas residualer (dvs någon korrelation som kvarstår efter bara differentiering). Dessa siffror bestämmer antalet lags av de olika serierna ochor-lagsna av prognosfel som ingår i prognosförhållandet. Om det inte finns någon signifikant autokorrelation i resterna vid denna punkt, då STOP, du är klar: den bästa modellen är en naiv modell. Om det finns signifikant autokorrelation vid lags 1 eller 2, bör du försöka ställa in q1 om något av följande gäller: ( i) det finns en oväsentlig skillnad i modellen, (ii) autokorrelationen för lag 1 är negativ. andor (iii) restautokorrelationsplotten är renare (färre, mer isolerade spikar) än den återstående partiella autokorrelationsplotten. Om det inte finns någon säsongsbetonad skillnad i modellen och är lag 1-autokorrelationen positiv och den resterande partiella autokorrelationsplotten ser renare ut, försök sedan p1. (Ibland strider dessa regler för att välja mellan p1 och q1, i vilket fall det förmodligen inte gör stor skillnad, vilken du använder. Försök dem båda och jämför.) Om det finns autokorrelation vid lag 2 som inte tas bort genom att ställa in p1 eller q1 kan du försöka p2 eller q2, eller ibland p1 och q1. Sällan kan du stöta på situationer där p2 eller 3 och q1, eller vice versa, ger de bästa resultaten. Det rekommenderas starkt att du inte använder pgt1 och qgt1 i samma modell. I allmänhet bör du, när du monterar ARIMA-modeller, undvika att öka modellkomplexiteten för att endast få små ytterligare förbättringar i felstatistiken eller utseendet på ACF - och PACF-diagrammen. Också i en modell med både pgt1 och qgt1 finns det en bra möjlighet till redundans och icke-unikhet mellan AR - och MA-sidorna av modellen, vilket förklaras i anteckningarna om den matematiska strukturen för ARIMA-modellen s. Det är oftast bättre att gå framåt stegvis i stället för bakåt stegvis när man anpassar modellspecifikationerna: Börja med enklare modeller och lägg bara till fler villkor om det finns ett tydligt behov. Samma regler gäller för antalet säsongsmässiga autoregressiva termer (P) och antalet säsongsrörliga medelvärden (Q) med avseende på autokorrelation under säsongsperioden (t ex lag 12 för månadsdata). Försök Q1 om det redan finns en säsongsskillnad i modellen och om säsongens autokorrelation är negativ och om den resterande autokorrelationsplotten ser renare ut i närheten av säsongslagret, annars försök P1. (Om det är logiskt för serierna att visa stark säsong, måste du använda en säsongsskillnad, annars kommer säsongsmönstret att blekna ut när du gör långsiktiga prognoser.) Ibland kanske du vill prova P2 och Q0 eller vice v ersa, eller PQ1. Det rekommenderas dock starkt att PQ aldrig borde vara större än 2. Säsongsmönster har sällan den perfekta regelbundenheten under ett tillräckligt stort antal årstider som skulle göra det möjligt att på ett pålitligt sätt identifiera och uppskatta många parametrar. Även den backforecasting-algoritm som används i parameteruppskattning kommer sannolikt att ge opålitliga (eller till och med galen) resultat när antalet årstider inte är signifikant större än PDQ. Jag skulle rekommendera inte mindre än PDQ2 hela årstider, och mer är bättre. Återigen, när du monterar ARIMA-modeller, bör du vara försiktig med att undvika övermontering av data trots att det kan vara mycket roligt när du hänger med det. Viktiga speciella fall: Som noterats ovan är en ARIMA (0,1,1) modell utan konstant identisk med en enkel exponentiell utjämningsmodell, och antar en flytande nivå (dvs ingen genomsnittlig reversering) men med noll långsiktig trend. En ARIMA (0,1,1) modell med konstant är en enkel exponentiell utjämningsmodell med en icke-linjär trendmängd som ingår. En ARIMA (0,2,1) eller (0,2,2) modell utan konstant är en linjär exponentiell utjämningsmodell som möjliggör en tidsvarierande trend. En ARIMA (1,1,2) modell utan konstant är en linjär exponentiell utjämningsmodell med dämpad trend, det vill säga en trend som i slutänden plattar ut i längre siktprognoser. De vanligaste säsongsmässiga ARIMA-modellerna är ARIMA-modellen (0,1,1) x (0,1,1) utan konstant och ARIMA (1,0,1) x (0,1,1) modell med konstant. Den förstnämnda av dessa modeller tillämpar i grunden exponentiell utjämning till både nonseasonal och säsongsmässiga komponenter i mönstret i data samtidigt som en tidsvarierande trend tillåts och den senare modellen är något liknande men förutsätter en konstant linjär trend och därför lite mer lång förutsägbarhet. Du bör alltid inkludera dessa två modeller bland din grupp av misstänkta när du monterar data med konsekvent säsongsmönster. En av dem (kanske med en mindre variation som ökar p eller q med 1 andor inställning P1 samt Q1) är ganska ofta det bästa. (Gå tillbaka till början av sidan.) GEOS 585A, Applied Time Series Analysis Telefon: (520) 621-3457 Fax: (520) 621-8229 Kontortid Fredag, 1: 00-6: 00 PM Kursbeskrivning Analysverktyg i tid - och frekvensdomänerna introduceras i samband med provtidsserier. Jag använder en dataset för provtidsserier för att illustrera metoder och ändra dataset varje termin som kursen erbjuds. I år kommer provdatasetet från ett NSF-projekt om snäckpacksvariationer i American River Basin of California. Denna dataset innehåller trädringskronologier, klimatindex, strömflödesregistreringar och tidsserier snövattenekvivalenter mätta vid snöbanestationer. Du kommer att montera dina egna tidsserier för användning i kursen. Dessa kan vara från ditt eget forskningsprojekt. Tillbaka till början av sidan Detta är en introduktionskurs, med tonvikt på praktiska aspekter av tidsserieanalys. Metoder införs hierarkiskt - börjar med terminologi och utforskande grafik, flyttar till beskrivande statistik och slutar med grundläggande modelleringsförfaranden. Ämnen inkluderar avskräckande, filtrering, autoregressiv modellering, spektralanalys och regression. Du spenderar de första två veckorna på att installera Matlab på din bärbara dator, få en grundläggande introduktion till Matlab och montera din dataset för tidsserier för kursen. Tolv ämnen, eller lektioner är då täckta, varje tilldelas en vecka eller två klassperioder. Tolv klassuppdrag följer med ämnena. Uppdrag består av att tillämpa metoder genom att köra förskrivna Matlab-skript (program) på din tidsserie och tolka resultaten. Kursen är 3 poäng för studenter på campus vid University of Arizona i Tucson, och 1 poäng för online studenter. Eventuella tidsserier med konstant tidstegring (t ex dag, månad, år) är en kandidat för användning i kursen. Exempel är dagliga nederbördsmätningar, säsongens totala strömflöde, sommarvärdet av lufttemperaturen, årliga index för trädtillväxt, index över havetytemperaturen och den dagliga höjden av en buske. Som ett resultat av kursen bör du: förstå grundläggande tidsserier och terminologi kunna välja tidsseriemetoder som är lämpliga för att målen ska kunna kritiskt utvärdera den vetenskapliga litteraturen som tillämpar de behandlade tidsseriemetoderna, har förbättrat förståelse för tidsserieegenskaper hos din egen databas kan kortfattat sammanfatta resultaten av tidsserieanalysen skriftligen. Förkunskaper En introduktionsstatistik. Tillgång till en bärbar dator som kan ha Matlab installerad på den. Tillstånd från instruktören (akademiker och online studenter) Övriga krav Om du är på universitetet i Arizona (UA) - student på campus i Tucson, har du tillgång till Matlab och nödvändiga verktygslådor genom en UA-webbplatslicens som ingen kostnadssoftware. Ingen tidigare erfarenhet av Matlab krävs, och datorprogrammering ingår inte i kursen. Om du är online, inte på campus vid UA, kommer du att kunna ta kursen under våren 2017 som en iCourse. Du måste se till att du har tillgång till Matlab och de nödvändiga verktygslådorna (se nedan) på din plats. Tillgång till internet. Det finns ingen pappersutbyte i kursen. Anteckningar och uppdrag utbyts elektroniskt och slutförda uppgifter skickas elektroniskt genom University of Arizona Desire2Learn (D2L) - systemet. Matlab-versionen. Jag uppdaterar skript och funktioner då och då med den nuvarande webbplatslicensutgåvan av Matlab, och uppdateringarna kan använda Matlab-funktioner som inte är tillgängliga i tidigare Matlab-utgåvor. För 2017 använder jag Matlab Version 9.1.0.441655 (R2016b). Om du använder en tidigare version, se till att det är Matlab Release 2007b eller högre. Utöver det huvudsakliga Matlab-paketet används fyra verktygslådor: Statistik, Signalbehandling, Systemidentifikation och antingen Spline (Matlab Release 2010a eller tidigare), eller Kurvmontering (Matlab Release 2010b eller senare) Tillgänglighet Kursen erbjuds under vårterminen vartannat år (2015, 2017, etc.). Det är öppet för doktorander och kan också tas av studenter med behörighet från läraren. Inskrivning av inhemska UA-studenter är begränsad till 18 för vårterminen 2017. Ett litet antal online studenter har vanligtvis också inkvarterats genom att erbjuda kursen på olika sätt. Vägen är nu den iCourse-plats som beskrivs ovan. Tillbaka till början av sidan Kursplan (lektioner) Schemat tillåter typiskt ungefär två veckor för att samla in data och bli bekant med Matlab. Sedan ägnas åt en vecka (två klassperioder) till var och en av de 12 lektionerna eller ämnena. Klassen möts tisdag och torsdag. Ett nytt ämne introduceras på tisdag och fortsätter på följande torsdag. Torsdagsklassen slutar med en uppgift och en demonstration av att man kör skriptet på mina provdata. Uppdraget är förfallet (måste laddas upp av dig till D2L) före klassen följande tisdag. Den första 12 timmen för den tisdagsklassen används för guidad självbedömning och betygsättning av uppgiften och uppladdning av bedömda (betygsatta) uppdrag till D2L. De återstående 45 minuterna används för att introducera nästa ämne. Du måste ta med din bärbara dator till tisdag på tisdag. De 12 lektioner eller ämnen som ingår i kursen finns i klassens disposition. Online-studenter förväntas följa samma schema för inlämning av uppdrag som bosatta studenter, men har inte tillgång till föreläsningarna. Inlämnade uppdrag av online studenter är inte självbedömda, men betygsätts av mig. Online-studenter ska ha tillgång till D2L för inlämning av uppdrag. Vår 2017 semester. Klass möts två gånger i veckan i 75 minuters sessioner, 9: 00-10: 15 TTh, i rum 424 (Konferensrum) Bryant Bannister Tree-Ring Building (byggnad 45B). Klassens första dag är jan 12 (torsdag). Den sista dagen i klassen är 2 maj (tis). Det finns ingen klass under veckoslutet på våren (mar 11-19). Du analyserar data som du själv väljer i klassuppgifterna. Som anges i kursöversikten. Det finns mycket flexibilitet i valet av tidsserier. Jag kommer att göra en katalog över lämpliga tidsserier som finns tillgängliga, men det är bäst att fokusera kursen på din egen dataset. Den första uppgiften innebär att man kör ett skript som lagrar data och metadata som du har samlat i matfilen, det ursprungliga formatet för Matlab. Efterföljande uppdrag ritar data från matfilen för analys av tidsserier. Uppdrag De 12 ämnena behandlas sekventiellt under terminperioden, vilket omfattar cirka 15 veckor. Om de första två veckorna (4-5 klassmöten) används för inledande material, besluta om och samla dina tidsserier och klara Matlab på din bärbara dator. Varje vecka efter det ägnas åt en av de 12 kursämnena. Varje uppgift består av att läsa ett kapitel med anteckningar, som kör ett associerat Matlab-skript som tillämpar valda metoder för tidsserieanalys till dina data och skriver upp din tolkning av resultaten. Uppdrag kräver förståelse av föreläsningsämnen samt förmåga att använda datorn och programvaran. Du skickar upp uppdrag genom att ladda upp dem till D2L före tisdagskursen när nästa ämne introduceras. Den första halvtimmen av den tisdagsklassen används för guidad självbedömning av uppdraget, inklusive uppladdning av självbestämda pdfs till D2L. Jag kontrollerar en eller flera av de självbestämda uppdragen varje vecka (med slumpmässigt urval) och kan ändra betyget. För att få reda på hur du får tillgång till uppdrag klickar du på tilldelningsfiler. Läsningarna består av klassnoteringar. Det finns tolv uppsättningar av. pdf noterfiler. en för varje kursämne. Dessa. pdf-filer kan nås via webben. Mer information om de olika ämnena som ingår i kursen kan hittas genom referenser listade i slutet av varje kapitel i klassnoteringar. Betygsättningen baseras helt på prestanda på uppdragen, varav 10 poäng är värda. Det finns inga tentor. Det totala antalet möjliga poäng för de 12 ämnena är 12 x 10 120. En betyg av A kräver 90-100 procent av de möjliga poängen. En grad av B kräver 80-90 procent. En grad av C kräver 70-80 procent, och så vidare. Karaktererna tilldelas genom självbedömning med hjälp av en rubrik som presenteras i klassen. Antalet poäng som uppnåtts ska markeras längst upp i varje betygsuppgift. Din uppdelning av uppdraget ska innehålla en anteckning av eventuella markdowns med hänvisning till rubrikpunkten som visas i klassen (t ex -0,5, rp3 anger avdrag på -0,5 på grund av ett fel relaterat till rubrik 3). Uppgifter som ges i klassen på torsdag kommer att beräknas (laddas upp till D2L av dig) före början av klassen följande tisdag. Den första halvtimmen för tisdagens mötesperiod kommer att ägnas åt att presentera en betygs rubrik, självbedömning av färdiga uppdrag och uppladdning av självbestämda uppdrag till D2L. Detta schema ger dig 4 dagar att slutföra och ladda upp uppdraget till D2L före 9:00 på tisdag. D2L håller reda på vilken tid uppgiften har laddats upp och ingen straff bedöms så länge den laddas upp före 9:00 på tisdag på förfallodagen. Om du har något planerat behov av att vara borta från klassen (t ex närvaro på en konferens) är du ansvarig för att ladda upp ditt uppdrag före kl. 9.00 tisdagen förfaller och för att ladda upp den självklassade versionen kl. 10:15 samma dag. Med andra ord är schemat detsamma som för de elever som är i klassen. Om en nödsituation uppkommer (t ex får du influensan) och kan inte göra uppdraget eller bedömningen i schema, skicka mig ett mail och vi kommer att nå vissa boende. Annars kommer ett straff på 5 poäng (hälften av de totala tillgängliga poängen för övningen) att bedömas. Introduktion till tidsserier som organiserar data för analys En tidsserie definieras i stort sett som vilken serie mätningar som tas vid olika tidpunkter. Några grundläggande beskrivande kategorier av tidsserier är 1) långa vs korta, 2) jämnt tids-steg mot ojämnt tidssteg, 3) diskret vs kontinuerlig, 4) periodisk mot aperiodisk, 5) stationär vs icke-stationär och 6) univariate vs multivariate . Dessa egenskaper samt den tidsmässiga överlappningen av flera serier måste beaktas vid val av en dataset för analys i denna kurs. Du kommer att analysera dina egna tidsserier i kursen. De första stegen är att välja de här serierna och lagra dem i strukturer i en matfil. Uniformitet i lagring i början är lämplig för den här klassen, så att uppmärksamhet sedan kan inriktas på att förstå tidsserie metoder snarare felsökning av datorkod för att klara data för analys. En struktur är en Matlab-variabel som liknar en databas genom att innehållet nås av textfältindikatorer. En struktur kan lagra data av olika former. Ett fält kan till exempel vara en numerisk tidsseriematris, en annan kan vara text som beskriver datakällan etc. I den första uppgiften kör du ett Matlab-skript som läser dina tidsserier och metadata från ascii-textfiler som du förbereder i förväg och lagrar data i Matlab-strukturer i en enda matfil. I efterföljande uppdrag kommer du att tillämpa tidsseriemetoder på data genom att köra Matlab-skript och funktioner som laddar matfilen och fungerar på dessa strukturer. Välj provdata som ska användas för uppdrag under kursen Läs: (1) Notes1.pdf, (2) Komma igång, tillgänglig från MATLABs hjälpmeny Svar: Kör script geosa1.m och svara på frågor som anges i filen i a1.pdf Så här skiljer du kategorierna av tidsserier Så här startar och avslutar du MATLAB Hur man skriver in MATLAB-kommandon vid kommandotolk Hur man skapar siffror i bildfönstret Så här exporterar du siffror till din ordbehandlare Skillnaden mellan MATLAB-skript och funktioner Så här kör du skript och funktioner form av en MATLAB-strukturvariabel Så här applicerar man skriptet geosa1.m för att få en uppsättning tidsserier och metadata i MATLAB-strukturer Sandsynlighetsfördelningen av en tidsserie beskriver sannolikheten för att en observation faller i ett visst värdeområde. En empirisk sannolikhetsfördelning för en tidsserie kan nås genom att sortera och rangordna seriens värden. Quantiler och percentiler är användbar statistik som kan tas direkt från den empiriska sannolikhetsfördelningen. Många parametriska statistiska tester förutsätter att tidsserien är ett prov från en population med en viss befolknings sannolikhetsfördelning. Ofta antas befolkningen vara normal. I det här kapitlet presenteras några grundläggande definitioner, statistik och tomter relaterade till sannolikhetsfördelningen. Dessutom introduceras ett test (Lilliefors test) för att testa om ett prov kommer från en normal fördelning med ospecificerat medelvärde och varians. Svar: Kör skript geosa2.m och svara på frågor som anges i filen i a2.pdf Definitioner av termer: tidsserie, stationäritet, sannolikhetstäthet, fördelningsfunktion, kvantil, spridning, plats, medelvärde, standardavvikelse och skew. Hur tolkar man mest värdefulla grafiska i tidsserieanalysen - tidsseriens plot Hur man tolkar lådans plot, histogram och normal sannolikhetsdiagram Parametrar och form av normalfördelningen Lilliefors test för normalitet: grafisk beskrivning, antaganden, null och alternativa hypoteser Hälsa på tolkning av significance levels of statistical tests when time series not random in time How to apply geosa2.m to check the distribution properties of a time series and test the series for normality Autocorrelation refers to the correlation of a time series with its own past and future values. Autocorrelation is also sometimes called lagged correlation or serial correlation . which refers to the correlation between members of a series of numbers arranged in time. Positive autocorrelation might be considered a specific form of persistence . a tendency for a system to remain in the same state from one observation to the next. For example, the likelihood of tomorrow being rainy is greater if today is rainy than if today is dry. Geophysical time series are frequently autocorrelated because of inertia or carryover processes in the physical system. For example, the slowly evolving and moving low pressure systems in the atmosphere might impart persistence to daily rainfall. Or the slow drainage of groundwater reserves might impart correlation to successive annual flows of a river. Or stored photosynthates might impart correlation to successive annual values of tree-ring indices. Autocorrelation complicates the application of statistical tests by reducing the number of independent observations. Autocorrelation can also complicate the identification of significant covariance or correlation between time series (e. g. precipitation with a tree-ring series). Autocorrelation can be exploited for predictions: an autocorrelated time series is predictable, probabilistically, because future values depend on current and past values. Three tools for assessing the autocorrelation of a time series are (1) the time series plot, (2) the lagged scatterplot, and (3) the autocorrelation function. Answer: Run script geosa3.m and answer questions listed in the file in a3.pdf Definitions: autocorrelation, persistence, serial correlation, autocorrelation function (acf), autocovariance function (acvf), effective sample size How to recognize autocorrelation in the time series plot How to use lagged scatterplots to assess autocorrelation How to interpret the plotted acf How to adjust the sample size for autocorrelation Mathematical definition of the autocorrelation function Terms affecting the width of the computed confidence band of the acf The difference between a one-sided and two-sided test of significant lag-1 autocorrelation How to apply geos3.m to study the autocorrelation of a time series The spectrum of a time series is the distribution of variance of the series as a function of frequency. The object of spectral analysis is to estimate and study the spectrum. The spectrum contains no new information beyond that in the autocovariance function (acvf), and in fact the spectrum can be computed mathematically by transformation of the acvf. But the spectrum and acvf present the information on the variance of the time series from complementary viewpoints. The acf summarizes information in the time domain and the spectrum in the frequency domain. Answer: Run script geosa4.m and answer questions listed in the file in a4.pdf Definitions: frequency, period, wavelength, spectrum, Nyquist frequency, Fourier frequencies, bandwidth Reasons for analyzing a spectrum How to interpret a plotted spectrum in terms of distribution of variance The difference between a spectrum and a normalized spectrum Definition of the lag window as used in estimating the spectrum by the Blackman-Tukey method How the choice of lag window affects the bandwidth and variance of the estimated spectrum How to define a white noise spectrum and autoregressive spectrum How to sketch some typical spectral shapes: white noise, autoregressive, quasi-periodic, low-frequency, high-frequency How to apply geosa4.m to analyze the spectrum of a time series by the Blackman-Tukey method Autoregressive-Moving Average (ARMA)modeling Autoregressive-moving-average (ARMA) models are mathematical models of the persistence, or autocorrelation, in a time series. ARMA models are widely used in hydrology, dendrochronology, econometrics, and other fields. There are several possible reasons for fitting ARMA models to data. Modeling can contribute to understanding the physical system by revealing something about the physical process that builds persistence into the series. For example, a simple physical water-balance model consisting of terms for precipitation input, evaporation, infiltration, and groundwater storage can be shown to yield a streamflow series that follows a particular form of ARMA model. ARMA models can also be used to predict behavior of a time series from past values alone. Such a prediction can be used as a baseline to evaluate possible importance of other variables to the system. ARMA models are widely used for prediction of economic and industrial time series. ARMA models can also be used to remove persistence. In dendrochronology, for example, ARMA modeling is applied routinely to generate residual chronologies time series of ring-width index with no dependence on past values. This operation, called prewhitening, is meant to remove biologically-related persistence from the series so that the residual may be more suitable for studying the influence of climate and other outside environmental factors on tree growth. Answer: Run script geosa5.m and answer questions listed in the file in a5.pdf The functional form of the simplest AR and ARMA models Why such models are referred to as autoregressive or moving average The three steps in ARMA modeling The diagnostic patterns of the autocorrelation and partial autocorrelation functions for an AR(1) time series Definition of the final prediction error (FPE) and how the FPE is used to select a best ARMA model Definition of the Portmanteau statistic, and how it and the acf of residuals can be used to assess whether an ARMA model effectively models the persistence in a series How the principle of parsimony is applied in ARMA modeling Definition of prewhitening How prewhitening affects (1) the appearance of a time series, and (2) the spectrum of a time series How to apply geosa5.m to ARMA-model a time series Spectral analysis -- smoothed periodogram method There are many available methods for estimating the spectrum of a time series. In lesson 4 we looked at the Blackman-Tukey method, which is based on Fourier transformation of the smoothed, truncated autocovariance function. The smoothed periodogram method circumvents the transformation of the acf by direct Fourier transformation of the time series and computation of the raw periodogram, a function first introduced in the 1800s for study of time series. The raw periodogram is smoothed by applying combinations or spans of one or more filters to produce the estimated spectrum. The smoothness, resolution and variance of the spectral estimates is controlled by the choice of filters. A more accentuated smoothing of the raw periodogram produces an underlying smoothly varying spectrum, or null continuum, against which spectral peaks can be tested for significance. This approach is an alternative to the specification of a functional form of the null continuum (e. g. AR spectrum). Answer: Run script geosa6.m and answer questions listed in the file in a6.pdf Definitions: raw periodogram, Daniell filter, span of filter, null continuum smoothness, stability and resolution of spectrum tapering, padding, leakage The four main steps in estimating the spectrum by the smoothed periodogram How the effect of choice of filter spans on the smoothness, stability and resolution of the spectrum How the null continuum is used in testing for significance of spectral peaks How to apply geosa6.m to estimate the spectrum of a time series by the smoothed periodogram method and test for periodicity at a specified frequency Trend in a time series is a slow, gradual change in some property of the series over the whole interval under investigation. Trend is sometimes loosely defined as a long term change in the mean (Figure 7.1), but can also refer to change in other statistical properties. For example, tree-ring series of measured ring width frequently have a trend in variance as well as mean (Figure 7.2). In traditional time series analysis, a time series was decomposed into trend, seasonal or periodic components, and irregular fluctuations, and the various parts were studied separately. Modern analysis techniques frequently treat the series without such routine decomposition, but separate consideration of trend is still often required. Detrending is the statistical or mathematical operation of removing trend from the series. Detrending is often applied to remove a feature thought to distort or obscure the relationships of interest. In climatology, for example, a temperature trend due to urban warming might obscure a relationship between cloudiness and air temperature. Detrending is also sometimes used as a preprocessing step to prepare time series for analysis by methods that assume stationarity. Many alternative methods are available for detrending. Simple linear trend in mean can be removed by subtracting a least-squares-fit straight line. More complicated trends might require different procedures. For example, the cubic smoothing spline is commonly used in dendrochronology to fit and remove ring-width trend that might not be linear, or not even monotonically increasing or decreasing over time. In studying and removing trend, it is important to understand the effect of detrending on the spectral properties of the time series. This effect can be summarized by the frequency response of the detrending function. Answer: Run script geosa7.m and answer questions listed in the file in a7.pdf Definitions: frequency response, spline, cubic smoothing spline Pros and cons of ratio vs difference detrending Interpretation of terms in the equation for the spline parameter How to choose a spline interactively from desired frequency response How the spectrum is affected by detrending How to measure the importance of the trend component in a time series How to apply geosa7.m to interactively choose a spline detrending function and detrend a time series The estimated spectrum of a time series gives the distribution of variance as a function of frequency. Depending on the purpose of analysis, some frequencies may be of greater interest than others, and it may be helpful to reduce the amplitude of variations at other frequencies by statistically filtering them out before viewing and analyzing the series. For example, the high-frequency (year-to-year) variations in a gauged discharge record of a watershed may be relatively unimportant to water supply in a basin with large reservoirs that can store several years of mean annual runoff. Where low-frequency variations are of main interest, it is desirable to smooth the discharge record to eliminate or reduce the short-period fluctuations before using the discharge record to study the importance of climatic variations to water supply. Smoothing is a form of filtering which produces a time series in which the importance of the spectral components at high frequencies is reduced. Electrical engineers call this type of filter a low-pass filter, because the low-frequency variations are allowed to pass through the filter. In a low-pass filter, the low frequency (long-period) waves are barely affected by the smoothing. It is also possible to filter a series such that the low-frequency variations are reduced and the high-frequency variations unaffected. This type of filter is called a high-pass filter. Detrending is a form of high-pass filtering: the fitted trend line tracks the lowest frequencies, and the residuals from the trend line have had those low frequencies removed. A third type of filtering, called band-pass filtering, reduces or filters out both high and low frequencies, and leaves some intermediate frequency band relatively unaffected. In this lesson, we cover several methods of smoothing, or low-pass filtering. We have already discussed how the cubic smoothing spline might be useful for this purpose. Four other types of filters are discussed here: 1) simple moving average, 2) binomial, 3) Gaussian, and 4) windowing (Hamming method). Considerations in choosing a type of low-pass filter are the desired frequency response and the span, or width, of the filter. Answer: Run script geosa8.m and answer questions listed in the file in a8.pdf Definitions: filter, filter weights, filter span, low-pass filter, high-pass filter, band-pass filter frequency response of a filter How the Gaussian filter is related to the Gaussian distribution How to build a simple binomial filter manually (without the computer) How to describe the frequency response function in terms of a system with sinusoidal input and output How to apply geosa8.m to interactively design a Gaussian, binomial or Hamming-window lowpass filter for a time series The Pearson product-moment correlation coefficient is probably the single most widely used statistic for summarizing the relationship between two variables. Statistical significance and caveats of interpretation of the correlation coefficient as applied to time series are topics of this lesson. Under certain assumptions, the statistical significance of a correlation coefficient depends on just the sample size, defined as the number of independent observations. If time series are autocorrelated, an effective sample size, lower than the actual sample size, should be used when evaluating significance. Transient or spurious relationships can yield significant correlation for some periods and not for others. The time variation of strength of linear correlation can be examined with plots of correlation computed for a sliding window. But if many correlation coefficients are evaluated simultaneously, confidence intervals should be adjusted ( Bonferroni adjustment ) to compensate for the increased likelihood of observing some high correlations where no relationship exists. Interpretation of sliding correlations can be also be complicated by time variations of mean and variance of the series, as the sliding correlation reflects covariation in terms of standardized departures from means in the time window of interest, which may differ from the long-term means. Finally, it should be emphasized that the Pearson correlation coefficient measures strength of linear relationship. Scatterplots are useful for checking whether the relationship is linear. Answer: Run script geosa9.m and answer questions listed in the file in a9.pdf Mathematical definition of the correlation coefficient Assumptions and hypothesis for significance testing of correlation coefficient How to compute significance level of correlation coefficient and to adjust the significance level for autocorrelation in the individual time series Caveats to interpretation of correlation coefficient Bonferroni adjustment to signficance level of correlation under multiple comparisons Inflation of variance of estimated correlation coefficient when time series autocorrelated Possible effects of data transformation on correlation How to interpret plots of sliding correlations How to apply geosa9.m to analyze correlations and sliding correlations between pairs of time series Lagged relationships are characteristic of many natural physical systems. Lagged correlation refers to the correlation between two time series shifted in time relative to one another. Lagged correlation is important in studying the relationship between time series for two reasons. First, one series may have a delayed response to the other series, or perhaps a delayed response to a common stimulus that affects both series. Second, the response of one series to the other series or an outside stimulus may be smeared in time, such that a stimulus restricted to one observation elicits a response at multiple observations. For example, because of storage in reservoirs, glaciers, etc. the volume discharge of a river in one year may depend on precipitation in the several preceding years. Or because of changes in crown density and photosynthate storage, the width of a tree-ring in one year may depend on climate of several preceding years. The simple correlation coefficient between the two series properly aligned in time is inadequate to characterize the relationship in such situations. Useful functions we will examine as alternative to the simple correlation coefficient are the cross-correlation function and the impulse response function. The cross-correlation function is the correlation between the series shifted against one another as a function of number of observations of the offset. If the individual series are autocorrelated, the estimated cross-correlation function may be distorted and misleading as a measure of the lagged relationship. We will look at two approaches to clarifying the pattern of cross-correlations. One is to individually remove the persistence from, or prewhiten, the series before cross-correlation estimation. In this approach, the two series are essentially regarded on equal footing . An alternative is the systems approach: view the series as a dynamic linear system -- one series the input and the other the output -- and estimate the impulse response function. The impulse response function is the response of the output at current and future times to a hypothetical pulse of input restricted to the current time. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script.

Verklig Forex Öregrund

Search This Blog

Moving genomsnittet autokorrelation

Comments

Post a Comment

Popular posts from this blog

Kan i handels binary alternativ in the us

Top online handels företag in the världen

Mercado forex vivo