Thursday 19 October 2017

Eksempler På Begge Lineær Regresjon Og Den Bevegelige Gjennomsnitt Og Glatting Teknikker


Forecasting by Smoothing Techniques Dette nettstedet er en del av JavaScript E-Labs læringsobjekter for beslutningstaking. Annet JavaScript i denne serien er kategorisert under forskjellige områder av applikasjoner i MENU-delen på denne siden. En tidsserie er en sekvens av observasjoner som bestilles i tide. Inherent i samlingen av data tatt over tid er noen form for tilfeldig variasjon. Det finnes metoder for å redusere avbryte effekten på grunn av tilfeldig variasjon. Utbredte teknikker er utjevning. Disse teknikkene, når de brukes riktig, tydeliggjør de underliggende trenderne tydeligere. Skriv inn tidsseriene Row-wise i rekkefølge, starter fra venstre øverste hjørne, og parameteren (e), og klikk deretter på Calculate-knappen for å få fram en prognose for en periode fremover. Blank bokser er ikke inkludert i beregningene, men nuller er. Når du legger inn dataene dine for å flytte fra celle til celle i datamatrixen, bruker du Tab-tasten ikke pil eller tast inn taster. Funksjoner av tidsserier, som kan avsløres ved å undersøke grafen. med de prognostiserte verdiene, og residualens oppførsel, betinget prognosemodellering. Flytte gjennomsnitt: Flytte gjennomsnittlig rangering blant de mest populære teknikkene for preprocessing av tidsserier. De brukes til å filtrere tilfeldig hvit støy fra dataene, for å gjøre tidsseriene jevnere eller til og med å understreke visse informative komponenter som finnes i tidsseriene. Eksponensiell utjevning: Dette er et veldig populært system for å produsere en glatt tidsserie. Mens i flytende gjennomsnitt blir de tidligere observasjonene veid likt, eksponentiell utjevning tilordner eksponentielt avtagende vekter som observasjonen blir eldre. Med andre ord blir de siste observasjonene gitt relativt mer vekt i prognoser enn de eldre observasjonene. Dobbelt eksponensiell utjevning er bedre å håndtere trender. Trippel eksponensiell utjevning er bedre å håndtere paraboltrender. Et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant a. korresponderer omtrent til et enkelt bevegelige gjennomsnitt av lengden (dvs. perioden) n, hvor a og n er relatert til: a 2 (n1) OR n (2 - a) a. For eksempel vil et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant lik 0,1 svare til et 19 dagers glidende gjennomsnitt. Og et 40-dagers enkelt glidende gjennomsnitt ville korrespondere omtrent til et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant lik 0,04878. Holter Lineær eksponensiell utjevning: Anta at tidsseriene er u sesongmessige, men viser trend. Holts metode estimerer både dagens nivå og dagens trend. Legg merke til at det enkle glidende gjennomsnittet er spesielt tilfelle av eksponensiell utjevning ved å angi perioden for glidende gjennomsnitt til heltaldelen av (2-alfa) alfa. For de fleste forretningsdata er en Alpha-parameter mindre enn 0,40 ofte effektiv. Det kan imidlertid utføres et rutenett for parameterrommet, med 0,1 til 0,9, med trinn på 0,1. Da har den beste alfa den minste Mean Absolute Error (MA Error). Slik sammenligner du flere utjevningsmetoder: Selv om det finnes numeriske indikatorer for å vurdere nøyaktigheten av prognoseteknikken, er det mest mulig å benytte visuell sammenligning av flere prognoser for å vurdere nøyaktigheten og velge blant de ulike prognosemetoder. I denne tilnærmingen må man plotte (ved hjelp av for eksempel Excel) på samme graf de opprinnelige verdiene for en tidsserievariabel og de forutsagte verdiene fra flere forskjellige prognosemetoder, og dermed lette en visuell sammenligning. Du kan gjerne bruke Past Forecasts ved utjevningsteknikker JavaScript for å oppnå tidligere prognosverdier basert på utjevningsteknikker som bare bruker én parameter. Holt og Winters metoder bruker henholdsvis to og tre parametere, derfor er det ikke en lett oppgave å velge den optimale, eller til og med nær optimale verdier ved prøving og feil for parametrene. Den enkle eksponensielle utjevningen understreker kortspektret perspektivet som setter nivået til den siste observasjonen og er basert på tilstanden at det ikke er noen trend. Den lineære regresjonen, som passer til en minste firkantlinje til de historiske dataene (eller transformerte historiske data), representerer lang rekkevidde, som er betinget av den grunnleggende trenden. Holts lineær eksponensiell utjevning fanger opp informasjon om nyere trend. Parametrene i Holts-modellen er nivåparameter som skal reduseres når mengden datavariasjon er stor, og trenderparameteren skal økes dersom den siste trendretningen støttes av årsakssammenhengene. Kortsiktig prognose: Legg merke til at alle JavaScript på denne siden gir en engangsforespørsel. For å få en to-trinns prognose. bare legg til den prognostiserte verdien til slutten av dine tidsseriedata og klikk deretter på den samme Beregn-knappen. Du kan gjenta denne prosessen for et par ganger for å oppnå de nødvendige kortsiktige prognosene. Tidsseriemetoder Tidsseriemetoder er statistiske teknikker som benytter historiske data akkumulert over en tidsperiode. Tidsseriemetoder antar at det som har skjedd tidligere, vil fortsette å skje i fremtiden. Som navnet serier antyder, relaterer disse metodene prognosen til bare en faktor - tid. De inkluderer glidende gjennomsnitt, eksponensiell utjevning og lineær trendlinje, og de er blant de mest populære metodene for kortvarig prognose blant service - og produksjonsbedrifter. Disse metodene forutsetter at identifiserbare historiske mønstre eller trender for etterspørsel over tid vil gjenta seg. Flytende gjennomsnitt En prognos for tidsserier kan være så enkel som bruk av etterspørsel i den nåværende perioden for å forutse etterspørselen i neste periode. Dette kalles noen ganger en naiv eller intuitiv prognose. 4 For eksempel, hvis etterspørselen er 100 enheter denne uken, er prognosen for neste ukes etterspørsel 100 enheter dersom etterspørselen viser seg å være 90 enheter i stedet, så er etterspørselen etter følgende uker 90 enheter, og så videre. Denne typen prognosemetode tar ikke hensyn til historisk etterspørselsadferd som den bare bygger på etterspørsel i den nåværende perioden. Det reagerer direkte på de normale, tilfeldige bevegelsene i etterspørselen. Den enkle glidende gjennomsnittsmetoden bruker flere etterspørselsverdier i løpet av den siste tiden til å utvikle en prognose. Dette har en tendens til å dempe eller glatte ut, tilfeldige økninger og reduksjoner av en prognose som bare bruker en periode. Det enkle glidende gjennomsnittet er nyttig for å forutse etterspørselen som er stabil og viser ikke noen uttalt etterspørselsadferd, for eksempel en trend eller sesongmessig mønster. Flytende gjennomsnitt beregnes for bestemte perioder, for eksempel tre måneder eller fem måneder, avhengig av hvor mye forecasteren ønsker å glatte etterspørseldataene. Jo lengre glidende gjennomsnittsperiode, jo jevnere blir det. Formelen for beregning av det enkle glidende gjennomsnittet er å beregne et enkelt bevegelige gjennomsnitt. Instant Paper Clip Office Supply Company selger og leverer kontorrekvisita til bedrifter, skoler og byråer innen en radius på 50 kilometer fra lageret. Kontorforsyningsvirksomheten er konkurransedyktig, og evnen til å levere bestillinger raskt er en faktor for å få nye kunder og holde gamle. (Kontorene bestiller vanligvis ikke når de går lite på forsyninger, men når de går helt tom. Som et resultat trenger de straks sine bestillinger.) Sjefen for selskapet ønsker å være sikre nok drivere og kjøretøyer er tilgjengelige for å levere bestillinger omgående og De har tilstrekkelig lagerbeholdning på lager. Derfor ønsker lederen å kunne regne ut antall ordrer som vil skje i løpet av den neste måneden (dvs. for å prognose etterspørselen etter leveranser). Fra registreringer av leveringsordrer har ledelsen akkumulert følgende data de siste 10 månedene, hvorfra den vil beregne 3- og 5-måneders glidende gjennomsnitt. La oss anta at det er slutten av oktober. Prognosen som følge av enten 3- eller 5-måneders glidende gjennomsnitt er typisk for neste måned i sekvensen, som i dette tilfellet er november. Det bevegelige gjennomsnittet beregnes fra etterspørselen etter bestillinger for de foregående 3 månedene i sekvensen i henhold til følgende formel: 5-måneders glidende gjennomsnitt beregnes fra de foregående 5 månedene av etterspørseldata som følger: 3- og 5-måneders Flytte gjennomsnittlige prognoser for alle månedene av etterspørseldata er vist i følgende tabell. Faktisk vil bare prognosen for november basert på den siste månedlige etterspørselen bli brukt av lederen. De tidligere prognosene for tidligere måneder tillater oss imidlertid å sammenligne prognosen med den faktiske etterspørselen for å se hvor nøyaktig prognosemetoden er - det vil si hvor bra det gjør. Tre - og fem-måneders gjennomsnitt Både glidende gjennomsnittlige prognoser i tabellen ovenfor har en tendens til å utjevne variabiliteten i de faktiske dataene. Denne utjevningseffekten kan observeres i følgende figur hvor 3-måneders og 5-måneders gjennomsnitt er lagt på en graf av de opprinnelige dataene: Det 5-måneders glidende gjennomsnittet i foregående figur utjevner svingninger i større grad enn 3 måneders glidende gjennomsnitt. Imidlertid gjenspeiler 3-måneders gjennomsnittet de nyeste dataene som er tilgjengelige for kontorforvalteren. Generelt er prognoser som bruker lengre periode glidende gjennomsnitt, langsommere å reagere på de siste endringene i etterspørselen enn de som ble gjort ved hjelp av glidende gjennomsnitt for kortere periode. De ekstra dataperiodene demper hastigheten som prognosen svarer på. Etablering av riktig antall perioder som skal brukes i en bevegelig gjennomsnittlig prognose krever ofte litt prøve-og-feil-eksperimentering. Ulempen med den bevegelige gjennomsnittlige metoden er at den ikke reagerer på variasjoner som oppstår av en grunn, for eksempel sykluser og sesongmessige effekter. Faktorer som forårsaker endringer blir generelt ignorert. Det er i utgangspunktet en mekanisk metode som gjenspeiler historiske data på en konsistent måte. Den glidende gjennomsnittlige metoden har imidlertid fordelen av å være enkel å bruke, rask og relativt billig. Generelt kan denne metoden gi en god prognose på kort sikt, men det bør ikke presses for langt inn i fremtiden. Veidende Flytende Gjennomsnitt Den bevegelige gjennomsnittlige metoden kan justeres for å bedre reflektere svingninger i dataene. I den vektede glidende gjennomsnittlige metoden blir vektene tilordnet de nyeste dataene i henhold til følgende formel: Etterspørseldataene for PM Computer Services (vist i tabellen for eksempel 10.3) ser ut til å følge en økende lineær trend. Selskapet ønsker å beregne en lineær trendlinje for å se om den er mer nøyaktig enn eksponensiell utjevning og justerte eksponensielle utjevningsprognoser utviklet i eksempler 10.3 og 10.4. Verdiene som kreves for de minste kvadratberegninger er som følger: Ved bruk av disse verdiene beregnes parametrene for den lineære trendlinjen som følger: Derfor er den lineære trendlinjekvasjonen å beregne en prognose for periode 13, la x 13 i lineær trendlinje: Følgende graf viser den lineære trendlinjen sammenlignet med de faktiske dataene. Treningslinjen ser ut til å reflektere nøye de faktiske dataene - det vil si å være en god form - og dermed være en god prognosemodell for dette problemet. En ulempe med den lineære trendlinjen er imidlertid at den ikke vil tilpasse seg en endring i trenden, da de eksponentielle utjevningsprognosene vil det vil si, det antas at alle fremtidige prognoser vil følge en rett linje. Dette begrenser bruken av denne metoden til en kortere tidsramme der du kan være relativt sikker på at trenden ikke vil endre seg. Seasonal Adjustments Et sesongmessig mønster er en repeterende økning og nedgang i etterspørselen. Mange etterspørselsprodukter viser sesongmessig oppførsel. Klærsalg følger årlige sesongmønstre, hvor etterspørselen etter varme klær øker om høsten og vinteren og faller om våren og sommeren ettersom etterspørselen etter kjøligere klær øker. Etterspørselen etter mange detaljhandler, inkludert leker, sportsutstyr, klær, elektroniske apparater, skinke, kalkuner, vin og frukt, øker i løpet av høytiden. Krav til hilsekort øker i forbindelse med spesielle dager som Valentinsdag og Morsdag. Sesongmønstre kan også forekomme på en månedlig, ukentlig eller daglig basis. Noen restauranter har høyere etterspørsel om kvelden enn til lunsj eller i helgene i motsetning til hverdager. Trafikk - dermed salg - i kjøpesentre plukker opp fredag ​​og lørdag. Det finnes flere metoder for å reflektere sesongmessige mønstre i en tidsserie-prognose. Vi vil beskrive en av de enklere metodene ved å bruke en sesongfaktor. En sesongfaktor er en tallverdi som multipliseres med den normale prognosen for å få en sesongjustert prognose. En metode for å utvikle en etterspørsel etter sesongmessige faktorer er å dele etterspørselen etter hver sesongperiode etter total årlig etterspørsel, i henhold til følgende formel: De resulterende sesongfaktorene mellom 0 og 1,0 er faktisk den del av den totale årlige etterspørselen som tildeles hver sesong. Disse sesongmessige faktorene multipliseres med den årlige forventede etterspørselen for å gi justerte prognoser for hver sesong. Beregner en prognose med sesongjusteringer. Wishbone Farms vokser kalkuner for å selge til et kjøttproduserende selskap gjennom hele året. Men høysesongen er åpenbart i løpet av fjerde kvartal av året, fra oktober til desember. Wishbone Farms har opplevd etterspørselen etter kalkuner de siste tre årene vist i følgende tabell: Fordi vi har tre års etterspørseldata, kan vi beregne sesongfaktorene ved å dele totalt kvartalsbehov for de tre årene etter total etterspørsel i alle tre år : Deretter vil vi multiplisere den forventede etterspørselen etter neste år, 2000, ved hver sesongfaktor for å få forventet etterspørsel etter hvert kvartal. For å oppnå dette trenger vi en etterspørselsprognose for 2000. I dette tilfellet, siden etterspørseldataene i tabellen ser ut til å vise en generelt økende trend, beregner vi en lineær trendlinje for de tre årene med data i tabellen for å bli tøffe prognose estimat: Prognosen for 2000 er således 58,17, eller 58,170 kalkuner. Ved å bruke denne årlige prognosen for etterspørsel er de sesongjusterte prognosene, SF i, for 2000 Sammenligning av disse kvartalsprognosene med de faktiske etterspørselsverdiene i tabellen, synes de å være relativt gode prognoser som reflekterer både sesongvariasjoner i dataene og den generelle oppadgående trenden. 10-12. Hvordan er den bevegelige gjennomsnittlige metoden lik eksponensiell utjevning 10-13. Hvilken effekt på eksponensiell utjevningsmodell vil øke utjevningskonstanten har 10-14. Hvordan skiller den justerte eksponensielle utjevningen seg fra eksponensiell utjevning 10-15. Hva bestemmer valget av utjevningskonstanten for trend i en justert eksponensiell utjevningsmodell 10-16. I kapitteleksemplene for tidsseriemetoder ble startprognosen alltid antatt å være den samme som den faktiske etterspørselen i første periode. Foreslå andre måter at startprognosen kan utledes ved faktisk bruk. 10-17. Hvordan er lineær trendlinjeprognosemodell forskjellig fra en lineær regresjonsmodell for prognoser 10-18. Av tidsseriemodellene som presenteres i dette kapittelet, inkludert det bevegelige gjennomsnittlige og vektede glidende gjennomsnittet, eksponensiell utjevning og justert eksponensiell utjevning, og lineær trendlinje, hvilken anser du best Hvorfor 10-19. Hvilke fordeler har justert eksponensiell utjevning over en lineær trendlinje for forventet etterspørsel som viser en trend 4 K. B. Kahn og J. T. Mentzer, Forecasting in Consumer and Industrial Markets, Journal of Business Forecasting 14, nr. 2 (Sommer 1995): 21-28.Linær regresjonsanalyse er den mest brukte av alle statistiske teknikker: Det er studien av lineær. additiv relasjoner mellom variabler. La Y betegne 8220dependent8221-variabelen hvis verdier du ønsker å forutsi, og la X 1. 8230, X k betegne 8220independent8221 variablene som du ønsker å forutsi, med verdien av variabel X i i periode t (eller i rad t av datasettet) betegnet av X det. Deretter er ligningen for å beregne den forutsagte verdien av Y t: Denne formelen har egenskapen at prediksjonen for Y er en lineær funksjon av hver av X-variablene, holder de andre faste og bidragene fra forskjellige X-variabler til Forutsigelser er additiv. Løypene av deres individuelle lineære relasjoner med Y er konstantene b 1. b 2, 8230, b k. de såkalte koeffisientene til variablene. Det vil si, b er forandringen i den forutsagte verdien av Y per forandringsenhet i X i. andre ting er like. Den ekstra konstante b 0. den såkalte avskjæringen. er prediksjonen at modellen ville gjøre hvis alle X 8217-tallene var null (hvis det er mulig). Koeffisientene og avskjæringen er estimert med minst firkanter. det vil si at de er lik de unike verdiene som minimerer summen av kvadratfeil i datautvalget som modellen er montert på. Og modellens prediksjonsfeil antas vanligvis å være uavhengig og normalt distribuert. Det første du bør vite om lineær regresjon, er hvordan den merkelige termen regresjonen kom til å brukes på modeller som dette. De ble først studert i dybden av en 19th århundre forsker, Sir Francis Galton. Galton var en selvlært naturforsker, antropolog, astronom og statistiker - og en virkelig Indiana Jones karakter. Han var kjent for sine utforskninger, og han skrev en bestselgende bok om hvordan man skal overleve i villmarken med tittelen "The Travel of Travel": Skift og Contrivances Tilgjengelig i Wild Steder, sitat og dets etterfølger, quotThe Art of Rough Travel: From the Practical til den spesielle. De er fortsatt på trykk og anses fortsatt som nyttige ressurser. De gir mange praktiske hint for å holde seg i live - for eksempel hvordan man behandler spydsår eller trekker hesten fra kvicksand - og introduserte begrepet sovepose til vestlige verden. Klikk på disse bildene for flere detaljer: Galton var en pioner i anvendelsen av statistiske metoder til målinger i mange grener av vitenskap, og i studiet av data om relative størrelser av foreldre og deres avkom i forskjellige arter av planter og dyr, observerte han følgende fenomen: en større enn gjennomsnittlig forelder har en tendens til å produsere et barn som er større enn gjennomsnittet, men barnet er sannsynligvis mindre enn foreldrene i forhold til sin relative stilling i sin egen generasjon. For eksempel, hvis foreldrenes størrelse er x standardavvik fra gjennomsnittet i sin egen generasjon, bør du forutsi at barnets størrelse vil være rx (r ganger x) standardavvik fra gjennomsnittet i settet av barn til de foreldrene , hvor r er et tall mindre enn 1 i størrelse. (r er det som skal defineres nedenfor som korrelasjonen mellom foreldrenes størrelse og barnets størrelse.) Det samme gjelder for praktisk talt fysisk måling (og i tilfelle mennesker, de fleste målinger av kognitiv og fysisk evne) som kan utføres på foreldre og deres avkom. Her er det første publiserte bildet av en regresjonslinje som illustrerer denne effekten, fra et foredrag presentert av Galton i 1877: R-symbolet på dette diagrammet (hvis verdi er 0,33) angir hellingskoeffisienten, ikke korrelasjonen, selv om de to er de samme hvis begge populasjonene har samme standardavvik, som det vil bli vist nedenfor. Galton kalte dette fenomenet en regresjon mot middelmådighet. som i moderne termer er en regresjon til den gjennomsnittlige. Til en naiumlve-observatør kan dette tyde på at senere generasjoner skal vise mindre variabilitet - bokstavelig talt mer middelmådighet - enn tidligere, men det er ikke tilfelle. Det er et rent statistisk fenomen. Med mindre hvert barn er akkurat som samme størrelse som foreldrene i relative termer (dvs. med mindre korrelasjonen er nøyaktig lik 1), må spådene gå tilbake til gjennomsnittet uavhengig av biologi dersom gjennomsnittlig kvadratfeil skal minimeres. (Gå tilbake til toppen av siden.) Regresjon til gjennomsnittet er et uunngåelig faktum i livet. Dine barn kan forventes å være mindre eksepsjonelle (for bedre eller verre) enn du er. Din poengsum på en avsluttende eksamen i et kurs kan forventes å være mindre bra (eller dårlig) enn poengsummen din på midtveiseksamen, i forhold til resten av klassen. En baseballspillers batting gjennomsnitt i andre halvdel av sesongen kan forventes å være nærmere den gjennomsnittlige (for alle spillere) enn hans batting gjennomsnitt i første halvdel av sesongen. Og så videre. Nøkkelordet her er quotexpected. quot Dette betyr ikke at det er sikkert at regresjonen til den gjennomsnittlige vil oppstå, men det er veien å satse. Vi har allerede sett et forslag om regresjon-til-middel i noen av tidsseriene vi har studert: plott av prognoser pleier å være jevnere --ie de viser mindre variabilitet - enn plottene til de opprinnelige dataene. Dette gjelder ikke for tilfeldige gangmodeller, men det er generelt sant å flytte gjennomsnittlige modeller og andre modeller som baserer sine prognoser på mer enn en tidligere observasjon. Den intuitive forklaringen til regresjonseffekten er enkel: det vi forsøker å forutse, består vanligvis av en forutsigbar komponent (quotsignalquot) og en statistisk uavhengig uforutsigbar komponent (quotnoisequot). Det beste vi kan håpe å gjøre er å forutsi (bare) den delen av variabiliteten som skyldes signalet. Derfor vil våre prognoser ha en tendens til å vise mindre variabilitet enn de faktiske verdiene, noe som innebærer en regresjon til gjennomsnittet. En annen måte å tenke på regresjonseffekten er når det gjelder utvalgsperspektiv. Generelt kan en spiller8217s ytelse over en gitt tidsperiode tilskrives en kombinasjon av ferdighet og flaks. Anta at vi velger et utvalg profesjonelle idrettsutøvere hvis ytelse var mye bedre enn gjennomsnittet (eller elever med karakterer som var mye bedre enn gjennomsnittet) i første halvår. At de gjorde det bra i første halvdel av året, gjør det sannsynlig at både deres ferdigheter og lykken var bedre enn gjennomsnittet i den perioden. I andre halvdel av året kan vi forvente at de skal være like dyktige, men vi bør ikke forvente at de skal være like heldige. Så vi bør forutse at i andre omgang vil deres ytelse bli nærmere den gjennomsnittlige. I mellomtiden hadde spillere som bare var gjennomsnittlig i første halvdel, sannsynligvis ferdighet og flaks i motsatt retning for dem. Vi bør derfor forvente at deres resultater i andre halvår skal bevege seg bort fra gjennomsnittet i en eller annen retning, da vi får en annen uavhengig test av ferdighetene deres. Vi vet ikke hvilken retning de vil bevege seg, men selv for dem bør vi forutsi at deres andre halvdel ytelse vil være nærmere gjennomsnittet enn deres første halvdel ytelse. Den faktiske ytelsen til spillerne bør imidlertid forventes å ha en like stor variasjon i andre halvdel av året som i første omgang, fordi den bare resulterer fra en omfordeling av uavhengig tilfeldig flaks blant spillere med samme kompetansefordeling som før. En fin diskusjon om regresjon til gjennomsnittet i den bredere sammenhengen av samfunnsvitenskapelig forskning finner du her. (Tilbake til toppen av siden.) Begrunnelse for regresjonsforutsetninger Hvorfor bør vi anta at forhold mellom variabler er lineære. Fordi lineære forhold er de enkleste ikke-trivielle forholdene som kan forestilles (dermed det enkleste å jobbe med), og. Fordi quottruequot-relasjonene mellom våre variabler ofte er minst omtrent lineære over det verdier som er av interesse for oss, og. Selv om de ikke er det, kan vi ofte omdanne variablene på en slik måte at de lineariserer forholdene. Dette er en sterk antagelse, og det første trinnet i regresjonsmodellering bør være å se på spredningsdiagrammer av variablene (og i tilfelle tidsseriedata, plott av variablene vs tid) for å sikre at det er rimelig a priori. Og etter å ha montert en modell, bør feilmålinger undersøkes for å se om det er uforklarlige ikke-lineære mønstre. Dette er spesielt viktig når målet er å gjøre forutsigelser for scenarier utenfor rekkevidden av de historiske dataene, hvor avganger fra perfekt linearitet sannsynligvis vil ha størst effekt. Hvis du ser tegn på ikke-lineære relasjoner, er det mulig (men ikke garantert) at transformasjoner av variabler vil rette dem ut på en måte som vil gi nyttige inferanser og spådommer via lineær regresjon. (Tilbake til toppen av siden.) Og hvorfor skal vi anta at virkningen av forskjellige uavhengige variabler på forventet verdi av den avhengige variabelen er additiv. Dette er en veldig sterk antagelse, sterkere enn de fleste innser. Det innebærer at den marginale effekten av en uavhengig variabel (det vil si dens skråningskoeffisient) ikke er avhengig av nåværende verdier av andre uavhengige variabler. Men 8230 hvorfor burde det være mulig at en uavhengig variabel kunne forsterke effekten av en annen, eller at dens effekt kan variere systematisk over tid. I en multipelregresjonsmodell måles den estimerte koeffisienten til en gitt uavhengig variabel antagelig sin effekt mens quotcontrollingquot for tilstedeværelsen av de andre. Imidlertid er måten kontrollen utføres på, ekstremt enkel: Multipler av andre variabler blir bare lagt til eller trukket fra. Mange brukere kaster bare mange uavhengige variabler inn i modellen uten å tenke nøye på dette problemet, som om deres programvare automatisk vil finne ut nøyaktig hvordan de er relaterte. Det won8217t Selv automatiske modellvalgsmetoder (for eksempel trinnvis regresjon) krever at du har en god forståelse av dine egne data og å bruke en veiledende hånd i analysen. De arbeider bare med variablene de er gitt, i form som de er gitt, og så ser de bare for lineære, additivmønstre blant dem i sammenheng med hverandre. En regresjonsmodell antar ikke bare at Y er quotsome functionquot av Xs. Det antas at det er en veldig spesiell type funksjon av Xs. En vanlig praksis er å inkludere uavhengige variabler hvis prediktive effekter logisk ikke kan være additiv, si noen som er totals og andre som er priser eller prosenter. Noen ganger kan dette rationaliseres ved lokale førstordens-tilnærming argumenter, og noen ganger kan det ikke. Du må samle de relevante dataene, forstå hva det måler, rengjør det om nødvendig, utfør beskrivende analyser for å lete etter mønstre før du monterer noen modeller, og undersøk de diagnostiske tester av modellantakelser etterpå, spesielt statistikk og plott av feilene. Du bør også prøve å bruke riktig økonomisk eller fysisk begrunnelse for å avgjøre om en tilsetningsforutsigelsesligning er fornuftig. Også her er det mulig (men ikke garantert) at transformasjoner av variabler eller inkludering av interaksjonsbetingelser kan skille deres effekter inn i en additiv form, hvis de ikke har et slikt skjema til å begynne med, men dette krever litt tanke og innsats på din del. (Gå tilbake til toppen av siden.) Og hvorfor skal vi anta at feilene i lineære modeller er uavhengig og normalt distribuert. 1. Denne antagelsen er ofte begrunnet ved å appellere til den sentrale grenseetningen for statistikk, som sier at summen eller gjennomsnittet av et tilstrekkelig stort antall uavhengige tilfeldige variabler - uansett deres individuelle fordelinger - nærmer seg en normal fordeling. Mye data i næringsliv og økonomi og ingeniørfag og naturvitenskap er oppnådd ved å legge til eller gjennomsnittlig numerisk måling utført på mange forskjellige personer eller produkter eller steder eller tidsintervaller. Forutsatt at aktivitetene som genererer målingene kan forekomme noe tilfeldig og noe uavhengig, kan vi forvente at variasjonene i totalene eller gjennomsnittene blir noe normalt fordelt. 2. Det er (igjen) matematisk praktisk: det innebærer at de optimale koeffisientestimatene for en lineær modell er de som minimerer gjennomsnittlig kvadratfeil (som lett kan beregnes), og det begrunner bruken av en rekke statistiske tester basert på normal familie av distribusjoner. (Denne familien inkluderer t-fordeling, F-fordeling og Chi-kvadratfordeling.) 3. Selv om quottruequot-feilprosessen ikke er normal i forhold til de opprinnelige enhetene i dataene, kan det være mulig å transformere dataene slik at modellens prediksjonsfeil er omtrent normalt. Men her må også forsiktighet utøves. Selv om de uforklarlige variasjonene i den avhengige variabelen er omtrent normalt fordelte, er det ikke garantert at de også vil bli distribuert like normalt for alle verdier av de uavhengige variablene. Kanskje de uforklarlige variasjonene er større under noen forhold enn andre, en tilstand som kalles quotheteroscedasticityquot. For eksempel, hvis den avhengige variabelen består av daglig eller månedlig total salg, er det sannsynligvis signifikant ukedagsmønster eller sesongmessige mønstre. I slike tilfeller vil variansen av totalen være større på dager eller i sesonger med større forretningsvirksomhet - en annen konsekvens av den sentrale grenseetningen. (Variable transformasjoner som logging andor sesongjustering brukes ofte til å håndtere dette problemet.) Det er heller ikke garantert at tilfeldige variasjoner vil være statistisk uavhengige. Dette er et spesielt viktig spørsmål når dataene består av tidsserier. Hvis modellen ikke er riktig angitt, er det mulig at sammenhengende feil (eller feil adskilt av et annet antall perioder) har en systematisk tendens til å ha samme tegn eller en systematisk tendens til å ha motsatte tegn, et fenomen som kalles quotautocorrelationquot eller quotserial correlationquot. Et svært viktig spesialfall er at aksjekursdata. i hvilke prosentvise endringer i stedet for absolutte endringer har en tendens til å bli distribuert normalt. Dette innebærer at over moderate til store tidsskalaer er bevegelser i aksjekursene lognormalt fordelt i stedet for normalt distribuert. En loggtransformasjon brukes typisk til historiske aksjekursdata når man studerer vekst og volatilitet. Forsiktig: Selv om enkle regresjonsmodeller ofte er montert på historisk aksjeavkastning for å anslå kvotebevis, som er indikatorer for relativ risiko i sammenheng med en diversifisert portefølje, anbefaler jeg ikke at du bruker regresjon for å prøve å forutsi fremtidige aksjeavkastninger. Se den geometriske tilfeldige gange siden i stedet. Du kan fortsatt tro at variasjoner i verdiene av porteføljer av aksjer vil pleie å bli distribuert normalt på grunn av den sentrale grense setningen, men den sentrale grense setningen er faktisk ganske sakte å bite på lognormal fordeling fordi det er så asymmetrisk lang - tailed. En sum på 10 eller 20 uavhengig og identisk lognormalt fordelte variabler har en fordeling som fortsatt er ganske nær lognormal. Hvis du ikke tror dette, prøv å teste det med Monte Carlo-simulering: du vil bli overrasket. (Jeg var.) Fordi forutsetningene for lineær regresjon (lineære, additivrelasjoner med normalt distribuerte feil) er så sterke, er det svært viktig å teste deres gyldighet når de passer på modeller, et emne som er nærmere omtalt i testmodell - Forutsetninger side. og vær oppmerksom på muligheten for at du trenger mer eller bedre data for å nå dine mål. Du kan ikke få noe fra ingenting. Alt for ofte ser naiumlve-brukere av regresjonsanalyse det ut som en svart boks som automatisk kan forutsi en gitt variabel fra andre variabler som blir matet inn i den, når en regresjonsmodell faktisk er en veldig spesiell og meget gjennomsiktig form for prediksjonsboks. Dens utgang inneholder ikke mer informasjon enn det som er gitt av dens innganger, og dens indre mekanisme må sammenlignes med virkeligheten i hver situasjon der den brukes. (Tilbake til toppen av siden.) Korrelasjon og enkle regresjonsformler En variabel er per definisjon en mengde som kan variere fra en måling til en annen i situasjoner hvor forskjellige prøver tas fra en befolkning eller observasjoner blir gjort på forskjellige tidspunkter. I passende statistiske modeller hvor noen variabler brukes til å forutsi andre, er det vi håper å finne, at de ulike variablene ikke varierer uavhengig (i statistisk forstand), men at de har en tendens til å variere sammen. Spesielt når vi passer på lineære modeller, håper vi å finne at en variabel (si, Y) varierer som en lineær funksjon av en annen variabel (si X). Med andre ord, hvis alle andre eventuelt relevante variabler kunne holdes faste, ville vi håpe å finne grafen for Y mot X for å være en rett linje (bortsett fra de uunngåelige tilfeldige feilene eller quotnoisequot). Et mål på den absolutte variabelen i en variabel er (naturlig) dens varians. som er definert som sin gjennomsnittlige kvadrert avvik fra sitt eget gjennomsnitt. Tilsvarende kan vi måle variabiliteten i forhold til standardavviket. som er definert som kvadratroten av variansen. Standardavviket har fordelen at den måles i de samme enhetene som den opprinnelige variabelen, i stedet for kvadratiske enheter. Vår oppgave med å forutsi Y kan beskrives som å forklare noe eller hele dens varians - dvs. Hvorfor . eller under hvilke forhold, avviker det fra det som betyr hvorfor det ikke er konstant. Det vil vi kunne forbedre på den naive prediktive modellen: 374 t CONSTANT, hvor den beste verdien for konstanten er antagelig den historiske middelværdien av Y. Nærmere bestemt håper vi å finne en modell hvis prediksjonsfeil er mindre, i gjennomsnittlig kvadratisk forstand, enn avvikene fra den opprinnelige variabelen fra dens gjennomsnitt. Ved bruk av lineære modeller for prediksjon, viser det seg veldig beleilig at den eneste statistikken av interesse (i det minste for å estimere koeffisienter for å minimere kvadratfeil) er gjennomsnittet og variansen av hver variabel og korrelasjonskoeffisienten mellom hvert par variabler. Korrelasjonskoeffisienten mellom X og Y betegnes vanligvis ved r XY. og det måler styrken til det lineære forholdet mellom dem på en relativ (dvs. enhetsløs) skala fra -1 til 1. Dvs. måler den i hvilken grad en lineær modell kan brukes til å forutsi avviket av en variabel fra dens gjennomsnitt gitt kunnskap om den andre avviket fra dens gjennomsnitt på samme tidspunkt. Korrelasjonskoeffisienten beregnes lettest hvis vi først standardiserer variablene, noe som betyr å konvertere dem til enheter av standardavvik-fra-gjennomsnittet, ved å bruke populasjonsstandardavviket i stedet for prøvestandardavviket, dvs. ved å bruke statistikken hvis formel har n i stedet for n-1 i nevnen, hvor n er prøvestørrelsen. Den standardiserte versjonen av X vil bli betegnet her med X. og verdien i periode t er definert i Excel-notat som: hvor STDEV. P er Excel-funksjonen for populasjonsstandardavviket. (Her og andre steder skal jeg bruke Excel-funksjoner i stedet for konvensjonelle matte-symboler i noen av formlene for å illustrere hvordan beregningene skulle gjøres på et regneark.) For eksempel, anta at AVERAGE (X) 20 og STDEV. P (X ) 5. Hvis X t 25, deretter X t 1, hvis X t 10. deretter X t -2, og så videre. Y vil betegne den tilsvarende standardiserte verdien av Y. Nå er korrelasjonskoeffisienten lik med gjennomsnittet av de standardiserte verdiene for de to variablene i den gitte prøven av n observasjoner: For eksempel, hvis X og Y lagres i kolonner På et regneark kan du bruke AVERAGE - og STDEV. P-funksjonene til å beregne gjennomsnittene og standardstandardavvikene for befolkningen, så kan du opprette to nye kolonner der verdiene for X og Y i hver rad beregnes i henhold til formelen ovenfor. Deretter lager du en tredje ny kolonne der X blir multiplisert med Y i hver rad. Gjennomsnittet av verdiene i den siste kolonnen er korrelasjonen mellom X og Y. Selvfølgelig, i Excel, kan du bare bruke formelen CORREL (X, Y) for å beregne en korrelasjonskoeffisient, hvor X og Y angir celleområder av dataene for variablene. (Merk: I noen situasjoner kan det være interessant å standardisere dataene i forhold til standardavviket for prøven, som er STDEV. S i Excel, men populasjonsstatistikken er den riktige som skal brukes i formelen ovenfor.) (Tilbake til toppen av siden.) Hvis de to variablene har en tendens til å variere på samme side av deres respektive virkemidler samtidig, vil gjennomsnittlig produkt av deres avvik (og dermed sammenhengen mellom dem) være positiv. siden produktet av to tall med samme tegn er positivt. Omvendt, hvis de har en tendens til å variere på motsatte sider av deres respektive midler samtidig, vil deres korrelasjon være negativ. Hvis de varierer uavhengig med hensyn til deres midler - det vil si hvis en er like stor som å være over eller under dens gjennomsnitt uansett hva den andre gjør - da vil korrelasjonen være null. Og hvis Y er en nøyaktig lineær funksjon av X, så enten Y t X t for alle t eller annet Y t - X t for alle t. i så fall reduseres formelen for korrelasjonen til 1 eller -1. Korrelasjonskoeffisienten kan sies å måle styrken til det lineære forholdet mellom Y og X av følgende årsak. The linear equation for predicting Y from X that minimizes mean squared error is simply: Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X . the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY . This fact is not supposed to be obvious, but it is easily proved by elementary differential calculus. Here is an example: on a scatterplot of Y versus X . the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 (i. e. a 45-degree line), which is the gray dashed line on the plot below. It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1. (The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear.) However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X . The best line for predicting Y from X has a slope of less than 1: it regresses toward the X axis . The regression line is shown in red, and its slope is the correlation between X and Y. which is 0.46 in this case. Why is this true Because, that8217s the way to bet if you want to minimize the mean squared error measured in the Y direction . If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms . we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes: By rearranging this equation and collecting constant terms, we obtain: is the estimated slope of the regression line, and is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute standard errors . t-statistics . and P-values (statistics that measure the precision and significance of the estimated coefficients) are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file . Perfect positive correlation ( r XY 1) or perfect negative correlation ( r XY -1) is only obtained if one variable is an exact linear function of the other, without error, in which case they arent really quotdifferentquot variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value. Therefore our prediction for Y is typically smaller in absolute value than our observed value for X . That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galtons phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts: (i) the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X . and (ii) the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact (noiseless) linear function of X . The term quotregressionquot has stuck and has even mutated from an intransitive verb into a transitive one since Galtons time. We dont merely say that the predictions for Y quotregress to the meanquot--we now say that we are quotregressing Y on X quot when we estimate a linear equation for predicting Y from X. and we refer to X as a quotregressorquot in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable (the latter being the error variance of an intercept-only model). The relative amount by which the regression models error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable(s). For example, if the error variance is 20 less than the original variance, we say we have quotexplained 20 of the variance. quot It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i. e. the square of r. Hence, the fraction-of-variance-explained has come to be known as quotR-squaredquot. The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model (one with two or more X variables), there are many correlation coefficients that must be computed, in addition to all the means and variances. For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables. In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among the variables--but the computations are no longer easy. We will leave those details to the computer. (Return to top of page.) Go on to a nearby topic:

No comments:

Post a Comment