Sunday 24 September 2017

Exempel Of Både Linjär Regression Och Den Rörliga Medelvärden Och Utjämning Tekniker


Prognoser genom utjämningstekniker. Den här webbplatsen är en del av JavaScript E-Labs-lärandesobjekt för beslutsfattande. Andra JavaScript i denna serie kategoriseras under olika tillämpningsområden i MENU-sektionen på denna sida. En tidsserie är en följd av observationer som Bestäms i tid Inhämtande i insamlingen av data som tagits över tiden är någon form av slumpmässig variation. Det finns metoder för att minska avbrytandet av effekten på grund av slumpmässig variation. Breda använda tekniker utjämnar. Dessa tekniker, när de tillämpas korrekt, avslöjar tydligare de underliggande trenderna . Ange tidsserierna Row-wise i följd, starta från det övre vänstra hörnet och parametern s, och klicka sedan på Calculate-knappen för att få fram en prognos för en period framåt. Lankrutor ingår inte i beräkningarna utan nollor är. När du matar in data för att flytta från cell till cell i datmatrisen, använd Tab-tangenten inte pilen eller skriv in tangenter. Funktioner av tidsserier, som kan avslöjas av examini Ng dess graf med de prognostiserade värdena och residualbeteendet, förutsäga prognosmodellering. Flyttmedelvärden Flytta medelvärden bland de mest populära teknikerna för förbehandling av tidsserier De används för att filtrera slumpmässigt vitt brus från data, för att göra tidsserierna Jämnare eller till och med att betona vissa informationskomponenter som ingår i tidsserierna. Exponentialutjämning Detta är ett mycket populärt schema för att producera en jämn tidsserie. I rörliga medelvärden viktas tidigare observationer lika, exponentiell utjämning tilldelar exponentiellt minskande vikter som observationen blir äldre Med andra ord ges de senaste observationerna relativt större vikt vid prognoser än de äldre observationerna. Dubbel exponentiell utjämning är bättre vid hantering av trender. Trippel Exponentiell utjämning är bättre vid hantering av paraboltrender. Ett exponentiellt vägt glidmedel med en utjämningskonstant a motsvarar i stort sett en enkel Glidande medelvärde av längd dvs Period n, där a och n är besläktade med. a 2 n 1 OR n 2 - a a. Till exempel skulle ett exponentialt vägt glidmedel med en utjämningskonstant lika med 0 1 motsvara ungefär ett 19 dagars glidande medelvärde And Ett 40 dagars enkelt glidande medelvärde skulle motsvara ungefär ett exponentiellt vägt glidmedel med en utjämningskonstant som motsvarar 0 04878.Holt s Linear Exponential Smoothing Anta att tidsserierna är säsongsbetonade, men visar trend-Holt s-metoden uppskattar både strömmen Nivå och den aktuella trenden. Notera att det enkla glidande medlet är speciellt fall av exponentiell utjämning genom att ställa in det glidande medeltalet för heltalet av 2-Alpha Alpha. För de flesta företagsdata är en Alpha-parameter som är mindre än 0 40 ofta Effektiv Men det kan vara att man utför en nätverkssökning av parameternummet med 0 1 till 0 9 med steg på 0 1 Då har den bästa alfas det minsta genomsnittliga absoluta felet MA Error. Hur jämför man flera utjämningsmetoder Även om det Är numeriska indikatorer för att bedöma noggrannheten i prognostekniken, är det mest använda sättet att använda en visuell jämförelse av flera prognoser för att bedöma deras noggrannhet och välja mellan de olika prognosmetoderna. I detta tillvägagångssätt måste man plotta med t. ex. Excel på samma graf De ursprungliga värdena för en tidsserievariabel och de förutspådda värdena från flera olika prognosmetoder, vilket underlättar en visuell jämförelse. Du kan gilla att använda Past Forecasts by Smoothing Techniques JavaScript för att få de senaste prognosvärdena baserade på utjämningstekniker som endast använder en enda parameter Holt och Winters metoder använder sig av två respektive tre parametrar. Det är därför inte en lätt uppgift att välja de optimala, eller till och med nära optimala värden, genom försök och fel för parametrarna. Den enda exponentiella utjämningen betonar det korta perspektivet det Sätter nivån till den sista observationen och baseras på villkoret att det inte finns någon trend. Den linjära regressen Jon som passar en minsta kvadrera linje till den historiska data eller transformerade historiska data, representerar det långa intervallet, vilket är konditionerat för den grundläggande trenden Holt s linjär exponentiell utjämning fångar information om den senaste trenden Parametrarna i Holt s-modellen är nivåparametrar som Bör minskas när mängden datavariation är stor och trenderparametern bör ökas om den senaste trendriktningen stöds av de orsakssammanfattade faktorerna. Kortsiktiga prognoser Observera att varje JavaScript på denna sida ger ett steg framåt Prognos För att få en tvåstegs-prognos lägger du bara till det prognostiserade värdet till slutet av din tidsseriedata och klickar sedan på samma beräkna-knapp. Du kan upprepa denna process ett par gånger för att få de nödvändiga kortsiktiga prognoserna . Tidsseriemetoder. Tidsseriemetoder är statistiska tekniker som använder sig av historiska data som ackumuleras under en tidsperiod. Tidsseriemetoder antar att det som har uppstått i Förflutna kommer att fortsätta att ske i framtiden Som namnetidsserierna föreslår, hänför sig dessa metoder prognosen till endast en faktor - tid. De innefattar glidande medelvärde, exponentiell utjämning och linjär trendlinje och de är bland de mest populära metoderna för korta - Range prognos bland service - och tillverkningsföretag Dessa metoder förutsätter att identifierbara historiska mönster eller trender för efterfrågan över tiden kommer att upprepa sig. Flyttande genomsnitt. En prognos för tidsserier kan vara så enkel som att använda efterfrågan under den aktuella perioden för att förutsäga efterfrågan under nästa period Detta kallas ibland en naiv eller intuitiv prognos 4 Till exempel, om efterfrågan är 100 enheter i veckan, är prognosen för nästa veckans efterfrågan 100 enheter om efterfrågan visar sig vara 90 enheter istället, då efterföljande veckas efterfrågan är 90 enheter , Och så vidare. Denna typ av prognostiseringsmetod tar inte hänsyn till historiskt efterfrågan beteende som det endast bygger på efterfrågan under den aktuella perioden. Det reagerar direkt på det normala, slumpmässiga m Ovannor i efterfrågan. Den enkla glidande metoden använder flera efterfrågningsvärden under det senaste förflutet för att utveckla en prognos. Detta tenderar att dämpa eller släta ut de slumpmässiga ökar och minskar en prognos som endast använder en period. Det enkla glidande medlet är användbart för Prognostiserar efterfrågan som är stabil och visar inte något uttalat efterfrågan beteende, såsom en trend eller säsongsmönster. Flyttmedelvärdena beräknas för specifika perioder, t ex tre månader eller fem månader, beroende på hur mycket prognosen önskar släta efterfrågningsdata Ju längre glidande medelperiod, ju mjukare blir det. Formeln för att beräkna det enkla rörliga genomsnittsvärdet betecknar ett enkelt rörligt medel. Instant Paper Clip Office Supply Company säljer och levererar kontorsmaterial till företag, skolor och byråer inom en 50 mil Radiant av sitt lager Kontorsleveransverksamheten är konkurrenskraftig och förmågan att leverera order snabbt är en faktor för att få nya kunder och att hålla gamla De kontor som normalt beställer inte när de löper låga leveranser, men när de slutar helt. Som ett resultat behöver de sina order omedelbart. Företagets chef vill vara säker nog förare och fordon finns tillgängliga för att leverera order snabbt och de har tillräckliga Lager i lager Därför vill chefen kunna förutse antalet order som kommer att inträffa under nästa månad, dvs att förutse efterfrågan på leveranser. Från register över leveransorder har ledningen ackumulerat följande data under de senaste 10 månaderna, Från vilken den vill beräkna 3- och 5-månaders glidande medelvärden. Låt oss anta att det är slutet av oktober Prognosen som följer av antingen 3- eller 5-månaders glidande medelvärde är typiskt för nästa månad i följd, Vilket i det här fallet är november Det rörliga genomsnittet beräknas från efterfrågan på order för de föregående 3 månaderna i sekvensen enligt följande formel. 5-månaders glidande medelvärde beräknas från pr Ior 5 månader efterfrågningsdata enligt följande. De 3- och 5-månaders rörliga genomsnittliga prognoserna för alla månader av efterfrågadata visas i följande tabell. I själva verket skulle endast prognosen för november baserat på den senaste månatliga efterfrågan användas av Chefen Men de tidigare prognoserna för tidigare månader gör det möjligt för oss att jämföra prognosen med den faktiska efterfrågan för att se hur exakt prognosmetoden är - det vill säga hur bra det gör. Tre och fem månaders genomsnitt. Tabellen ovan tenderar att släta ut variabiliteten i själva dataen. Denna utjämningseffekt kan observeras i följande figur där 3-månads - och 5-månadsmedelvärdena har överlagts på en graf av de ursprungliga data. 5-månadens Glidande medelvärde i föregående siffra utjämnar fluktuationer i större utsträckning än 3 månaders glidande medelvärde. Det 3-månadersgenomsnittet återspeglar emellertid de senaste uppgifterna som finns tillgängliga för kontorsleverantören. I allmänhet prognostiserar viin G det längre glidande genomsnittet är långsammare att reagera på de senaste förändringarna i efterfrågan än skulle de som gjordes med hjälp av kortare glidmedelvärden. De extra dataperioderna dämpar den hastighet som prognosen svarar på. Fastställande av lämpligt antal perioder att använda i en rörelse Genomsnittlig prognos kräver ofta en viss mängd försök och fel-experiment. Nackdelen med den glidande genomsnittliga metoden är att den inte reagerar på variationer som uppstår av en orsak, såsom cykler och säsongseffekter. Faktorer som orsakar förändringar ignoreras generellt Det är I princip är det en mekanisk metod som återspeglar historiska data på ett konsekvent sätt. Den glidande medelmetoden har dock fördelen att det är lätt att använda, snabbt och relativt billigt. Generellt kan denna metod ge en bra prognos för kortsiktiga, men Det bör inte skjutas för långt in i framtiden. Vägt rörligt medelvärde. Den glidande genomsnittliga metoden kan justeras för att bättre reflektera fluktuationer i data I den viktade glidande genomsnittliga metoden tilldelas vikter till de senaste data enligt följande formel. Efterfrågningsdata för PM-datatjänster som visas i tabellen för Exempel 10 3 verkar följa en ökande linjär trend Företaget vill beräkna en linjär Trendlinje för att se om det är mer exakt än exponentiella utjämning och justerade exponentiella utjämningsprognoser som utvecklats i exempel 10 3 och 10 4. De värden som krävs för minsta kvadratberäkning är följande. Med dessa värden används parametrarna för linjär trendlinje Beräknas enligt följande. Därför är linjär trendlinjekvation. För att beräkna en prognos för period 13, låt x 13 i linjär trendlinje. Följande diagram visar linjär trendlinje jämfört med aktuella data. Trendlinjen verkar reflektera Nära de faktiska dataen - det vill säga vara en bra passform - och skulle därmed vara en bra prognosmodell för detta problem. En nackdel med den linjära trenderlinjen är att den inte kommer att adju St till en förändring i trenden, eftersom de exponentiella utjämningsprognosmetoderna kommer att det antas att alla framtida prognoser kommer att följa en rak linje. Detta begränsar användningen av denna metod till en kortare tidsram där du kan vara relativt säker på att Trenden kommer inte att förändras. Säsongsjusteringar. Ett säsongsmönster är en repetitiv ökning och minskad efterfrågan Många efterfrågade föremål uppvisar säsongsbeteende. Klädförsäljningen följer årliga säsongsmönster, med efterfrågan på varma kläder ökar på hösten och vintern och sjunker under våren och Sommar då efterfrågan på svalare kläder ökar Efterfrågan på många detaljhandelsvaror, inklusive leksaker, sportutrustning, kläder, elektroniska apparater, skinkor, kalkoner, vin och frukt, ökar under semesterperioden. Efterfrågan på hälsokort ökar i samband med speciella dagar som t. ex. Alla hjärtans dag och mors dag Säsongsmönster kan också ske varje månad, veckovis eller till och med dagligen. Några restauranger har högre efterfrågan i e Vening än vid lunch eller på helgerna i motsats till vardagar Trafik - därmed försäljning - på köpcentra hämtar på fredag ​​och lördag. Det finns flera metoder för att reflektera säsongsmönster i en tidsserieprognos Vi beskriver en av de enklare metoderna med hjälp av En säsongsfaktor En säsongsfaktor är ett numeriskt värde som multipliceras med den normala prognosen för att få en säsongrensad prognos. En metod för att utveckla en efterfrågan på säsongsmässiga faktorer är att dela efterfrågan på varje säsongsperiod med den totala årliga efterfrågan enligt Följande formel. De resulterande säsongsfaktorerna mellan 0 och 1 0 är i själva verket den del av den totala årliga efterfrågan som tilldelas varje säsong. Dessa säsongsfaktorer multipliceras med den årliga prognostiserade efterfrågan för att ge justerade prognoser för varje säsongspå ett prognos med säsongsjusteringar. Wishbone Farms växer kalkoner att sälja till köttbearbetningsföretag under hela året. Men högsäsongen är uppenbarligen under fjärde kvartalet Året från oktober till december Wishbone Farms har upplevt efterfrågan på kalkoner under de senaste tre åren som visas i följande tabell. Eftersom vi har tre års efterfrågadata kan vi beräkna säsongsfaktorerna genom att dela upp den totala kvartalsbehovet för de tre åren Efter total efterfrågan under alla tre år. Nästan vi vill multiplicera den prognostiserade efterfrågan på nästa år 2000 av varje säsongsfaktor för att få den prognostiserade efterfrågan på varje kvartal. För att uppnå detta behöver vi en efterfråganprognos för 2000 I I det här fallet, eftersom efterfrågadata i tabellen verkar uppvisa en generellt ökande trend, beräknar vi en linjär trendlinje för treåren av data i tabellen för att få en grov prognos. Därför är prognosen för 2000 58 17, Eller 58.170 kalkoner. Användning av denna årliga prognos för efterfrågan, de säsongrensade prognoserna, SF i, för 2000 räknar ut dessa kvartalsprognoser med de faktiska efterfrågningsvärdena i tabellen, de verkar vara relativt goda prognoser esti Mates, vilket återspeglar både säsongsvariationerna i data och den allmänna uppåtgående trenden.10-12 Hur är den glidande medelmetoden lik exponentiell utjämning.10-13 Vilken effekt på exponentiell utjämningsmodell kommer att öka utjämningskonstanten har 10-14 Hur skiljer sig justerad exponentiell utjämning från exponentiell utjämning.10-15 Vad bestämmer valet av utjämningskonstanten för trend i en justerad exponentiell utjämningsmodell.10-16 I kapitelexemplen för tidsseriemetoder antogs alltid prognosprognosen Samma som den faktiska efterfrågan under den första perioden. Föreslå andra sätt att startprognosen kan härledas vid faktisk användning.10-17 Hur skiljer linjen för prognosmodellen för linjär trendlinje sig från en linjär regressionsmodell för prognos.10-18 Av tidsserierna Modeller som presenteras i det här kapitlet, inklusive glidande medelvärde och viktat glidande medelvärde, exponentiell utjämning och justerad exponentiell utjämning och linjär trendlinje, vilken gör du med Nsider det bästa Why.10-19 Vilka fördelar har justerad exponentiell utjämning över en linjär trendlinje för prognostiserad efterfrågan som uppvisar en trend.4 KB Kahn och JT Mentzer, prognoser inom konsument - och industrimarknaderna, tidningen för företagsprognoser 14, nej 2 Summer 1995 21-28.Linär regressionsanalys är den mest använda av alla statistiska tekniker. Det är studien av linjära additiva relationer mellan variabler. Låt Y beteckna den beroende variabeln vars värden du vill förutsäga, och låt X 1, X k beteckna De oberoende variablerna som du vill förutsäga det med värdet av variabel X i i period t eller i rad t i datasatsen betecknad med X den. Då är ekvationen för beräkning av det förutspådda värdet på Y t. Denna formel har Egenskapen att förutsägelsen för Y är en rak linjefunktion av var och en av X-variablerna, håller de andra fasta och bidragen från olika X-variabler till förutsägelserna är additiv. Höjden av deras individuella rak - Linjeläkningar med Y är konstanterna b 1 b 2, bk de så kallade koefficienterna för variablerna Det vill säga, bi är förändringen i det förutspådda värdet på Y per förändringsenhet i X i andra saker lika med. Den extra konstant b 0 den så kallade avlyssningen är förutsägelsen som modellen skulle göra om alla Xs var noll om det är möjligt. Koefficienterna och avlyssningen beräknas med minsta kvadrater, dvs att de är lika med de unika värdena som minimerar summan av kvadrerade fel i Det urval av data som modellen är anpassad till och modellens prediktionsfel antas normalt vara oberoende och identiskt fördelade. Det första du borde veta om linjär regression är hur den märkliga terminsregressionen kom att tillämpas på modeller som Detta De först studerades djupt av en 1800-talets vetenskapsman, Sir Francis Galton Galton var en självlärd naturforskare, antropolog, astronom och statistiker - och en verklig Indiana Jones karaktär Han var känd för sina utforskningar, och han skrev en bästsäljande bok om hur man ska överleva i öknen med titeln "The Art of Travel Shifts och Contrivances Available in Wild Places" och dess uppföljare, The Art of Raw Travel, från den praktiska till den sällsynta De är fortfarande i tryck och anses fortfarande som användbara resurser. De ger många praktiska tips för att hålla sig vid liv - till exempel hur man behandlar spjutsår eller extraherar hästen från kvicksand - och introducerade begreppet sovsäck till västvärlden. Klicka på Dessa bilder för mer detaljer. Galton var en pionjär i tillämpningen av statistiska metoder för mätningar inom många vetenskapsområden och när han studerade data om relativa storlekar av föräldrar och deras avkommor i olika arter av växter och djur observerade han följande fenomen a Större än genomsnittlig förälder tenderar att producera ett större än genomsnittligt barn, men barnet är sannolikt att vara mindre stort än föräldern när det gäller dess relativa position inom sin egen generatio N Om exempelvis föräldrars storlek är x standardavvikelser från medelvärdet inom sin egen generation, bör du förutse att barnets storlek blir rx r gånger x standardavvikelser från medelvärdet inom barns uppsättning av dessa Föräldrar där r är ett tal mindre än 1 i storlek r är det som kommer att definieras nedan som korrelationen mellan förälderns storlek och barnets storlek. Detsamma gäller för praktiskt taget alla fysiska mätningar och när det gäller människor, Mest mätningar av kognitiv och fysisk förmåga som kan utföras på föräldrar och deras avkommor Här är den första publicerade bilden av en regressionslinje som illustrerar denna effekt, från en föreläsning presenterad av Galton 1877. R-symbolen på detta diagram vars värde är 0 33 Betecknar lutningskoefficienten, inte korrelationen, även om de båda är desamma om båda populationerna har samma standardavvikelse som kommer att visas nedan. Galton betecknade detta fenomen en regression mot mediokritet som i mod Ern termen är en regression till den genomsnittliga För en na ve observatör kan det här föreslå att senare generationer kommer att uppvisa mindre variation - bokstavligen mer mediokritet - än tidigare, men det är inte fallet Det är ett rent statistiskt fenomen Om inte varje barn Är exakt lika stor som föräldern i relativa termer, dvs om korrelationen exakt är lika med 1, måste förutsägelserna återgå till medelvärdet oberoende av biologi om det genomsnittliga kvadratfelet ska minimeras. Returnera till början av sidan. Är ett oundvikligt faktum i livet Dina barn kan förväntas vara mindre exceptionella för bättre eller sämre än du är Dina poäng på en tentamen i en kurs kan förväntas vara mindre bra eller dåliga än din poäng på halvtidsexamen i förhållande till Resten av klass A basebollspelare s batting medelvärde under andra halvan av säsongen kan förväntas vara närmare medelvärdet för alla spelare än hans batting genomsnittet under första halvan av säsongen Och så vidare Nyckelordet här Förväntas Det betyder inte att det är säkert att regression till medelvärdet kommer att inträffa, men det är sättet att satsa. Vi har redan sett ett förslag på regression-to-the-mean i vissa tidsserier prognoser modeller som vi har studerat Prognosprognoser tenderar att vara jämnare - de uppvisar mindre variationer än de ursprungliga uppgifterna. Detta gäller inte för slumpmässiga promenadmodeller, men det är generellt sant att de rörliga genomsnittsmodellerna och andra modeller baserar sina prognoser på Mer än en tidigare observation. Den intuitiva förklaringen till regressionseffekten är enkel, den sak vi försöker förutsäga består vanligtvis av en förutsägbar komponentsignal och ett statistiskt oberoende oförutsägbart komponentljud. Det bästa vi kan hoppas göra är att bara förutsäga den delen av Variabiliteten som beror på signalen. Därför tenderar våra prognoser att visa mindre variation än de faktiska värdena, vilket innebär en regression till medelvärdet. Ett annat sätt att tänka på regressionseffekten är i termen S av urvalsförhållanden Generellt sett kan en spelares prestanda över en viss tidsperiod hänföras till en kombination av skicklighet och lycka. Antag att vi väljer ett urval professionella idrottare vars prestanda var mycket bättre än genomsnittet eller elever vars betyg var mycket bättre än Genomsnittet under årets första hälft Det faktum att de gjorde så bra under första halvåret gör det troligt att både deras skicklighet och lycka var bättre än genomsnittet under den perioden. Under andra halvåret kan vi förvänta dem Att vara lika skicklig, men vi borde inte förvänta dem att vara lika lyckliga. Så vi borde förutsäga att i andra halvlek kommer deras prestation att vara närmare medelvärdet. Samtidigt hade spelare vars prestanda bara var genomsnittliga under första halvleken nog förmodligen skicklighet och lycka till I motsatta riktningar för dem Vi borde därför förvänta sig att deras prestanda under andra halvåret flyttar sig från medelvärdet i en eller annan riktning, eftersom vi får ett annat oberoende test av Deras skicklighet Vi vet inte vilken riktning de kommer att flytta, men så även för dem borde vi förutsäga att deras andra halvlek kommer att vara närmare medelvärdet än deras första hälften prestanda. Men den verkliga prestationen hos spelarna bör förväntas ha En lika stor varians under andra halvåret som i första halvleken, eftersom det bara beror på en omfördelning av oberoende slump mellan spelare med samma kompetensfördelning som tidigare. En fin diskussion om regression till medelvärdet i det bredare Sammanfattning av samhällsvetenskaplig forskning kan hittas här. Gå tillbaka till början av sidan. Justering av regressionsantaganden. Varför bör vi anta att relationerna mellan variablerna är linjära. Eftersom linjära relationer är de enklaste, icke-triviala förhållanden som man kan föreställa sig är det lättast att arbeta Med, och eftersom de sanna relationerna mellan våra variabler ofta är åtminstone ungefär linjära över det värdeområde som är av intresse Till oss, och även om de inte gör det, kan vi ofta förvandla variablerna på ett sådant sätt att de lineariserar förhållandet. Det här är ett starkt antagande och det första steget i regressionsmodellering bör vara att titta på variablernas spridningsplottor och När det gäller tidsseriedata, varianter av variablerna jämfört med tiden, för att försäkra sig om att det är rimligt a priori och efter att ha monterat en modell, bör felen av felen studeras för att se om det finns oförklarliga olinjära mönster. Detta är särskilt viktigt när Målet är att göra förutsägelser för scenarier utanför området för historiska data, där avvikelser från perfekt linearitet sannolikt kommer att få störst effekt. Om du ser tecken på olinjära relationer är det möjligt men inte garanterat att omvandlingar av variabler kommer att räta ut dem i Ett sätt som kommer att ge användbara inferenser och förutsägelser via linjär regression Returnera till början av sidan. Och varför ska vi anta att effekterna av olika oberoende variabler på expec Ted-värdet för den beroende variabeln är tillsats Detta är ett mycket starkt antagande, starkare än de flesta inser Det betyder att marginal effekten av en oberoende variabel, dvs dess lutningskoefficient, inte beror på nuvarande värden för andra oberoende variabler. Men varför borde det inte Det är tänkbart att en oberoende variabel kan förstärka effekten av en annan, eller att dess effekt kan variera systematiskt över tiden. I en multipelregressionsmodell mäter den uppskattade koefficienten för en given oberoende variabel antagligen sin effekt samtidigt som man kontrollerar de andra människornas närvaro. , Hur kontrollen utförs är extremt förenklad. Multiplar av andra variabler läggs bara till eller subtraheras. Mycket användare slänger bara en hel del oberoende variabler i modellen utan att noga tänka på det här problemet, som om deras programvara automatiskt kommer att räkna ut exakt hur De är relaterade Det vann t Även automatiska modellval metoder som stegvis regre Ssion kräver att du har en bra förståelse för dina egna data och att använda en ledande hand i analysen. De arbetar endast med de variabler de ges i den form som de ges och sedan ser de bara ut linjära, tillsatsmönster bland Dem i sammanhanget av varandra En regressionsmodell antar inte bara att Y är någon funktion av X s. Det förutsätter att det är en mycket speciell typ av Xs funktion. En vanlig praxis är att inkludera oberoende variabler vars logiska effekter logiskt Kan inte vara additiv, säg, några som är totals och andra som är satser eller procentsatser Ibland kan det rationaliseras med lokala första ordningens approximationsargument och ibland kan det t. You måste samla relevanta data, förstå vad det mäter, Städa upp det vid behov, utföra beskrivande analyser för att leta efter mönster innan du monterar några modeller och studera de diagnostiska testerna av modellantaganden efteråt, särskilt statistik och diagram av fel. Du bör också Försök att tillämpa lämplig ekonomisk eller fysisk resonemang för att avgöra om en tilläggsberäkningsekvation är meningsfull Här är det också möjligt men inte garanterat att omvandlingar av variabler eller införandet av interaktionsvillkor kan skilja deras effekter i en tillsatsform, om de inte gör det Har en sådan form till att börja med men det kräver en del tankar och ansträngningar från din sida. Tillbaka till början av sidan. Och varför ska vi anta att felen i linjära modeller är oberoende och identiskt fördelade. Detta antagande är ofta motiverat genom att överklaga till Den centrala gränsteorin för statistik som anger att summan eller medelvärdet för ett tillräckligt stort antal oberoende slumpvariabler - oavsett deras individuella fördelningar - närmar sig en normal fördelning. Mycket data i näringslivet, ekonomi och teknik och naturvetenskapen erhålls genom Lägga till eller genomsnittliga numeriska mätningar utförda på många olika personer eller produkter eller platser eller tid inte Rvals I den utsträckning som de aktiviteter som genererar mätningarna kan ske något slumpmässigt och något självständigt, kan vi förvänta oss att variationerna i totals eller medelvärden blir något normalt fördelade.2 Det är återigen matematiskt bekvämt att det innebär att den optimala koefficienten uppskattas för en linjär modell Är de som minimerar det genomsnittliga kvadratfelet som enkelt beräknas och det motiverar användningen av en mängd statistiska tester baserat på den vanliga familjen av distributioner. Denna familj innefattar t-fördelningen, F-fördelningen och Chi-kvadratfördelningen.3 Även om den verkliga felprocessen inte är normal i förhållande till dataens ursprungliga enheter, kan det vara möjligt att omvandla data så att din modell s förutsägelsesfel är ungefär normala. Men här måste försiktighet utövas Även om de oförklarliga variationerna I den beroende variabeln är ungefär normalt fördelad, är det inte garanterat att de också kommer att vara identiskt vanligen distribuerade Ted för alla värden av de oberoende variablerna Kanske är de oförklarliga variationerna större under vissa förhållanden än andra, ett tillstånd som kallas heteroscedasticitet Till exempel, om den beroende variabeln består av daglig eller månad total försäljning, är det förmodligen betydande veckodagsmönster Eller säsongsmönster I sådana fall kommer den totala variationen att vara större på dagar eller årstider med större affärsverksamhet - en annan konsekvens av centralgränsteoretiken. Variabla transformationer som loggning eller säsongjustering används ofta för att hantera detta problem. Det är inte heller säkert att de slumpmässiga variationerna kommer att vara statistiskt oberoende. Det här är en särskilt viktig fråga när data består av tidsserier om modellen inte är korrekt specificerad, är det möjligt att konsekutiva fel eller fel separerade av ett annat antal perioder kommer att ha En systematisk tendens att ha samma tecken eller en systematisk tendens att ha motsatta tecken, en fenomen Inte känt som autokorrelation eller seriell korrelation. Ett mycket viktigt speciellt fall är att aktiekursdata där procentuella förändringar snarare än absoluta förändringar tenderar att normalt distribueras. Det innebär att över moderata till stora tidsskalor är rörelser i aktiekurser lognormalt fördelade snarare Än normalt distribuerad En loggtransformation tillämpas vanligtvis på historiska aktiekursdata när man studerar tillväxt och volatilitet. OBS! Även om enkla regressionsmodeller ofta monteras på historiska aktieavkastningar för att uppskatta betas, vilka är indikatorer på relativ risk i samband med en diversifierad portfölj, Rekommendera inte att du använder regression för att försöka förutse framtida aktieavkastning. Se den geometriska slumpmässiga promenadsidan istället. Du kanske fortfarande tror att variationer i värdena på portföljer av aktier normalt brukar distribueras, med stöd av centralgränsteoretiken, Men den centrala gränssatsen är faktiskt ganska långsam att bita på den lognormala distr Ibution eftersom det är så asymmetriskt långsiktig En summa av 10 eller 20 oberoende och identiskt lognormalt fördelade variabler har en fördelning som fortfarande är ganska nära lognormal Om du inte tror det här, försök prova det med Monte Carlo-simulering du kommer bli förvånad jag Varför. Eftersom antagandena om linjär regressionslinjär är additivrelationer med normalt distribuerade fel så starka, är det väldigt viktigt att testa deras validitet vid montering av modeller, ett ämne som diskuteras mer detaljerat på testmodell-antagningssidan och var uppmärksam Till möjligheten att du kanske behöver mer eller bättre data för att uppnå dina mål Du kan inte få någonting från ingenting Alltför ofta ser användarna av regressionsanalys det som en svart ruta som automatiskt kan förutsäga någon given variabel från andra variabler som Matas in i det, när faktiskt en regressionsmodell är en mycket speciell och mycket transparent typ av prediktionsbox. Dess utdata innehåller inte mer information än Tillhandahålls av dess ingångar, och dess inre mekanism måste jämföras med verkligheten i varje situation där den tillämpas. Returnera till början av sidan. Korrelation och enkla regressionsformler. En variabel är per definition en kvantitet som kan variera från en mätning till En annan i situationer där olika prover tas från en befolkning eller observationer görs på olika tidpunkter Vid anpassning av statistiska modeller där vissa variabler används för att förutse andra, vad vi hoppas kunna hitta är att de olika variablerna inte varierar oberoende i en Statistisk mening men att de tenderar att variera ihop. När vi anpassar linjära modeller hoppas vi kunna hitta att en variabel säger att Y varierar som en rak linjefunktion av en annan variabel, säger X. Med andra ord om alla andra Eventuellt relevanta variabler kan hållas fasta, vi hoppas kunna hitta diagrammet av Y mot X för att vara en rak linje bortsett från de oundvikliga slumpmässiga fel eller noise. A-mätningen av den absoluta mängden vari Förmåga i en variabel är naturligtvis dess varians som definieras som sin genomsnittliga kvadrerade avvikelse från sitt eget medelvärde. Likvärdigt kan vi mäta variabilitet i form av standardavvikelsen som definieras som kvadratroten av variansen. Standardavvikelsen har fördelen att den Mäts i samma enheter som den ursprungliga variabeln, i stället för kvadrerade enheter. Vår uppgift att förutsäga Y kan beskrivas som att förklara något eller hela dess varians - dvs varför eller under vilka förhållanden avviker det från dess genomsnittliga varför Är det inte konstant Det vill vi kunna förbättra på den naiva prediktiva modellen t CONSTANT, där det bästa värdet för konstanten är förmodligen det historiska medelvärdet av Y Mer exakt hoppas vi hitta en modell vars prediktionsfel Är mindre, i en medel kvadratisk betydelse, än avvikelserna från den ursprungliga variabeln från dess medelvärde. Med användning av linjära modeller för förutsägelse visar det sig mycket bekvämt att den enda statistiken av intresse minst f Eller syfte att uppskatta koefficienter för att minimera kvadratfel är medelvärdet och variansen för varje variabel och korrelationskoefficienten mellan varje par av variabler Korrelationskoefficienten mellan X och Y betecknas vanligen av r XY och det mäter styrkan i det linjära sambandet mellan Dem på en relativ dvs enhetlös skala av -1 till 1 Det vill säga mäter den i vilken utsträckning en linjär modell kan användas för att förutse en variables avvikelse från dess genomsnittliga givna kunskaper om den andra s avvikelsen från dess medelvärde på samma Tidpunkten. Korrelationskoefficienten beräknas lättast om vi först standardiserar variablerna, vilket innebär att konvertera dem till enheter med standardavvikelser-från-medelvärdet, med hjälp av populationens standardavvikelse i stället för provstandardavvikelsen, dvs. Den statistik vars formel har n snarare än n-1 i nämnaren, där n är provstorleken Den standardiserade versionen av X kommer här betecknas med X och dess värde i period t Definieras i Excel notation as. where STDEV P är Excel-funktionen för populationens standardavvikelse Här och på andra ställen kommer jag att använda Excel-funktioner i stället för konventionella matematiska symboler i några av formlerna för att illustrera hur beräkningarna skulle göras på ett kalkylblad Antag exempelvis att AVERAGE X 20 och STDEV PX 5 Om X t 25, då X t 1, om X t 10 då X t -2 och så vidare Y betecknar det likformigt standardiserade värdet på Y. Nu är korrelationskoefficienten Är lika med medelprodukten av de standardiserade värdena för de två variablerna inom det angivna provet av n observationer. Till exempel om X och Y lagras i kolumner på ett kalkylblad kan du använda AVERAGE och STDEV P-funktionerna för att beräkna their averages and population standard deviations, then you can create two new columns in which the values of X and Y in each row are computed according to the formula above Then create a third new column in which X is multiplied by Y in every row The average of the values in the last column is the correlation between X and Y Of course, in Excel, you can just use the formula CORREL X, Y to calculate a correlation coefficient, where X and Y denote the cell ranges of the data for the variables Note in some situations it might be of interest to standardize the data relative to the sample standard deviation, which is STDEV S in Excel, but the population statistic is the correct one to use in the formula above Return to top of page. If the two variables tend to vary on the same sides of their respective means at the same time, then the average product of their deviations and hence the correlation between them will be positive since the product of two numbers with the same sign is positive Conversely, if they tend to vary on opposite sides of their respective means at the same time, their correlation will be negative If they vary independently with respect to their means--that is, if one is equally likely to be above or below its mean regardless of what t he other is doing--then the correlation will be zero And if Y is an exact linear function of X, then either Y t X t for all t or else Y t - X t for all t in which case the formula for the correlation reduces to 1 or -1.The correlation coefficient can be said to measure the strength of the linear relationship between Y and X for the following reason The linear equation for predicting Y from X that minimizes mean squared error is simply. Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY This fact is not supposed to be obvious, but it is easily prov ed by elementary differential calculus. Here is an example on a scatterplot of Y versus X the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 i e a 45-degree line , which is the gray dashed line on the plot below It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1 The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X The best line for predicting Y from X has a slope of less than 1 it regresses toward the X axis The regression line is shown in red, and its slope is the correlation between X and Y which is 0 46 in this case Why is this true Because, that s the way to bet if you want to minimize the mean squared error measured in the Y direction If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes. By rearranging this equation and collecting constant terms, we obtain. is the estimated slope of the regression line, and. is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute sta ndard errors t-statistics and P-values statistics that measure the precision and significance of the estimated coefficients are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file. Perfect positive correlation r XY 1 or perfect negative correlation r XY -1 is only obtained if one variable is an exact linear function of the other, without error, in which case they aren t really different variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value Therefore our prediction for Y is typically smaller in absolute value than our observed value for X That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galton s phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts i the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X and ii the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact noiseless linear function of X. The term regression has stuck and has even mutated from an intransitive verb into a transitive one since Galton s time We don t merely say that the predictions for Y regress to the mean --we now say that we are regressing Y on X when we estimate a linear equation for predicting Y from X and we refer to X as a regressor in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable the latter being the error variance of an intercept-only model The relative amount by which the regression model s error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable s For example, if the error variance is 20 less than the original variance, we say we have explained 20 of the variance. It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i e the square of r Hence, the fraction-of-variance-explained has come to be known as R-squared The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model one with two or more X variables , there are many correlation coefficients that must be computed, in addition to all the means and variances For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among t he variables--but the computations are no longer easy We will leave those details to the computer Return to top of page. Go on to a nearby topic.

No comments:

Post a Comment