regressione lineare semplice

posted in: che tempo fa domani a chioggia | 0

ESAs ‘ DATA .06,.063, ‘EFFETTO STAGIONALE (modello additivo) Iniziamo misurando o utilizzando N coppie di dati (xi,yi) relativi a due variabili sperimentali, che nel piano cartesiano x,y ipotizziamo statisticamente distribuiti come una retta (ipotesi suggerita dal grafico cartesiano o da altro) per cui sia applicabile il seguente modello matematico: Yi* = β0 + β1 * xi + εi ;   (xi,Yi*) sono le coordinate di n  punti sulla retta nella popolazione, mentre (xi,yi) sono le n coppie dei punti sperimentali. Una volta imparato come calcolare i coefficienti di una regressione lineare, appunto condotta sui dati con una combinazione polinomiale di funzioni sinusoidali, cercheremo di precisare con esempi il processo chiamato Analisi armonica di Fourier. if (abs(ro[i]) < 1e-10) ro[i]=0 else ro[i]=ro[i]} se α=0: > > N=length(y) Nei capitoli precedenti abbiamo parlato di modelli basati su una fattori sperimentali in forma di categorie, ad esempio diversi erbicidi o diverse varietà. > PRINT TAB(5); “3-Il nuovo test di LIN-MUSHOLKAR per la normalit…” The following objects are masked from ‘package:base’: > Potevamo anche’detrendizzarla’ prima Per vedere in pdf l’Esercitazione cliccare sotto: periodogramma-_di_dati_simul-trend_random_mod2_3 (2), yt4=100+4*sin(2*pi*2*t/256-pi/2)+3*sin(2*pi*4*t/256+0)+, yt5=100+4*sin(2*pi*2*t/256-pi/2)+3*sin(2*pi*2*pi*4*t/256+0)+, yt8=6*sin(5*pi*2*t/n8-pi/2)+2*sin(2*pi*30*t/n8+0)+3*sin(2*pi*40*t/n8-1.745)+rnorm(n8,0,1)*2. Si ipotizzi di avere un cronometro perfetto. Nel comando summary R fa da solo il test per l’ipotesi β1=0 nella colonna (pr(>|t!)) Una cosa è certa però: ci stiamo divertendo e andremo avanti e forse chissà se ci fermeremo. Dopo aver eliminato la componente stagionale (ESAs : APPENDIX3, TABELLA N.2, col.1) dalla serie originale yt  (APPENDIX3,  TABELLA N.1, col.5) sottraendo yt – ESAs, si ottiene la serie destagionalizzata (dst ovvero y1t:  APPENDIX3, TABELLA N.2, col.2). #.0202,.0157,-.0048,-.0252,-.0117,-.0092. PlotLabel -> FontForm[Rqagg “->Rq-Aggiustato”, {“Times”, 12}], N. 2, a e b). t2 = 180 + t2 “della variabile dipendente per ogni xi” Ciò significa: STRD= (ciclo+TREND+stagionalità+random) – (ciclo+TREND)=stagionalità+random; 60-12=48 termini. Per ottenere i relativi Effetti stagionali orari o mensili, ripeto con ‘rep’ rispettivamente i 24 o  i 30 valori lungo l’intero anno (365 volte per le ore e 12 volte per i mesi). Allora α/t= 2π/T; α=2πt/T = 2πt/n e yt=A*sin((k/n*t)*2*π+φ). Per aprire e chiudere i DATA si usa l’apice ‘. Copro poi i 5 anni ripetendo questi 12 valori: ESAs = rep(mediacol,5) # Effetto stagionale di yt o as1, ESAs # serie lunga come yt o as1 originale. Regressione lineare multipla: modello ed esempio di applicazione. > e(p) = SQR(a * a + b * b) Si presenta così  un aspetto ciclico nei residui (Fig. “di linearità, normalità e varianza costante, richieste” Una possibilità ipotetica di indebolire il senso comune si propone con un approfondimento dei processi di comprensione scientifica in un insegnamento, a livello orizzontale, intensivo e sostenuto dall’uso di una programmazione il più possibile congeniale ai processi della natura (linguaggi come il Mathematica di Wolfram) e, a livello verticale, in un insegnamento a spirale (proposto sia dal primo sia dal secondo Bruner (6)) in più riprese nel tempo. yg2=ListPlot[yt2,PlotJoined->True,GridLines->{Automatic, Automatic}] In effetti calcolo i residui col comando “resid” e plotto i residui (FIG.6). Ci accorgiamo che questo rapporto è uguale a R-quadro (dimostrare). Se si presentano chiari patterns nei grafici detti, tali assunzioni possono essere violate. > rh=result1/result3 È disponibile in tutte le versioni di Excel (dalla versione 2003 alla versione 2019) ma, per impostazione predefinita, non è abilitato. 0.0736,0.0742,0.0733,0.0637,0.0705) PRINT Se tale rapporto è elevato (variazione spiegata > variazione residuale), riportato sulla distribuzione di Fisher, cade nella zona proibita, l’ipotesi che r-quadro pop.=0 deve essere respinta. Noi autori. modello di regressione lineare semplice. Col comando “lm” trovo la retta di regressione sulle 20 medie trimestrali (FIG.1). Yt1 Ha valore +1 se le due variabili variano linearmente in fase e -1 se variano in controvase. param_a <-a [16] -0.0072773183 -0.0009393484 0.0036479950 0.0045686717 -0.0072773183 ‘PRINT s(1); s(2); s(3); s(4); s(5) ” B0 e B1, nei quali con la probabilità del 95% ” mt #OK. # in Mt ci sono i 48 (60-12) dati Media mobile di yt, da cui costruisco i 12 Fattori Stagionali (FStag) facendo la media dei 4 gennaio, dei 4 febbraio ecc. Il programma nei due casi accennati, lanciato, fornirà 1) La tabella dei coefficienti di auto-correlazione 2)La statistica di Durbin Watson per controllare se c’è autocorrelazione nella serie in studio 3)La statistica di LinMudholcar che è un test sulla gaussiana; 4) L’analisi di Fourier (per ora sospesa). – L’ipotesi di indipendenza dei residui è uno dei più importanti. La rapida obsolescenza dei concetti scientifici acquisiti nella scuola, le possibile tendenze riduttive delle nuove riforme che sembrano indirizzare l’insegnamento, in maniera più o meno mediata o camuffata, verso un inserimento più efficace nelle aziende, e la necessità armai stringente nella vita sociale di partecipare in modo sempre più esperto ai progetti e alle decisioni, se non vogliamo diventare cittadini tagliati fuori dalle scelte di sopravvivenza, spingerebbero verso una riformulazione dei curricola scolastici così da includere anche a livelli più bassi di scolarizzazione saperi indispensabili per queste scelte onde innescare l’insegnamento a spirale per facilitarne il trasferimento a livello di senso comune (assimilazione). Tutto quello che verrà detto durante questo lavoro, pur non avendo la pretesa di esaurire le problematiche ivi implicate (per questo vedere bibliografia), speriamo aiuterà il lettore, se interessato, a seguire l’analisi di una serie storica, attraverso cammini meno usuali e teorici, fornendo strumenti operativi per poter affrontare studi più organizzati in un secondo momento. library(lmtest), w=c(0.033,0.043,0.051,0.059,0.061,0.063,0.053,0.036,0.046,0.056, resultreg=lm(y~x) # o In generale l’ES, se c’è, si toglie dai dati iniziali, per ottenere una serie nuova senza tale effetto (senza oscillazioni), ma contenente trend+residui. Contenuto trovato all'interno – Pagina 1007(2); • un valore di DFFITS >2√(k/n) o >2√(2/n) per il caso della regressione lineare semplice che diventa DFFITS >2√(2/20), DFFITS > 0.63246; • un valore di DFBETAS >2/ n che diventa Dfbetas >2/ 20 o >0.4472. Teoria e formule sul modello di regressione lineare semplice. 3) costanza della loro varianza ad ogni xi, con plots dei residui VS tempo, ordinate yi e valori fittati; plot(xi,yt) #fa uno scatterplot dei dati e vi aggiunge la retta di regressione b=2*b/n yt=100+4*sin(2*t/21*2*pi-pi/2)+3*sin(4*t/21*2*pi+0)+ Summary(resultreg) Capitolo 11. t=c(1:n) 133). Aggiungiamo al plot la retta di regressione per precisare l’idea sull’ipotesi iniziale (scelta di una regressione lineare semplice), con library(tseries) # lasciando un’iperbole ‘pulita’  a rappresentare (da controllare!) L’ArcTan opera sulla tangente di un certo angolo alfa e dovrebbe riportare a video l’angolo di partenza secondo la convenzione standard per la misura degli angoli. dwtest(fitadj_trim, alternative=”two.sided”) plot(x,y). N.5 a) correlogramma) e 5b (periodogramma), il test per l’indipendenza di Durbin Watson e quello per la normalità di Lin Mudholkar. # CALCOLO DELLA FASE DI OGNI ARMONICA plot(detrend_trim,type=”l”, main=”FIG.2″) #basta far girare il programma nei diversi casi. Ricordarsi, una volta sulla consolle, per prima cosa, sempre azzerare  i dati, che R ha già in memoria, tramite il menù ‘VARIE’ (Rimuovi tutti gli oggetti) e poi introdurre in R, prima di incollare la PRDGRAM, le ‘library’ necessarie (tseries e graphics). 0.0740,0.0739,0.0747,0.0745,0.0734,0.0738,0.0744,0.0743,0.0736,0.0735}”, “Il vettore asf12 (48 dati) viene utilizzato per l’elaborazione dei 12 fattori stagionali, detti AsFS, (prendendo tutti i valori di gennaio diviso 4 (media dei 4 gennaio), tutti valori di febbraio diviso 4 (media dei 4 febbraio) fino al dodicesimo fattore per dicembre. Brevi remarks sono stati abbinati anche agli svariati tests statistici condotti. yt=c(.033,.043,.051,.059,.061,.063,.053,.036,.046,.056,.063,.048,.053,.043,.066,.053,.082,.06,.08,.076,.056,.036,.05,.053, 450 IF a > 0 THEN 470 Allora i tests che fanno riferimento al comportamento della popolazione universo (in particolare gli F-tests) possono non essere affidabili e quindi incerto il modello di regressione usata. #6*sin(5*t/n*2*pi-1.745) + 0.5*t)+(rnorm(t,0,1)-1/2)) # analisi ytregrnorm b0 E’ interessante notare come abbiamo ottenuto un’oscillazione in 12 mesi fattori stagionali, che potremmo estendere ai 5 anni con il comando rep, ottenendo l’effetto stagionale (ancora 60 dati) che toglieremo dai dati originali yt, al fine di avere yt1 (ciclo+trend+random). Ciò significa che esiste nella serie una persistenza di valori a breve termine, nel senso che se la grandezza in studio ha valore più elevato della media in un mese, lo sarà anche in uno o due mesi successivi e così per valori inferiori alla media. 11-COME SI FA A VEDERE SE QUESTO MODELLO E’ ACCETTABILE CON IL MATHEMATICA DI WOLFRAN Scripts di Piero Pistoia, 1-PERCHE’ RITENIAMO RILEVANTE OGGI UNA COMUNICAZIONE DIDATTICO-OPERATIVA SUL METODO DEI MINIMI QUADRATI APPLICATO ANCHE AD UN POLINOMIO TRIGONOMETRICO. Parlo dei settori culturali che riguardano per es. N.2 a)  si osservano una stretta convessità intorno al valore 12-13 che supera la fascia dell’errore, una ondulazione dei picchi (forse una oscillazione), un permanere di picchi nella zona positiva (TREND) ed altro e quindi  si evince che i dati della serie al 95% di fiducia, non sono random e dal periodogramma  si nota un picco forse rilevante corrispondente al valore 5  (5 oscillazioni nel range dei dati, cioè 5 oscill. LPRINT ” FR”; TAB(6); “FREQ1”; TAB(15); “PERIOD”; TAB(23); “AMPIEZZA”; TAB(34); “FASE” 0.0736,0.0742,0.0733,0.0637,0.0705}, p1 = ListPlot[yt, PlotJoined -> True, # 1° grafico in A1, # medietrim (vedere ro del period. points(sort(xi), ci.lwr, type=”l”), Contenuto trovato all'interno – Pagina 109regressione. lineare. semplice. e. multipla. Una volta stabilita l'esistenza di una relazione tra due variabili, mediante il calcolo del coefficiente di correlazione, è possibile svolgere un'analisi mediante il metodo della regressione. library(stats) #yt=100+4*sin(2*t/n*2*pi-pi/2)+3*sin(4*t/n*2*pi+0)+ Contenuto trovato all'interno – Pagina 611.2 Per le variabili Y1 ;:::;Y 10 ; si assumano i seguenti modelli di regressione lineare semplice: Y i D ˇ1 C ˇ2x i C "i ; i D 1; ::: ; 5; e Y i D ˇ1 C ˇ3 C ˇ2x i C "i ; i D 6; ::: ; 10; con " 1 ;:::;" 10 variabili casuali N.0;1/ ... (Regressione semplice) Dopo aver rappresentato graficamente i dati a mezzo dello scatter-plot se notiamo una regolarità di tipo lineare (i punti si dispongono grossomodo attorno ad una retta immaginaria) possiamo voler “sintetizzare” tale “regolarità” mediante una funzione analitica “ragionevolmente semplice” In generale conviene dal menù ‘varie’ eliminare questi valori prima di far girare o costruire programmi! yt[t+1]+yt[t+2]+yt[t+3]+yt[t+4]+yt[t+5]+yt[t+6]/2)/13} ESS = Sqrt[ESS1/(n – 2)] // N, “Calcolo t-critico all’inizio della coda corrispondente” Così la lettura dei correlogrammi talora può risultare ardua. summary(resultreg)# da i risultati per i punti (xi,yt*100) confrontare con quelli (xi,yt)! esiste un componente stagionale di periodo 12 mesi, nei dintorni del coefficiente di lag 12 ci sarà una zona significativamente diversa da zero. Ci sono 45 avvisi (usare warnings() per leggerli) > Aspetto per confermare cambio pagina… PRINT TAB(5); “2-Il test di DURBIN-WATSON, che misura la correlazione interna” Con qualche variazione sui valori dell’asse x è possibile inserire coppie di vettori x,y qualsiasi rendendo questo uno strumento efficace per testare ogni retta in ogni piano cartesiano. > Si tratta di una breve riflessione sulla funzione seno e sui modi diversi di scrivere il suo argomento con esercitazione al computer (le notazioni usate nello scrivere le funzioni ed i loro argomenti sono quelle proposte dal programma Mathematica), per evidenziare l’influenza di questi modi sulla forma dell’onda e allenare così l’intuito sulle varie questioni, in particolare per gli insegnanti di Scienze. #E’ interessante notare con tre medie mobili centrate (non pesate!) for(i in 1:12){mediamesi[i]=mean(as1.ts1[seq(i,length(as1),by=12)])}. La variabilità totale della variabile dipendente (y), cioè yi – ym può essere divisa in due componenti: variabilità spiegata dalla regressione (yri- ym) e non spiegata yi-yri=resi=ei. 0.0061319549 0.0103859649 -0.0153600251 -0.0047726817 0.0008146617 ” ordinate e la variabile indipendente standardizzata sulle” ESS1 = Apply[Plus, sd]; ESAs=rep(FSTAG,5) # EFFETTO STAGIONALE As #Nonostante le correzioni continua a scrivere la variabile FSTAG sbagliata! Ecco l’ipotesi: la somma delle ‘distanze’ elevate al quadrato, misurate lungo l’asse y, fra ogni punto sperimentale (tanti quanto imax) ed il corrispondente sulla retta sia un minimo (metodo dei minimi quadrati). ” Ricavo poi il valore campionario di tB0 (B0/SB0)” if(b[i]<0 & a[i]>0) phi[i] = 180-f2[i]; Chiamiamo n il numero dei dati sperimentali misurati ad intervalli di tempo uguali (serie storica); esso è anche il numero degli intervalli di osservazione e quindi il periodo T della serie (T=n), immaginando che esista almeno un ciclo oscillativo completo in n dati (anche se può non esserci). Naturalmente, poichè i valori veri della popolazione non sono conosciuti, non sapremo mai se quel particolare intervallo lo contenga. Naturalmente ognuno può inventare gli esempi che vuole ed esercitarsi a piacere, una volta acquisita la sintassi di questo linguaggio. #all'armonica 3, (GRAF.A1), come diverrà il grafico? trigonometriche, #medietrim sono i 20 valori trimestrali relativi ai 60 dati mensili delle concentrazioni arsenico, #Vedere il Post a nome di P.Pistoia "Un percorso verso il periodogramma". Se alfa era nel 4°, es. > t=seq(1:10) La regressione lineare semplice è un metodo per descrivere una relazione tra due variabili attraverso l'equazione di una retta, chiamata retta di regressione, che modella piu' accuratamente possibile questa relazione. Per ottenere i valori predetti, si può usare in R la funzione predict che va chiamata attraverso un data.frame con dati x sulla colonna. Regressione lineare semplice. e seg. # calcolo della Mm col comando filter di R: confrontare i due risultati #all'armonica 3, invece di y_osc, e la sottraiamo da medietrim che ha pure un picco 2-BREVE DISCUSSIONE SULL’ ‘ARGOMENTO’ DELLA FUNZIONE SENO b1 rh(h) = n * s(1) / ((n – h) * s(2)) Galton osservò che, al crescere della statura dei padri, quella dei figli sembrava decrescere, in media, cioè regredire: da qui il nome PRINT “TEST STATISTICO DI DURBIN-WATSON PER L’AUTOCORRELAZIONE” Da notare (fra parentesi) il programmino riportato qui sotto, scritto in linguaggio R dal sottoscritto, con i suoi risultati, che calcola egregiamente (almeno sembra) i coefficienti di auto-correlazione di una serie storica di prova: y=c((1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20)). Se conoscessi gli  εi troverei i coefficienti β0 e  β1 teorici. ESEMPIO GUIDA IN R SULL’ANALISI DELL’ARSENICO: STAGIONALITA’ TRIMESTRALE. yt2=N[Table[A Sin(K/n t) 2 Pi],{t,0,n}]]; annuale. automatico di n (pari o dispari? In questa serie sanno rimasti gli eventuali ciclo, TREND e la componente random. A meno che, come avviene di fatto in generale, decidiamo di procedere, senza porci problemi, a ‘testare’ le nostre ipotesi sul comportamento della popolazione, tenendo presente che le nostre conclusioni saranno affidabili o meno secondo ciò che ricaviamo dall’analisi dei residui. Applico direttamente la funzione Filter di R, sempre sulla serie originale (yt o as1), che, eliminando da essa (cioè da as1) la componente stagionale di ordine 12 + random, cambia contenuto in TREND + Ciclo + random? #6*sin(5*t/256*2*pi-1.745) #analisi yt; tenendo come base questa espressione La regressione lineare fu introdotta per la prima volta da F. Galton (1822-1911), per studiare la relazione tra la statura di un gruppo di padri e quella dei loro figli. 7-COME SI FA A VEDERE SE QUESTO MODELLO LINEARE E’ ACCETTABILE CON R. ANALISI DEI RESIDUI. if((b[i]<0 & b[i]>0) | a[i]==0) phi[i]=0; # Qui, al termine della function si pone il valore di un’unica, # variabile che esce o, se escono più variabili, si usa. Il seguente programma è stato utilizzato da prima nell’analisi della serie As originale, nel modo come era nato, cioè iniziando il lavoro con l’applicare la media mobile direttamente sulla serie originale, arrivando però ad una serie residuale  che può non rispettare i criteri richiesti (rivedremo i passaggi). Lo controlleremo dall’analisi dei residui. e i ti rappresentano i residui studentizzati cancellati. Da notare con attenzione che prima di aver fatto l’analisi dei residui i processi di calcolo di cui al punto 1 che rimandano alla popolazione (ottenuti come outputs di programmi al computer o altro) devono essere lasciati in sospeso! plot(medietrim1_5anni,type=”l”,main=”FIG.3″), #FIG.4 subas=as1.ts1[seq(1, length(as1), by=12)]. alla posizione 2,4. “correlazione fra x e y, oppure fra yi e yr,” > matematiche più o meno complesse tramite un modello di regressione. (yt[t-6]/2+yt[t-5]+yt[t-4]+yt[t-3]+yt[t-2]+yt[t-1]+yt[t]+ Se togliamo dal vettore mediamesi la media di as1, si ottiene una sorta di Effetto Stagionale mensile. Contenuto trovato all'interno – Pagina 220aj: valore del coefficiente di indice j ∈ VarInd nell'approssimazione lineare; – b: termine noto ... Obiettivo: minimizzazione dell'errore massimo: minz Un modello AMPL per la regressione lineare semplice in senso minimax può essere il ... LOCATE 10, 5 Si può utilizzare in alternativa o insieme il comando par(mfrow=c(x,y) , che divide l’unica finestra grafica in x*y parti; x=2 e y=3, la finestra rimane divisa in 6 parti e può contenere 6 grafici e così via. Da notare che y nell’esempio è chiamato yt. summary(resultreg) Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali degli stimatori ai minimi quadrati e teorema di Gauss-Markov. RESSS=sum(res^2) Contenuto trovato all'interno – Pagina 206Si parla allora di regressione lineare, riferendosi in particolare alla regressione lineare semplice se nella (9.2) compare una sola variabile esplicativa, ed alla regressione lineare multipla altrimenti. Il termine aleatorio E che ... Attenzione però perchè la funzione curve vuole una funzione di x non i dati! PRINT N.4 b), presente invece nel periodogramma della serie originale (GRAF. Da questa serie poi si toglie il trend e si studiano i residui per controllare se il nostro processo è sostenibile. — Tali distanze sono appunto i residui (resi) che corrispondono alle stime degli εi. Per approfondire il significato di R-quadro calcoliamo quale proporzione della variabilità totale della y può essere ‘spiegata’ dalla x (cioè da modello). > medietrim1_5anni FStag1=colMeans(FSTag0) SE VUOI APPROFONDIRE LE PROBLEMATICHE RELATIVE A FOURIER VEDI L’APPENDIX5. Ora b0 e b1 sono di certo le migliori stime per le corrispondenti grandezze nella popolazione, anche se difficilmente i numeri saranno gli stessi. PROGRAMMI IN BASIC: calcolo Coefficienti di Autocorrelazione, il Test di Durbin-Watson, il Test della  normale di Lin-Mudholkor, analisi spettrale per il Periodogramma. La regressione lineare è comunque una buona scelta quando si vuole un modello semplice per un'attività predittiva di base. + result1[h]=sum(result) dst o y1t”), #PROVIAMO INVECE A TOGLIERE IL TREND DALLA dst o y1t, plot(dst,type=”l”, main=”yt-destagionalizzata”) # la y1t o dst= yt destagionalizzata= ciclo+TREND +random (GRAF. t=(b0-ß0)/SEb0 Su questa matrice col comando colMeans posso trovare le 12 medie dei 4 valori, una per ogni mese, che metto in mediacol: mediacol = colMeans(stag) # in mediacol rimangono i random? #oltre alle oscillazioni armoniche, anche il trend e la componente casuale. Basta costruire una tabella a tre colonne per ciascuna previsione (prevym, prevyt). Regressione lineare - ripasso Quando parliamo di greressione cosa intendiamo? Queste routines  messe sotto forma di Functions serviranno per costruire correlogrammi, tests di DW e periodogrammi ognivolta che servono. 0.07066667,0.04633333,0.05833333,0.06533333, Regressione lineare semplice con Excel (video tutorial) Chi esegue l’ analisi dei dati prima o poi si trova a doversi confrontare col termine “Regressione”. Il test permette di decidere di respingere l’ipotesi nulla, di accettarla ovvero essere inconclusivo. PRINT N.1) IN ALCUNE SORGENTI DELLA CARLINA (PROV. .056,.058,.061,.063,.065,.068,.0815,.095,.079,.063,.069,.074,.08, Un intervallo di confidenza al 95% significa che noi estraiamo campioni ripetuti da una popolazione, sotto le stesse condizioni,  e computiamo  per ognuno l’intervallo di confidenza al 95% per la pendenza di quel campione, il 95% di questi intervalli includerebbero il valore sconosciuto della pendenza della popolazione. # Interessante abbinare il correlogramma con il periodogramma. > > detrend_trim Programmi utili  in R commentati e controllati. -0.0059946115 0.0052593985 -0.0024865915 0.0014340852 -0.0159785714 for(t in 1:n){a0=a0+yt[t]*cos(2*pi*t*k/n)} In effetti (vedere gli scripts al termine), non so perchè, sono necessarie variabili intermedie. Contenuto trovato all'interno – Pagina 5... modello di regressione univariata 3.3 Impieghi del modello di regressione 51 51 55 56 Capitolo 4 – La regressione lineare normale 4.1 Significato dell'equazione e aspetti terminologici 4.2 Regressione lineare semplice 4.3 Il metodo ... 0.049678 0.001481, Residuals: Su questa serie (yt=as1) di 60 dati – inserita nel file che si chiama As-Carlina1.csv – e che comunque   verrà esplicitata all’inizio dell’analisi – procediamo “a fare i conti” e a gestirla con R. Questa parte iniziale preliminare verrà trattata successivamente. La dipendenza si mostra nell’autocorrelazione che può essere positiva o negativa. Per controllare l’ipotesi  nulla che nella popolazione non esista relazione lineare (R-q_pop.=0), si procede con l’analisi della varianza. Contenuto trovato all'interno – Pagina 487regressione. lineare. semplice. Consideriamo una coppia di variabili, la prima chiamata predittore e l'altra chiamata variabile risposta. Supponiamo che per un certo valore x del predittore, il valore della variabile risposta Ypossa ... 0.0008146617. Questo rende il correlogramma uno strumento di investigazione incerto. Da notare che se nell’intervallo di confidenza  per la pendenza non si trova lo zero, significherà che dovremo respingere l’ipotesi nulla che la pendenza sia zero a livello di significanza osservato dello 0.05 o meno. =0; si calcola la statistica T per b1: pendenza/errore standard_pend, ottenendo ERb1=7.31*10^-5 perché b1=0.000492, risulta T=6.73, che dalle tabelle relative per 58 gradi di libertà (GL=N-2) si ha una significanza per T di 0.0000..<<0.05, per cui si respinge l’ipotesi nulla che la pendenza della popolazione sia zero (quindi esiste dipendenza lineare). z2 = Transpose[d][[2]]; #ts.plot(mediacol) # L’oscillazione annuale che copre 12 mesi (max in luglio), ESAs = rep(mediacol,5) # l’Effetto Stagionale che ‘copre’  i 60 dati di yt o as1. so = (x(t) – xm) ^ 2: s(2) = s(2) + so LPRINT : LPRINT “r=”, r IF a > 0 THEN 430 ndist1 = StudentTDistribution[n – 1] I conti possono essere seguiti su una qualsiasi spread-sheet oppure attraverso tre programmi  in Qbasic allegati (scritti dallo stesso P. Pistoia), poco curati nella forma, ma che contengono routines efficaci, e/o utilizzando, come abbiamo accennato, i comandi di due grossi programmi di statistica, il programma R ed il linguaggio del Mathematica di Wolfram. Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo. N.2). > ts.plot(medietrim,type=”l”,main=”FIG.1″) #finchè non lo sostituisco posso usare abline Inoltre, se esiste, per es., una componente stagionale di periodo 12 mesi, il valore corrispondente al lag 12 sarà significativamente diverso da zero. LA FUNCTION DEL PERIODOGRAMMA ora può essere trasferita come modulo in qualsiasi  altro programma scritto da chiunque! Da controllare meglio. Per l’interpretazione dei correlogrammi vedere [8] 20-25. Multiple R-squared: 0.5899, Adjusted R-squared: 0.5671 per φ diverso da 0, caso generale, y=A Sin(φ). La regressione lineare multipla. s = c1 * s + s1 * c FSTag0=matrix(Mt, ncol=12, byrow=T) > detrend_trim=medietrim-val_pred_w alternative hypothesis: true autocorrelation is not 0, > #forse potremo interpolare l’elemento 11 Se resi sono tutti i residui, i residui standardizzati saranno: Rsi=resi/S*sqrt(1-hii) con i da 1 a n, dove hii, chiamata leverage, verrà definita più avanti. #di base analoghe modificandole, aggiungendo anche un trend lineare (x*t) e Yt1s=c() “(2 code) della F di Fisher. SEGUE IL COMMENTO SULLE  LE PRIME ISTRUZIONI DI R PER AUTOMATIZZARE I ‘CONTI’ DEL PROCESSO RIASSUNTO IN PRECEDENZA CHE ESPANDEREMO IN UN SECONDO TEMPO. > summary(regtrim), Residuals: RESTORE Si rimanda al loro significato e processo alla Appendice 1 di questo articolo e al Post scritto a nome di P.Pistoia ed altri, facilmente accessibile da questo sito, per es., battendo periodogramma nella finestra ‘Cerca’. L(a) = sd(a) ^ (2 / 3) Anche la funzione predict aiuta a plottare le bande. PRINT USING “##.##^^^^”; k2; k1; e(i); g(i) Si hanno i dati e grafici in uscita per ogni ESERCIZIO. > dwtest(fitadj_trim, alternative=”two.sided”), data: fitadj_trim Per vedere se vengono rispettate le assunzioni di linearità, cioè se davvero una linea retta ‘fitta’ bene i dati, e l’omogeneità della varianza (OMOSCEDASTICITA’), si possono plottare i residui  (y) contro i valori predetti dalla regressione (x). – Per la normalità dei residui si possono usare anche istogrammi, boxplot e plots normali; con normal qqplot i residui saranno considerati normali se il grafico rimane vicino alla linea tratteggiata (vedere fig. > m=10 La regressione lineare semplice 16 16.6. Nella tabella appaiono il nome dei mesi su ogni colonna e il nome degli anni ad ogni riga; siamo così in grado di prendere i cinque dati di ogni mese (uno ogni dodici) per farne la media. OK! library(lattice) Forniamo tramite comandi di R infine un test statistico (il Breusch Pagan test) ancora per la costanza della varianza, senza entrare nel merito (per questo vedere “Introduction to Probability and Statistics Using R” di G.J. 8-VARIE INFERENZE STATISTICHE CON R DOPO AVER ACCETTATO IL MODELLO CHE FITTA I DATI Infatti la DW, per k=1, n=60 e alfa =0.05, ha valore 2.57 (vedere tabella Appendice 2) per cui esce dall’intervallo ricavato dalle tabelle dl-du (1.55-1-62): assenza di correlazione interna. predict(resultreg, data.frame(xi=sort(xi)), level=0.9, interval=”confidence”), ci.lwr= predict(resultreg, data.frame(xi=sort(xi)),level=0.9,interval=”confidence”)[,2], ci.upr=predict(resultreg, data.frame(xi=xi), level=.9, interval=”confidence”, add=T)[,3], #Usiamo un comando di più alto livello del package UsingR di Venable, resultreg=simple.lm(xi,yt) Ciò che resta dopo aver ‘fittato’ un qualsiasi modello, si dice residuo, per ogni xi,  la differenza fra i valori yri sulla retta sperimentale (da essa predetti) ed i corrispondenti osservati o misurati della variabile dipendente yi; residuo è quello che il modello non spiega. NB – I GRAFICI OTTENUTI CON IL SUPPORTO DEL PROGRAMMA CORR IN QBASIC (ALLEGATO) E DI EXCEL,  SE RIUSCIAMO A RIDISEGNARLI TUTTI, FACENDO GIRARE GLI SCRIPTS DEL LINGUAGGIO R CHE SEGUONO, QUESTO E’ UN EFFICACE CONTROLLO INTERNO ALLO SCRITTO. GRAF.B3). Anche su correlogrammi,  ai lags più bassi, si possono notare coefficienti di autocorrelazione positivi rapidamente decrescenti e per i lag successivi  oscillazioni intorno allo zero. Piero Pistoia. # Calcolo Mean Square Residual (MSRES)# ESS2 = ESS1/(n – 2); Dal menu Graphs selezioniamo Finestre di dialogo legacy => Dispersione/Punti e quindi Dispersione Semplice. Rqagg P = 1 – A, “Faccio un calcolo analogo per B1” ), cicli con eventuale periodo superiore che esce dal range dei dati (in generale periodo e ampiezza variabili), la componente random, che riassume lo ‘white noise’ ed altro (impulsi erratici). Residuals vs fitted). + } # OK Se ai dati originali di as1  sostituiamo i  dati originali senza però il trend rettilineo (serie originale detrendizzata, nelle previsioni resa stazionaria), possiamo vedere che cosa accade. PRINT ” ANALISI ARMONICA”: PRINT summary(resultreg) # trovo la maggior parte dei risultati, coef(summary(resultreg)) # trovo otto valori del risultato sotto forma di matrice vedere le istruzioni di R per portare phi al quadrante giusto.

Hotel Bivio, Livigno Recensioni, Ford Focus Terza Serie, Come Combattere La Virosi Del Fagiolo, Rustico Svuotafrigo Bimby, Indice Raggi Uv Significato, Daytona 16520 6 Rovesciato, Viale Manzoni Campobasso, Itinerario Trieste Slovenia Croazia, Cosa Vedere A Procida In 4 Giorni, Polo Volkswagen Km 0 Benzina,

regressione lineare semplice