Statistica Inferenziale e

dati ad alta dimensione (8CFU)

Laurea magistrale in Matematica (Tor Vergata)

 

§  Anno accademico: 2021-2022 (secondo semestre, IV- V anno) lunedì, mercoledì   e venerdì 9.00-11.00 in aula 25

 Modalità di fruizione: la modalità di fruizione del corso è in presenza E on line tramite la piattaforma Microsoft team.

§  Testi adottati:  

a)“The Elements of Statistical Learning” T. Hastie, R. Tibshirani & J. Friedman. Springer Series in Statistics (second edition)

b)“Foundations of linear and generalized linear models” A. Agresti . John Wiley & Sons Inc (2015)

c)“ High-Dimensional Statistics A Non-Asymptotic Viewpoint”. Martin J. Wainwright Cambridge University Press ( 2019)

 

§  Obiettivi del Corso: fornire agli studenti le conoscenze teoriche e le intuizioni di base necessarie per utilizzare ed eventualmente sviluppare efficaci soluzioni per l’analisi di dati in problemi reali e di diversa natura.  Attenzione particolare è riservata all’analisi di regressione in regimi campionari ad alta dimensione.

§  Programma: corso_SL\programma2020_2021.pdf (prerequisiti: algebra lineare, concetti base di ottimizzazione, di teoria della probabilità e di statistica. Gli studenti sono tenuti ad avere familiarità con MATLAB o con un latro ambiente di programmazione come R oppure Python)

§  Modalità d’esame: lo studente dovrà preparare una tesina su un argomento da concordare con il docente.  L’argomento può essere un approfondimento di uno dei temi trattati nel corso, un articolo della letteratura corrente oppure l’analisi di un data set simulato oppure reale con discussione critica dei risultati raggiunti. All’esame lo studente discuterà la tesina e risponderà alle domande del docente che possono spaziare su tutto il programma del corso.

§  Ricevimento studenti: Sono disponibile a ricevere studenti, previo appuntamento da prendere via mail, presso il mio studio dell’ I.A.C. (Istituto per le Applicazioni del Calcolo - CNR)  di via dei Taurini n. 19, 00185 Roma.

§  Materiale didattico di supporto: reperibile sul sito dropbox del corso 

§  Diario delle lezioni:

LEZ. 1 del 7/03/2022: Introduzione all'inferenza statistica. Problemi supervised e problemi unsupervised. Il workflow di un problema di analisi dati. Esempi vari (Cap 1). La definizione di Loss function.

LEZ. 2 del 9/03/2022: (Cap 2) “Overview of supervised leanring”. Definizione delle Loss function più comuni: L1, L2, quantile, Vapkin’s , Huber e 0/1 loss. La definizione di Risk function e la sua minimizzazione ideale.

LEZ. 3 del 11/03/2022: La definizione di Expected Prediction Error (EPE), il concetto di Bias e di Varianza. Scrittura del Bias e  della Varianza per uno stimatore di regressione con Loss L2 per modelli con rumore additivo a varianza costante.  Il metodo dei vicini più vicini, il suo Bias e la sua Varianza. La maledizione della dimensionalità (Cap 2).

LEZ. 4 del 14/03/2022: (Par 3.2)  La regressione lineare multipla ed il metodo dei minimi quadrati (LS) per la stima dei coefficienti. Interpretazione algebrica ed interpretazione geometrica dei LS. Alcune osservazioni di carattere generale.

LEZ. 5 del 16/03/2022: Validazione del modello tramite scatter plot, istogramma dei residui e qq-plot. Bontà del fit e coefficiente di determinazione R^2.  Teorema di Gauss Markov.

LEZ. 6 del 18/03/2022: Analisi del data set prostate cancer data preso dal libro di testo (par.3.2.1): i coefficienti LS (prima colonna della tavola 3.3 del libro), la centratura dei dati, commenti su R^2 e validazione del modello.

LEZ. 7 del 21/03/2022: -  il modello generalizzato al caso di matrice di covarianza diversa da sigma^2 I (generalized least squares), i weighted least squares come caso particolare. Come trattare i predittori categorici.

LEZ. 8 del 23/03/2022: . Sotto l’ipotesi di rumore bianco Gaussiano (Normal Linear Model) dimostrazione delle proprietà distribuzionali degli stimatori ai minimi quadrati. 

LEZ. 9 del 25/03/2022: Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di intervalli di confidenza per la risposta media futura e per la costruzione di intervalli di predizione per la risposta futura.

LEZ. 10 del 28/03/2022: Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di test d’ipotesi per la stima dei coefficienti. Interpretazione dei coefficienti ai minimi quadrati

LEZ. 11 del 30/03/2022: Discussione delle problematiche in caso di collinearità e/o nel caso p>n e discussione generale sulle possibili tecniche da adottare in questi casi: selezione delle variabili, metodi di proiezione e regolarizzazione.

 LEZ. 12 del 1/04/2022: : Discussione generale sulle possibili tecniche per fare selezione del modello. 1) Metodi che utilizzano un data set di validazione. 2) Metodi che stimano analiticamente il test error: C_p (Mallow’s), AIC (Akaike Information Criterion), BIC (Bayeisan Information Criterion), MDL (Minimum Description Lenght).  (da par 7.1 a 7.8) 3) Metodi che stimano direttamente il test error: Cross Validation.

LEZ. 13 del 4/04/2022: la Best Subset Selection, la sua applicazione al prostate cancer data set, discussione sulla sua variabilità attraverso esempio didattico simulato.

LEZ. 14 del 6/04/2022: Forward and Backward Stepwise regression (Par. 3.3.3). La subroutine “stepwiselm” di Matlab.

LEZ. 15 del 8/04/2021: Forward Stagewise regression . Incremental Forward Stagewise regression (Par.3.8.1).

LEZ. 16 del 11/04/2022: La tecnica della PCA (Principal Component Analysis) per la riduzione della dimensionalità di un set di dati qualsiasi. I comandi “eig”, “svd”epca” di matlab.

LEZ. 17 del 13/04/2022: Ipotesi matematiche per l’applicazione della PCA, distinzione tra regimi dimensionali bassi e regimi dimensionali alti. (ref. Cap 6 e 8 di c)).

LEZ. 18 del 20/04/2022: La Principal Component Regression (Par. 3.5.1) e sua applicazione pratica al prostate cancer data. I Partial Least Square (Par. 3.5.2) e sua applicazione pratica al prostate cancer data.

LEZ. 19 del 22/04/2022: La supervised PCR e Threshold PLS. I metodi di regolarizzazione definizione di Ridge regression.

LEZ. 20 del 27/04/2022: Applicazione della Ridge regression al prostate cancer data.  

LEZ. 21 del 29/04/2022: Interpretazione Bayesiana della Ridge regression. Il “kernel Trick”.

LEZ. 22 del 02/05/2022: Definizione e proprietà base dei RKHS, la penalizzazione Ridge generalizzata.

LEZ. 23 del 04/05/2022: La regolarizzazione con arresto precoce.

LEZ. 24 del 06/05/2022: Definizione dello stimatore LASSO e scrittura della soluzione in forma chiusa nel caso ideale, come da tabella 3.3 del libro di testo.

LEZ. 25 del 09/05/2022: Le solutions path del Lasso. Algoritmo LAR modificato e Infinitesimal Incremental Stagewise regression per ottenerle.

LEZ. 26 del 11/05/2022: Il coordinate descendent algorithm.

LEZ. 27 del 16/05/2022: Osservazioni varie sul LASSO

LEZ. 28 del 18/05/2022: Implementazione del LASSO con routine di matlab e con routine di R. Il grouped Lasso.

LEZ. 29 del 20/05/2022: Le proprietà teoriche del LASSO, come da Cap 7 di HDS. (parte1)

LEZ. 30 del 23/05/2022: Le proprietà teoriche del LASSO, come da Cap 7 di HDS. (parte2)

LEZ. 31 del 25/05/2022: Le modifiche e i miglioramenti del LASSO

LEZ. 32 del 27/05/2022: Conclusioni e possibili  argomenti di tesi