§ Obiettivi del Corso: fornire agli studenti le conoscenze teoriche e le intuizioni di base necessarie per utilizzare ed eventualmente sviluppare efficaci soluzioni per l’analisi di dati in problemi reali e di diversa natura. Attenzione particolare è riservata all’analisi di regressione in regimi campionari ad alta dimensione.
§ Programma: corso_SL\programma2020_2021.pdf
(prerequisiti: algebra lineare, concetti base di ottimizzazione, di
teoria della probabilità e di statistica. Gli studenti sono tenuti ad avere
familiarità con MATLAB o con un latro ambiente di programmazione come R oppure Python)
§ Modalità d’esame: lo studente dovrà preparare una tesina su un
argomento da concordare con il docente.
L’argomento può essere un approfondimento di uno dei temi trattati nel
corso, un articolo della letteratura corrente oppure l’analisi di un data set
simulato oppure reale con discussione critica dei risultati raggiunti.
All’esame lo studente discuterà la tesina e risponderà alle domande del docente
che possono spaziare su tutto il programma del corso.
§ Ricevimento studenti: Sono disponibile a ricevere studenti, previo appuntamento da prendere via mail, presso il mio studio dell’ I.A.C. (Istituto per le Applicazioni del Calcolo - CNR) di via dei Taurini n. 19, 00185 Roma.
§ Materiale didattico di supporto: reperibile sul sito dropbox del corso
§ Diario delle lezioni:
LEZ. 1 del 7/03/2022: Introduzione
all'inferenza statistica. Problemi supervised e
problemi unsupervised. Il workflow
di un problema di analisi dati. Esempi vari (Cap 1). La definizione di Loss function.
LEZ. 2 del 9/03/2022: (Cap 2) “Overview of supervised leanring”. Definizione delle Loss
function più comuni: L1, L2, quantile, Vapkin’s ,
Huber e 0/1 loss. La
definizione di Risk function
e la sua minimizzazione ideale.
LEZ. 3 del 11/03/2022: La definizione di Expected Prediction Error (EPE), il concetto di Bias e di Varianza. Scrittura del Bias e della Varianza per uno stimatore di regressione con Loss L2 per modelli con rumore additivo a varianza costante. Il metodo dei vicini più vicini, il suo Bias e la sua Varianza. La maledizione della dimensionalità (Cap 2).
LEZ. 4 del 14/03/2022: (Par 3.2) La regressione lineare multipla ed il metodo dei minimi quadrati (LS) per la stima dei coefficienti. Interpretazione algebrica ed interpretazione geometrica dei LS. Alcune osservazioni di carattere generale.
LEZ. 5 del 16/03/2022: Validazione del
modello tramite scatter plot, istogramma dei residui
e qq-plot. Bontà del fit e
coefficiente di determinazione R^2.
Teorema di Gauss Markov.
LEZ. 6 del 18/03/2022: Analisi del data
set prostate cancer data preso dal libro di testo
(par.3.2.1): i coefficienti LS (prima colonna della tavola 3.3 del libro), la
centratura dei dati, commenti su R^2 e validazione del modello.
LEZ. 7 del 21/03/2022: - il modello generalizzato al caso di matrice
di covarianza diversa da sigma^2 I (generalized least squares), i weighted least squares come caso particolare. Come trattare i predittori categorici.
LEZ. 8 del 23/03/2022: . Sotto l’ipotesi di rumore bianco Gaussiano (Normal Linear Model) dimostrazione delle proprietà distribuzionali degli stimatori ai minimi quadrati.
LEZ. 9 del 25/03/2022: Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di intervalli di confidenza per la risposta media futura e per la costruzione di intervalli di predizione per la risposta futura.
LEZ. 10 del 28/03/2022: Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di test d’ipotesi per la stima dei coefficienti. Interpretazione dei coefficienti ai minimi quadrati
LEZ. 11 del 30/03/2022: Discussione delle problematiche in caso di collinearità e/o nel caso p>n e discussione generale sulle possibili tecniche da adottare in questi casi: selezione delle variabili, metodi di proiezione e regolarizzazione.
LEZ. 12 del 1/04/2022: : Discussione generale sulle possibili tecniche per fare selezione del modello. 1) Metodi che utilizzano un data set di validazione. 2) Metodi che stimano analiticamente il test error: C_p (Mallow’s), AIC (Akaike Information Criterion), BIC (Bayeisan Information Criterion), MDL (Minimum Description Lenght). (da par 7.1 a 7.8) 3) Metodi che stimano direttamente il test error: Cross Validation.
LEZ. 13 del 4/04/2022: la Best Subset Selection, la sua applicazione al prostate cancer data set, discussione sulla sua variabilità attraverso esempio didattico simulato.
LEZ. 14 del 6/04/2022: Forward and Backward Stepwise regression (Par. 3.3.3). La subroutine “stepwiselm” di Matlab.
LEZ. 15
del 8/04/2021: Forward Stagewise regression . Incremental Forward
Stagewise regression
(Par.3.8.1).
LEZ. 16
del 11/04/2022: La tecnica della PCA
(Principal Component Analysis) per la riduzione della
dimensionalità di un set di dati qualsiasi. I comandi
“eig”, “svd”e “pca” di matlab.
LEZ. 17
del 13/04/2022: Ipotesi matematiche
per l’applicazione della PCA, distinzione tra regimi dimensionali bassi e
regimi dimensionali alti. (ref.
Cap 6 e 8 di c)).
LEZ. 18
del 20/04/2022: La Principal Component Regression (Par.
3.5.1) e sua applicazione pratica al prostate cancer data. I Partial Least Square
(Par. 3.5.2) e sua applicazione
pratica al prostate cancer data.
LEZ. 19
del 22/04/2022: La supervised PCR e Threshold PLS. I
metodi di regolarizzazione definizione di Ridge regression.
LEZ. 20
del 27/04/2022: Applicazione della
Ridge regression al prostate cancer
data.
LEZ. 21
del 29/04/2022: Interpretazione Bayesiana della Ridge regression.
Il “kernel Trick”.
LEZ. 22
del 02/05/2022: Definizione e
proprietà base dei RKHS, la penalizzazione Ridge generalizzata.
LEZ. 23
del 04/05/2022: La regolarizzazione
con arresto precoce.
LEZ. 24
del 06/05/2022: Definizione dello
stimatore LASSO e scrittura della soluzione in forma chiusa nel caso ideale,
come da tabella 3.3 del libro di testo.
LEZ. 25 del 09/05/2022: Le solutions path del Lasso.
Algoritmo LAR modificato e Infinitesimal Incremental Stagewise regression per ottenerle.
LEZ. 26 del 11/05/2022: Il coordinate descendent algorithm.
LEZ. 27 del 16/05/2022: Osservazioni varie
sul LASSO
LEZ. 28 del 18/05/2022: Implementazione
del LASSO con routine di matlab e con routine di R.
Il grouped Lasso.
LEZ. 29 del 20/05/2022: Le proprietà
teoriche del LASSO, come da Cap 7 di HDS. (parte1)
LEZ. 30 del 23/05/2022: Le proprietà
teoriche del LASSO, come da Cap 7 di HDS. (parte2)
LEZ. 31 del 25/05/2022: Le modifiche e i
miglioramenti del LASSO
LEZ. 32 del 27/05/2022: Conclusioni e
possibili argomenti di tesi