Statistica

Corso di Studi: Economia e Commercio
Crediti formativi: 10 CFU
Inizio corso: 26 settembre 2016
Fine corso: 07 March 2017
Lezioni: Lunedì, 10:00 - 12:00 (aula B.010)
Martedì, 10:00 - 12:00 (aula B.020)
Note: Lunedì 31/10 e Martedì 01/10 (festivo) non ci sarà lezione
Le due lezioni saranno recuperate nelle due seguenti date:
- giovedì 20/10 ore 10:00 - 12:00 (aula B.010)
- giovedì 27/10 ore 10:00 - 12:00 (aula B.010)
Esercitazioni: I Trimestre
Giovedi, ore 10:00 - 12:00, Aula B.010
(a partire dal 03/11 fino al 01/12)

II Trimestre
Giovedi, ore ??, Aula ??
(a partire dal ??)
Prove di esonero: ?? dicembre 2016
?? marzo 2017
Language: Italian 

OBIETTIVI
Obiettivo del modulo di insegnamento e di introdurre della logica e gli strumenti di base della statistica e del calcolo della probabilita e dell'inferenza statistica.

CONTENUTI DEL CORSO
Il corso prevede la presentazione delle tecniche di statistica esplorativa univariata e bivariata, dei fondamenti del calcolo delle probabilità, dei principali modelli di variabili casuali di interesse operativo, dei principi e delle tecniche dell'inferenza (stima puntuale e intervallare, verifica di ipotesi) con particolare riferimento all'inferenza su media, proporzione e varianza di una popolazione e al confronto tra medie, proporzioni e varianze di due popolazioni. Viene infine presentato il modello di regressione lineare classico e il modello ANOVA.
NOTA: Oltre al programma dettagliato, gli studenti sono pregati di consultare il diario delle lezioni aggiornato settimanalmente con gli argomenti trattati in aula.

METODOLOGIA DI INSEGNAMENTO
Il corso prevede, oltre alle tradizionali lezioni frontali, delle ore di esercitazione settimanali in cui vengono approfonditi gli aspetti applicativi. Inoltre, con scadenza settimanale, saranno assegnati dei compiti da svolgere a casa, contenenti alcuni esercizi relativi agli argomenti affrontati durante il corso. In questo modo lo studente potrà valutare la comprensione degli argomenti trattati e prepararsi gradualmente agli esercizi che dovra affrontare per superare la prova scritta. Per chi lo desidera, gli esercizi verranno corretti dall'assistente alla didattica e riconsegnati corretti.

MODALITA' DI ESAME
L'esame consiste in una prova scritta e in una prova orale.

DISCIPLINE COLLEGATE E PROPEDEUTICITA'
Questo corso è propedeutico a tutti i successivi corsi di statistica attivati nell'ambito del corso di laurea.

Non è prevista alcuna propedeuticità. Per seguire il corso sono necessarie solo le conoscenze dell'algebra di base, proprie di qualunque studente che abbia conseguito un diploma di scuola secondaria superiore.

PROGRAMMA DETTAGLIATO
(per un ulteriore dettaglio consultare il diario delle lezioni, aggiornato settimanalmente con gli argomenti trattati in aula)

STATISTICA DESCRITTIVA
Introduzione alla Statistica. Le fasi della ricerca statistica. Lessico di base: popolazione, campione, unità statistica e variabile statistica. Classificazione delle variabili statistiche: variabili qualitative (nominali ed ordinali) e variabili quantitative (discrete e continue). Le tabelle statistiche: matrice dei dati, tabelle di frequenze e tabelle a doppia entrata. Le principali rappresentazione grafiche. Istogramma. La funzione di ripartizione empirica. Frequenze assolute, relative, percentuali, cumulate e retrocumulate: costruzione ed interpretazione.
I principali indici di tendenza centrale: moda, mediana e media aritmetica. Calcolo per i differenti tipi di variabili e per le differenti modalità di organizzazione dei dati. Contenuto informativo delle differenti medie. Proprietà dei principali indici di tendenza centrale. I principali indici di variabilità: indici di eterogeneità, indici di dispersione ed indici di disuguaglianza. Calcolo per i differenti tipi di variabili e per le differenti modalità di organizzazione dei dati. Contenuto informativo dei differenti indici di variabilità. Proprietà dei principali indici di variabilità. Contenuto informativo di media e variabilità: il teorema di Cebicev. I principali indici di forma: calcolo per i differenti tipi di variabili e per le differenti modalità di organizzazione dei dati. Cautele interpretative e differente contenuto informativo degli indici. La curtosi e sua misura.
Il concetto di indipendenza assoluta. La variabile statistica doppia: distribuzione congiunta (in frequenza assoluta, relativa e percentuale), distribuzioni marginali e condizionate (in frequenza assoluta, relativa e percentuale). Rappresentazione grafiche per la variabile statistica doppia. Condizione necessaria e sufficienza per la sussistenza dell'indipendenza assoluta: costruzione, interpretazione e simmetria della condizione. Costruzione dell'indice chi-quadro e dei suoi derivati. Il concetto di indipendenza in media. La covarianza e la correlazione. Calcolo per le differenti modalità di organizzazione dei dati. Relazioni tra indipendenza assoluta ed indipendenza in media.

PROBABILITA'
Introduzione al calcolo delle probabilità: definizione di esperimento, esito e probabilità. Algebra degli eventi, operazioni tra eventi (negazione, unione ed intersezione) e relazioni tra eventi (inclusione, incompatibilità e indipendenza). Lo spazio campionario: eventi elementari ed eventi composti. Definizione di partizione.
Le principali concezioni per la misura della probabilità: approccio oggettivo, frequentista e soggettivo. L'approccio assiomatico come visione unificante. Gli assiomi di base e i teoremi derivati. La probabilità condizionata e l'indipendenza. Probabilità di unione ed intersezione di eventi.

VARIABILI CASUALI
Le variabili casuali: definizione e distinzione tra variabile casuale discreta e continua. Distribuzione di probabilità, funzione di densità e funzione di ripartizione. I parametri caratteristici delle variabili casuali: valore atteso, varianza, asimmetria e curtosi. Parallelo tra variabile statistica e variabile casuale. Trasformazione lineare di una variabile casuale.
Alcuni modelli di variabili casuali discrete: la variabile casuale uniforme, la variabile casuale di Bernoulli e la variabile casuale binomiale, la variabile casuale ipergeometrica, la variabile casuale di Poisson. Alcuni modelli di variabili casuali continue: la variabile casuale normale, la variabile casuale chi-quadrato, la variabile casuale t di Student, la variabile casuale F di Fisher, la variabile casuale uniforme continua, la variabile casuale esponenziale.
Variabili casuali bivariate (discrete e continue). Distribuzione di probabilità (densità) congiunta, distribuzione di probabilità (densità) marginale e distribuzione di probabilità (densità) condizionata. Momento misto. Covarianza. Correlazione. Combinazione lineare di variabili casuali.

TEOREMI LIMITE, CAMPIONI CASUALI E DISTRIBUZIONI CAMPIONARIE
Legge dei grandi numeri. Teorema del limite centrale. Elementi di teoria della simulazione.
Principi dell'inferenza statistica. Campioni casuali e distribuzioni campionarie notevoli: proporzione, media, varianza, differenza tra proporzioni, differenza tra medie, rapporto tra varianze. Simulazione di una distribuzione campionaria. Funzione di verosimiglianza.

TEORIA DELLA STIMA
Stimatori e stima di un parametro. Proprietà finite ed asintotiche di uno stimatore. Metodi di costruzione degli stimatori. Stima puntuale e stima intervallare. Intervalli casuali ed intervalli di confidenza. Intervalli di confidenza per la proporzione, la media, la varianza, la differenza tra proporzioni, la differenza tra medie e per il rapporto tra varianze.

VERIFICA DELLE IPOTESI
Caratteristiche e logica di un test statistico. Struttura probabilistica di un test. Lemma di Neymann-Pearson. Procedura operativa per un test delle ipotesi. Test sulla proporzione, sulla media, sulla varianza, sulla differenza tra proporzioni, sulla differenza tra medie e sul rapporto tra varianze.

MODELLO DI REGRESSIONE LINEARE
Il modello di regressione semplice. Ipotesi alla base del modello classico. La stima dei parametri del modello e le proprietà degli stimatori. Il teorema di Gauss-Markov. L'indice di determinazione. Inferenza sui parametri del modello e sul coefficiente di determinazione. Cenni al modello di regressione multiplo.

ANALISI DELLA VARIANZA
Il modello ANOVA ad un fattore. Studi sperimentali e studi osservazionali. Ipotesi alla base del modello ANOVA. Stimatori delle medie di livello. Inferenza sulle medie di livello. Inferenza sulla differenza tra medie. Cenni ai confronti multipli. Cenni all'ANOVA a due fattori.

TESTO DI RIFERIMENTO
  • Statistica: Principi e Metodi (seconda edizione)
    Giuseppe Cicchitelli, Pearson
    (Capitoli da 1 a 21 + capitolo 22 e 23, disponibile on-line sul sito del libro)
    consulta l'indice in formato pdf
ALTRI TESTI SUGGERITI (in alternativa)
  • Introduzione alla Statistica (seconda edizione)
    Anna Clara Monti, Edizioni Scientifiche Italiane
    (Capitoli da 1 a 18)
  • Statistica - Metodologie per le scienze economiche e sociali
    Simone Borra - Agostino Di Ciaccio, McGraw-Hill
    (Capitoli 1, 2, 3, 4, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16 e 17)
  • Statistica per le decisioni (seconda edizione)
    Domenico Piccolo, Il Mulino
    (Capitoli 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16 e 17)

Gli appunti pubblicati su questa pagina sono da intendersi esclusivamente come supporto allo studio e non come sostitutivi ai libri di testo consigliati, il cui studio ed approfondimento è un requisito essenziale per la piena comprensione della disciplina e per il superamento della prova di esame.

Nel caso fossero presenti imprecisioni/refusi si prega  di segnalarlo al docente, che provvederà a controllare e a sistemare gli eventuali errori.

Primo trimestre

Secondo trimestre
Primo Trimestre

Secondo Trimestre

Statistics for Economics and Business

Master Program: Economics & Enterpreneurship
Credits: 10 ECTS
Start date: 21 September 2015
End date: 08 March 2016
Class calendar: Monday, 12:00 - 14:00
Tuesday, 12:00 - 14:00
Room: 0.05 / 1.05
Language: English

Subcategories

Statistics for Economics and Business - E & E

Description

AIMS
Aim of the course is to provide students with a broad overview of statistical methods and models which may be exploited to tackle economics and business issues starting from data. Students will learn statistics by doing, exploiting R, a popular open-source software for data analysis. Emphasis on the applications of the techniques and on the interpretation of results will help students to appreciate the relevance of the statistical tools in real life applications.

REQUIRED BACKGROUND
A basic knowledge of elementary calculus is required. The course will start assuming a previous knowledge of statistics at an undergraduate level: the minimal prerequisite is a undergraduate course in probability and basic statistics.

TEACHING
Lectures and lab sessions.

EXAMINATION METHODS
Written + oral final exam.

Syllabus

DETAILED SYLLABUS
(for further details, see the diary of class, weekly updated with the topics covered in the classroom)

CONTENTS
Gathering and Exploring Data: data description, graphical and numerical summaries, association, gathering data. Probability distributions and sampling distributions. Inferential statistics: confidence intervals and significance tests  about population central values, for comparing two population central values, about population variances, for comparing two variances. Analzying associations: association between categorical variables and between numerical variables. Statistical models: multiple regression, analysis of variance, analysis of covariance. Nonparametric statistics.

PREREQUISITE (basic requirements)

  • Basic Business Statistics, Thelfth edition. - FIRST SIX CHAPTERS
    Berenson, D.M. Levine, T.C. Krehbiel (2005)
    Prentice Hall.

EXTRACTS FROM THE FOLLOWING BOOKS

  • An introduction to Mathematical Statistics and Its Applications, Fifth edition
    Larsen R.J., Marx M.L. (2012)
    Prentice Hall
  • Introduction to Probability and Statistics for Engineers and Scientists, Fifth edition
    Sheldon Ross (2014)
    Academic Press
  • Regression models for categorical and limited dependent variables
    J. Scott Long (2007)
    Sage Pubblications
  • Basic Econonometrics, Fifth edition
    Gujarati D.N., Porter D.C., Gunasekar S. (2015)

ADDITIONAL READINGS (EXTRACTS)

  • Discovering Statistics Using R
    Field A., Miles J., Field Z. (2012)
    Sage Pubblications
  • Econometrics by example
  • Gujarati D.N. (2015)
    Palgrave

Diary of class

First term

Date Topics
26/09/2016 - morning

LECTURE 1

Introduction to the class. Basic jargon: population vs sample, parameter vs statistic, exploratory analysis vs inferential analysis. units, variables and their types. Population probability model. Random variable (r.v.), expectation, variability, skewness. The Bernoulli probability model.

26/09/2016 - afternoon
27/09/2016
28/09/2016
29/09/2016
30/09/2016 - morning
30/09/2016 - afternoon
03/10/2016
SHORT COURSE ON R
04/10/2016

LECTURE 2
The binomial probability model. The binomial r.v. as sum of n independent Bernoulli r.v.s. Mean, variance and shape of the binomial distribution: the effect of the central limit theorem. The proportion of successes (r.v. relative frequency) as transformation of the binomial r.v. R commands to compute the binomial probabilities. The multinomial r.v.

10/10/2016 LECTURE 3
Other special distributions: the hypergeometric distribution, the Poisson distribution, the geometric distribution, the negative binomial distribution.
11/10/2016

LECTURE 4
Relations among the binomial and the Poisson distributions. Special case of continuous r.v.: uniform distribution, negative exponential distribution and normal distribution. Transforming and combining random variables. Mean and variance of a linear transformation of a r.v. Mean and variance of a combination of random variables. The Normal distribution and the central limit theorem. Approximation of the binomial distribution through the normal law.

17/10/2016

LECTURE 5
The inference problem: parameteter space, sample space and space of the statistic. The problem of estimation. Sufficiency of a statistic. The likelihood function and the method of maximum likelihood (MLE). The likelihood function for the Bernoulli model.

18/10/2016

LECTURE 6
Likelihood and log-likelihood. Relative likelihood. The maximum likelihood estimation and the Fisher information criteria. The log-likelihood function for the Bernoulli model: derivation of the MLE and of the Fisher information criteria.

24/10/2016

LECTURE  7
Likelihood, log-likelihood and Fisher observed information for the normal model: estimation of the mean (variance unknown), estimation of the variance (mean unknown), joint estimation of the two parameters (profile likelihood and conditional likelihood).

  • R commands for normal likelihood and log-likelihood function: estimation of the mean (variance as nuisance parameter)
  • R commands for normal likelihood and log-likelihood function: estimation of the variance (mean as nuisance parameter)
  • R commands for normal likelihood and log-likelihood function: joint estimation of the mean and of the variance
25/10/2016

LECTURE 8
Taylor series. Quadratic approximation of the likelihood function: the role of the maximum likelihood estimate and of Fisher information for regular probabilistic models.

07/10/2016 LECTURE 9
Element of frequentist inference: properties of estimators. Frequentist properties of the likelihood.
08/10/2016 LECTURE 10
The sampling distributions for the main statistics: inference on the mean (case of known and unknown variance), inference on variance, inference on proportion. 
14/11/2016 LECTURE 11
Resampling methods: the bootstrap method for deriving the approximate sampling distribution of a statistic. Point estimate and interval estimate. Confidence interval for the mean (case of known and unknown variance), inference on variance, inference on proportion.
15/11/2016 LECTURE 12
Confidence interval for the variance of a normal population. Bootstrap confidence intervals: the percentile method. Introduction to hypothesis testing: type of hypothesis, the spaces involved, the decision rule, the two type of errors, test statistic.
21/11/2016 LECTURE 13
Hypothesis tests for one sample problems.
22/11/2016 LECTURE 14
Inferences on two samples: comparing means, variances and proportions.

Second term

Lezione del: Argomenti trattati
09/01/2017 LECTURE 15
Anova.
10/01/2017 LECTURE 16
The simple linear regression model: the problem of estimation.
16/01/2017 LECTURE 17
The simple linear regression model: the problem of inference.
17/01/2017 LECTURE 18
The simple linear regression model: the problem of prediction.
23/01/2017 LECTURE 19
The multiple linear regression model.
24/01/2017 LECTURE 20
The multiple linear regression model: use of a dummy regressor.
30/01/2017 LECTURE 21
The multiple linear regression model: use of a nominal/ordinal regressor.
31/01/2017 LECTURE 22
A regression model with a dummy response variable: the linear probability model.
06/02/2017 LECTURE  23
A regression model with a dummy response variable: the logit and the probit model.
07/02/2017 LECTURE 24
Regression model for nominal response.
13/02/2017 LECTURE  25
Regression model for ordinal response.
14/02/2017 LECTURE 26
Regression model for count data: the Poisson regression model.
20/02/2017 LECTURE 27
Regression model for count data: the negative binomial regression model.
21/02/2017 LECTURE 28

27/02/2017 LECTURE 29

28/02/2017 LECTURE 30

06/03/2017 LECTURE 31

07/03/2017 LECTURE 32

 

Homeworks

First term

Homework n. 1 (lecture of 26/9) - to do before 04/10
Readings (Berenson & al.):
- study chapter 1, chapter 2, chapter 3, chapter 4
- study the R transcript of R short course (available in the Lectures section)

Homework related to the R class (lectures of 26/9, 27/9, 28/9, 29/9, 30/9, 03/10)
Readings:
- Read the Introduction to RStudio (Data & Statistical Services, Princeton University)

Homework n. 3  (lecture of 04/10) - due on 05/10
Readings (Berenson & al.):
- Study chapter 5: sections 5.1, 5.2 (not covered during the lecture) and 5.3
- Study Multinomial distribution:
* wikipedia link, link to the online multimedia course (Rice University),
* multinomial coefficient1, multinomial distribution1
1An introduction to Mathematical Statistics and its Application, Larsen and Marx, Prentice Hall

Homework n. 4  (lectures of 10/10 and 11/10) - due on 17/10
Readings:
- Study chapter 5: sections 5.4, 5.5, 5.6
- Study chapter 6: sections 6.1, 6.2, 6.3 (not covered during the lecture), 6.4, 6.5, 6.6 (partially covered during the lecture)
* geometric distribution1, negative binomial distribution1
1An introduction to Mathematical Statistics and its Application, Larsen and Marx, Prentice Hall

Homework n. 5  (lectures of 17/10 and 18/10) - due on 24/10
Readings:
- Study chapter 7
* Maximum likelihood estimators1
1Introduction to Probability and Statistics for Engineerings and Scientists, Sheldon Ross, Academic Press

Homework n. 6  (lectures of 24/10 and 25/10) - due on 07/11
Readings:
- Study (again and in detail) the chapter on Maximum likelihood estimators (see homework #5)
- Study Taylor series: Wikipedia link
* Quadratic approximation of the log-likelihood function1
* Score function and Fisher information1
1Applied Statistics and Inference, Held and Sabanés Bové, Springer

Homework n. 7  (lectures of 07/11 and 08/11) - due on 14/11
Readings:
- Study chapter 7
- Study chapter 12: section 12.5

Homework n. 8  (lectures of 14/11 and 15/11) - due on 21/11
Readings:
* Bootstrap methods (not considering the Matlab code)1 - Study chapter 8
- Study chapter 9: section 9.1 1Computational Statistics Handbook with Matlab, Martinez and Martinez, Chapman and Hall/CRC

Homework n. 9  (lectures of 21/11 and 22/11) - to discuss during office hours
Readings:
- Study chapter 9: sections 9.2, 9.3, 9.4, 9.5 and 9.6 (on-line topic)
- Study chapter 10
- Study chapter 12: section 12.5

Second term

Readings (Gujarati and Porter):
- Chapters 1 and 2

Homework n. 11  (lectures of 16/01 and 17/01) - due on 23/01
Readings (Gujarati and Porter):
- Chapter 3

Homework n. 12   (lectures of 23/01 and 24/01) - due on 30/01
Readings (Gujarati and Porter):
- Chapter 4
- download here the dataset for the exercise: Grade Point Average, using the command:
gpa <- read.table("http://domenicovistocco.it/teachingMaterials/busStats/datasets/grade_point_data.txt")

Homework n. 13   (lectures of 30/01 and 31/02) - due on 06/02
Readings (Gujarati and Porter):
- Chapter 5
- download here the dataset for the exercise: Grade Point Average, using the command:
gpa <- read.table("http://domenicovistocco.it/teachingMaterials/busStats/datasets/grade_point_data.txt")

Homework n. 14   (lectures of 06/02 and 07/02) - due on 13/02
Readings (Gujarati and Porter):
- Study again chapters 1, 2, 3, 4 and 5
- Study chapter 6: sections 2 and 3

Homework n. 15   (lectures of 13/02 and 14/02) - due on 20/02
Readings (Gujarati and Porter):
- Chapter 7 and 8
- download here the dataset for the exercise: Brand Preference, using the command:
brand <- read.table("http://domenicovistocco.it/teachingMaterials/busStats/datasets/brand_preference.txt", header = TRUE)

Homework n. 16   (lectures of 20/02 and 21/02) - due on 27/2
Readings:
- Chapter 9

Homework n. 17   (lectures of 27/02 and 28/02) - due on 06/03
Readings:
- Chapter 15

Homework n. 18   (lectures of 06/03 and 07/03) - to discuss during office hours
Readings:
- Chapter 15