IV. Interprétations

Estimation de moyenne. Estimation de variance : traitement d'échantillon, traitement probabiliste (espérance). Intervalle de confiance. Règle du maximum de vraisemblance. Le test du χ² : aperçu.

1. Introduction

Un histogramme peut être représenté par une courbe théorique associée à une loi de probabilité donnée. On examine ici comment estimer les paramètres de cette loi et comment la tester.

2. Estimation de la moyenne

Le problème se pose de la manière suivante : avec quelle certitude la valeur \(\overline{x}=\sum x_i/n\) peut-elle être admise comme valeur moyenne \(m\) ?

Un résultat important a été établi dans le calcul des probabilités, celui de la loi forte des grands nombres (par opposition à la loi faible matérialisée par l’inégalité de Chebycheff). Il s’exprime par la relation : \[\Pr\big(|\overline{x}-m|>k\big)= \frac{2}{\sqrt{2~\pi}}\int_{\lambda}^{\infty}\exp\Big(-\frac{u^2}{2}\Big)~du \qquad;\qquad \lambda = \frac{k~\sqrt{n}}{\sigma}\]

Application

Déterminer le nombre d’échantillons pour que, avec une probabilité de 95 %, la valeur de \(\overline{x}\) diffère de \(m\) de moins de \(m/100\).

Utilisant la probabilité complémentaire : \[\Pr\big(|\overline{x}-m|<95~\%\big)=1-\frac{95}{100}=0,05\]

On doit déterminer \(\lambda\) tel que : \[\frac{2}{\sqrt{2~\pi}}\int_{\lambda}^{\infty}\exp\Big(-\frac{u^2}{2}\Big)~du=0,05 \quad\Rightarrow\quad \frac{2}{\sqrt{2~\pi}}\int_0^{\lambda}\exp\Big(-\frac{u^2}{2}\Big)~du=0,95\]

En utilisant les tables de Gauss, on trouve  \(\lambda=1,96\approx 2\).

Sachant que  \(\lambda=\cfrac{k~\sqrt{n}}{\sigma}\) , on obtient  \(n=4\times 10^4~\Big(\cfrac{\sigma}{m}\Big)^2\)

3. Estimation de la variance

Le problème se pose de la manière suivante : comment calculer \(\sigma\) à partir d’un échantillon donné ? En général, on ne connaît pas exactement la moyenne \(m\).

Nous allons alors définir la variance \(s^2\) par rapport à la moyenne expérimentale \(\overline{x}=\cfrac{\sum x_i}{n}\) en posant : \[s^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2\]

3.1. Étape 1 : Traitement d’échantillon

\(s^2\) est ainsi construite sur \(\{x_1,~x_2,~\dots,~x_n\}\) comme \(\sigma^2\) est construite à partir d’une loi de probabilité théorique et inconnue de \(X\).

\[\begin{aligned} &s^2=\frac{1}{n}\sum\{x_i^2+(\overline{x})^2-2~\overline{x}~x_i\} =\frac{1}{n}\sum x_i^2+\frac{1}{n}\sum(\overline{x})^2-\frac{2~\overline{x}}{n}\sum x_i\\ &s^2=\frac{1}{n}\sum x_i^2+\frac{1}{n}~n~(\overline{x})^2-\frac{2~\overline{x}}{n}~n~\overline{x} =\Big(\frac{1}{n}\sum x_i^2\Big)-(\overline{x})^2\end{aligned}\]

3.2. Étape 2 : Traitement probabiliste (Espérances E)

On sait que : \[\sigma^2=E(x_i^2)-m^2\qquad\Rightarrow\qquad E(x_i^2)=\sigma^2+m^2\]

Premier terme de \(E(s^2)\) : \[E\Big\{\frac{1}{n}\sum x_i^2\Big\}=\frac{1}{n}~\sum E(x_i^2)=\frac{1}{n}~n~(\sigma^2+m^2)=\sigma^2+m^2\]

Deuxième terme de \(E(s^2)\) :

\[\begin{aligned} E\Big\{\frac{\sum x_i}{n}\Big\}^2 &=E\Big\{\frac{\sum (x_i-m)+n~m}{n}\Big\}^2 \\ &=\frac{1}{n^2}~\Big\{E\sum(x_i-m^2)+n^2~m^2+2~n~m~E\Big(\sum x_i-m\Big) \Big\} \\ &=\frac{1}{n^2}~\{n~\sigma^2+n^2~m^2+0\}\end{aligned}\]

En définitive : \[E(s^2)=\frac{n-1}{n}~\sigma^2\]

On remarque alors que :

\[\begin{aligned} n\rightarrow\infty \quad&\Rightarrow\quad E(s^2)\rightarrow\sigma^2\\ n~~\text{fini} \quad&\Rightarrow\quad E(s^2)\neq\sigma^2\end{aligned}\]

Il y a une différence importante entre \(s^2\) considérée comme une estimation de \(\sigma^2\) et \(\overline{x}\) considérée comme une estimation de \(m\), car \(E(\overline{x})=m\).

On dit que \(s^2\) est une estimation biaisée de \(\sigma^2\) avec un biais négatif \(\cfrac{-\sigma^2}{n}\) .

Par suite, pour une estimation de \(\sigma^2\), au lieu d’employer \(s^2\), on prendra \(\cfrac{n}{n-1}~s^2\) .

Autrement dit: \[\sigma_{est}^2=\frac{\sum(x_i-\overline{x})^2}{n-1}\]

La valeur moyenne de cette quantité est exactement égale à \(\sigma^2\), même si \(n\) n’est pas très grand.

4. Intervalle de confiance

On suppose que l’on ait déterminé \[\overline{x}=\frac{x_1+x_2+\dots+x_n}{n}\]

Pour \(n\) suffisamment grand, on peut admettre que la variable \(\overline{x}\) suit une loi normale dont les paramètres à trouver sont \(\sigma\) et \(m\).

On prend la variable réduite : \[z=\frac{(\overline{x}-m)~\sqrt{n}}{\sigma}\]

On pose : \[P=\Pr\Big\{-h<\frac{\sqrt{n}}{\sigma}~(\overline{x}-m)<h\Big\} =\frac{1}{2~\pi}\int_{-h}^{+h}\exp\Big(-\frac{u^2}{2}\Big)~du\]

Le problème se pose de la manière suivante : comment faut-il choisir \(h\) pour que \(P=1-\varepsilon\) ?

Le paramètre \(\sigma\) étant connu et \(h\) étant calculé en fonction de \(\varepsilon\), il suffit de tracer les droites : \[\overline{x}=m\pm\frac{h~\sigma}{\sqrt{n}}~~\rightarrow~~I(x)\]

On définit ainsi ce que l’on appelle un intervalle de confiance.

Exemple

On considère le tableau des mesures suivantes : \[\begin{matrix} x~: &160 &162 &164 &166 &168 &170 \\ y~: &1 &0 &5 &7 &15 &23 \\ ~ \\ x~: &172 &174 &176 &178 &180 &182 \\ y~: &25 &12 &8 &2 &1 &1 \end{matrix}\]

On a donc :

\[\begin{aligned} \sqrt{n}=\sqrt{100}=10\quad&;\quad\overline{x}=\frac{\sum x_i}{n}=170,86\\ \sigma^2=\frac{\sum(x_i-\overline{x})}{n}\quad&\Rightarrow\quad\sigma=3,65\end{aligned}\]

Si l’on se donne \(p = 0,95\), on doit résoudre (tables de Gauss) : \[0,95=\frac{2}{\sqrt{2~\pi}}\int_0^h\exp\Big(-\frac{u^2}{2}\Big)~du \quad\Rightarrow\quad h=1,97\]

Par suite : \[\overline{x}=m\pm\frac{h~\sigma}{\sqrt{n}}=m\pm 0,73\]

On peut donc dire qu’avec une probabilité de 95 %, on a : \(170,13 < m < 171,59\).

5. Règle du maximum de vraisemblance

D’une manière générale, la fonction qui définit la densité de probabilité d’une variable \(x\) s’écrit : \[f(x,~a_1,~a_2,~\dots,~a_n)\qquad\text{n paramètres }a_i\text{ inconnus}\]

Si les variables sont supposées indépendantes : \[P=f(x_1,~a_1,~a_2,~\dots,~a_n)\times\dots\times f(x_n,~a_1,~a_2,~\dots,~a_n)\]

Les paramètres \(a_i\) doivent avoir des valeurs qui rendent \(P\) le plus grand possible. On est conduit à la résolution d’un système d’équations. En fonction de la forme du problème, on rencontre deux types de systèmes : \[\frac{\partial P}{\partial a_i}=0\quad\forall i\qquad\text{ou :}\qquad \frac{\partial\ln (P)}{\partial a_i}=0\quad\forall i\]

Exemple

La loi de Poisson est définie par un seul paramètre \(a\) : \[f(x,~a)=\frac{a^x}{x!}~e^{-a}\]

On a alors : \[P=\Pi_i f(x_i,~a)=e^{-n~a}~\frac{a^{x_1+x_2+\dots+x_n}}{x_1!~x_2!~\dots~x_n!}\]

La notation logarithmique s’impose : \[\ln(P)=-na+\Big(\sum x_i\Big)~\ln(a)-\ln(x_1!~x_2!~\dots~x_n!)\]

En dérivant : \[\frac{\partial(\ln~P)}{\partial a}=0\qquad\Rightarrow\qquad -n+\frac{\sum x_i}{a}=0\]

On retrouve : \[a=\frac{\sum x_i}{n}\]

c’est-à-dire que la meilleure estimation de \(a\) est fournie par la moyenne des valeurs mesurées.

6. Aperçu sur le test du \(\chi^2\)

À partir de \(n\) valeurs expérimentales \(\{x_1,~x_2,~\dots,~x_n\}\), on doit déduire \(m\) et \(\sigma\) de la variable \(X\) dont \(\{x_1,~x_2,~\dots,~_n\}\) sont des échantillons. Il s’agit de choisir pour \(X\) une loi de probabilité.

Les paramètres ayant été choisis, on veut décider si la loi théorique a été judicieusement choisie. Le test du \(\chi^2\) est une méthode qui permet d’évaluer ce choix : \[\chi^2=\sum_{\alpha=1}^r\frac{(k_{\alpha}-n~p_{\alpha})^2}{n~p_{\alpha}}\]

Dans cette expression :

  • \(n\) : nombre d’expériences\(\rightarrow\{x_1,~x_2,~\dots,~x_n\}\)

  • \(r<n\) : nombre des valeurs de \(x_i\) distinctes

  • \(\{k_1,~k_2,~\dots,~k_n\}\) : fréquences absolues des valeurs expérimentales \(x_i\)

  • \(p_{\alpha}\) : probabilités à priori des \(x_i\) (voisines des \(k_i/n\))

Si \(\chi^2\) est suffisamment petite, cela signifie que les \(k_i/n\) expérimentaux sont une approximation raisonnable des \(p_i\) théoriques.

Exemple

Au jeu de Pile ou face, les probabilités respectives à priori sont 1/2 et 1/2. Au cours d’une expérience de comportant 100 000 épreuves, on a fait l’observation suivante :

  • Apparition de pile : 51 400 fois

  • Apparition de face : 48 600 fois

Cet écart est-il significatif ?

Comme \(r = 2\), le nombre de degrés de liberté est 1 : \[\chi^2=\frac{(51~400-50~000)^2}{50~000}+\frac{(48~600-50~000)^2}{50~000}=78,4\]

Cette valeur n’existe pas dans la table, la valeur extrême (10,827) étant dépassée. Or, il correspond à cette dernière une probabilité 0,1 / 100.

On a donc : \[\Pr(\chi^2>10,827)=10^{-3}\]

On peut donc dire qu’avec au moins 1 chance sur 1000 d’erreur, les probabilités théoriques ne sont pas 1/2 et 1/2.

↑ Haut