Formulaire - Statistiques

Représentations et séries statistiques. Caractéristiques de position et de dispersion. Ajustements. Vraisemblance.

1. Aspect descriptif

1.1. Représentations, diagrammes

  • Représentation en bâtons.

  • Représentation en histogramme (forme en escalier) par valeurs correspondant à un ensemble d’intervalles.

  • Polygone des effectifs : ligne brisée obtenue en joignant les points situés aux centres de ces intervalles.

1.2. Série statistique

Si les éléments d’un même ensemble présentent tous un caractère commun dont on peut apprécier l’importance et si l’on repère celle-ci pour chaque élément de l’ensemble, cet ensemble des couples élément – caractère constitue une série statistique.

La représentation classique est celle du tableau.

On utilise aussi la représentation dite polygone des effectifs cumulés. Le graphe correspondant est en fait celui d’une fonction de répartition.

Dans l’exemple ci-dessous : \[\begin{bmatrix} 0&2&4&6&8&\cdots \\ 0&2&8&16&22&\cdots \end{bmatrix}\]

On aura : \(F(n<8)~=~0~+~2~+~8~+~16~=~26\)

2. Caractéristiques

Une série statistique est caractérisée par deux paramètres : position et dispersion.

2.1. Caractéristiques de position

2.1.1. Mode

On appelle mode la position en valeur la plus fréquente. S’il y a deux modes, le plus important sera le mode absolu et l’autre le mode relatif.

2.1.2. Médiane

La moitié au plus de l’effectif a un caractère de valeur [\(V<a\)].

La moitié au plus de ce même effectif a un caractère de valeur [\(V>a\)].

Noter que ce point correspond au point à mi-hauteur de la courbe des effectifs cumulés.

2.1.3. Quartile

Répartition par quarts. \(Q_1\) : quartile inférieur ; \(Q_3\) : quartile supérieur à la médiane.

La courbe des effectifs peut être mise à profit comme pour la médiane.

2.1.4. Moyenne

Moyenne arithmétique : \[\overline{X}~=~\dfrac{\sum_in_i~x_i}{n}~=~\sum k_i~x_i\qquad\text{avec :}\quad k_i=\frac{n_i}{n}\]

Moyenne géométrique : \[n~\log G~=~\sum k_i~\log x_i\]

Moyenne harmonique : \[\frac{1}{H}~=~\sum\frac{n_i}{n}~\frac{1}{x_i}~=~\sum\frac{k_i}{x_i}\]

2.2. Caractéristiques de dispersion

2.2.1. Intervalle inter-quartiles

Intervalle \(\Delta Q = Q_3-Q_1\).

2.2.2. Écart moyen

Défini par rapport à la moyenne \(m\) ou la médiane \(a\) : \[\begin{aligned} E_m~&=~\frac{\sum_i n_i~|x_i-m|}{n}~=~\sum_i\cup_i~|x_i-m|\\ E_a~&=~\frac{\sum_i n_i~|x_i-a|}{n}~=~\sum_i\cup_i~|x_i-a|\end{aligned}\]

2.2.3. Fluctuation ou variance

\[\sigma^2~=~\frac{\sum_i n_i~(x_i-m)^2}{n}\]

2.2.4. Coefficient de corrélation

\[r~=~\frac{\sum(x_i-\overline{x})~\sum(y_i-\overline{y})}{\sqrt{\sum(x_i-\overline{x})^2~\sum(y_i-\overline{y})^2}}\] \[\begin{aligned} &r~=~\pm 1 && \text{linéarité} \\ &r = 0 && \text{caractères indépendants} \\ 0<~&r<1 && \text{corrélation positive}\\ -1<~&r<0 && \text{corrélation négative}\end{aligned}\]

3. Problèmes d’ajustements

La méthode de lissage des points expérimentaux porte le nom de méthode des moindres carrés.

On dispose d’un certain nombre de points de mesure \((x_i,~y_i)\). On cherche alors une relation de la forme :  \(y~=~\phi(a_1,~a_2,~\cdots,~x)\).

Il s’agit de rendre minimale la forme : \[\sum_{i=1}^n \{(y_i-\phi(x_i)\}^2\]

D’où une suite de relations (avec a, b, etc.) : \[\begin{aligned} &\sum_{i=1}^n\{y_i-\phi(x_i~;~a,~b,~\cdots)\}~\frac{\partial\phi}{\partial a}~=~0\\ &\left.\frac{\partial\phi}{\partial a}\right|_i~=~\phi'_a (x_i~;~a,~b\cdots )\end{aligned}\]

3.1. Droite de régression

Droite de régression

Le cas typique est celui de la droite : \[y~=~\phi(x~;~a~,~b) \qquad y~=~ax~+~b\]

D’où l’ensemble des dérivées : \[\frac{\partial y}{\partial a}=x_i \qquad;\qquad \frac{\partial y}{\partial b}=1\]

D’où le système linéaire en a et b à résoudre : \[\begin{aligned} \sum_{i=1}^n \{y_i-(a~x_i+b)~x_i\}~=~0 \quad &\Rightarrow \quad \left(\sum x_i^2\right)~a~+~\left(\sum x_i\right)~b~=~ \sum x_i~y_i \\ \sum_{i=1}^n \{y_i-(a~x_i+b) \}~=~0 \quad &\Rightarrow \quad \left(\sum x_i\right)a~+~n~b~=~0\end{aligned}\]

On peut également écrire directement : \[y-m_y~=~\frac{\sigma_{xy}}{\sigma^2}~(x-m_x)\]

3.2. Approximation parabolique

On a cette fois les relations : \[\begin{aligned} y&=a~x^2+b~x+c \\ \frac{\partial y}{\partial a}&=x^2 \quad ; \quad \frac{\partial y}{\partial b}=x \quad ; \quad \frac{\partial y}{\partial c}=1 \end{aligned}\]

D’où le système à résoudre : \[\begin{aligned} \left(\sum x_i^2\right)~a~+~\left(\sum x_i\right)~b~+~n~c~&=~\sum y_i\\ \left(\sum x_i^3\right)~a~+~\left(\sum x_i^2\right)~b~+~\left(\sum x_i\right)~c~&=~\sum x_i~y_i \\ \left(\sum x_i^4\right)~a~+~\left(\sum x_i^3\right)~b~+~\left(\sum x_i^2\right)~c~&=~\sum x_i^2~y_i\end{aligned}\]

4. Aspects interprétatifs

Quelle est la validité de choix d’une probabilité dans la description de l’ensemble de valeurs ?

4.1. Règle du maximum de vraisemblance

On part de l’expression de la probabilité en fonction de la densité de probabilité \(f(x~;~a_1,~a_2,~\cdots)\) : \[P=\sum_i~f(x~;~a_1,~a_2,~\cdots) \quad;\quad P=\int f(x~;~a_1,~a_2,~\cdots)~dx\]

Suivant la forme de l’expression, on fera : \[\frac{\partial P}{\partial a_i}=0\quad\forall~i~\qquad ; \qquad \frac{\partial ~(\ln P)}{\partial a_i}=0\quad\forall~i\]

Pour mémoire, dans le cas de la loi de Poisson : \[f(x~;~a)~=~\frac{a^x}{x!}~e^{-a} \qquad \Rightarrow \qquad a~=~\frac{\sum x_i}{n}\]

4.2. Test du Khi²

Le test du \(\chi^2\) permet d’évaluer le choix d’une loi de probabilité : \[\chi^2~=~\sum_{j=1}^r \frac{(k_j-n~p_j^2)}{n~p_j}\]

  • \(n\) : nombre d’expériences

  • \(r<n\) : nombre de valeurs distinctes

  • \(k_j\) : fréquences respectives d’apparition des valeurs

  • \(p_j\) : probabilité à priori des \(x_i\)

Code QR de la page

Télécharger

↑ Haut