Vide | Vide |
Barycentres (suite 6)
© APMEP Juin 2020
2.2 Moyennes en probabilités/statistique
En probabilités ou en statistique, la spécificité de la formule \(\displaystyle \mu=\sum_k
w_k\,x_k\) est le fait, outre \(\displaystyle\sum w_k=1\), que chaque \(w_k\) est positif puisqu’il s’agit d’une fréquence ou d’une probabilité. On peut aussi supposer, au besoin, que la suite des \(x_k\) est strictement croissante.
Précisons quelques points sur l’espérance; si \(X\) est une variable aléatoire réelle (finie) sur \(\Omega\) avec \[X(\Omega)=\{x_1,\,\dots,\,x_n\},\] on définit usuellement l’espérance de \(X\), relativement à une probabilité \(\mathbb{P}\) sur \(\Omega\), comme la moyenne arithmétique des valeurs de \(X\) pondérées par les probabilités de prise de ces valeurs (c’est-à-dire l’expression de l’espérance avec la probabilité-image)
\[\tag{8}E(X)=\sum\limits_{k=1}^n \mathbb{P}(X=x_k)\,x_k.
\label{equa7}\]
La raison de cette appellation mérite d’ailleurs une enquête du côté d’un certain Huygens20.
Si \(\Omega=\{ \omega_1,\,\dots,\, \omega_p\}\), il peut être préférable de réécrire21 l’espérance sous la forme d’une somme sur l’univers \[E(X)=\sum\limits_{j=1}^p X( \omega_j)\,\mathbb{P}(\{ \omega_j\})\] qui est aussi une formule barycentrique et qui permet de démontrer des propriétés comme la linéarité ou la croissance de l’espérance, démonstrations non triviales en utilisant la définition ([equa7]).
Enfin, une variable aléatoire \(X\) peut s’écrire de façon unique sous la forme dite étagée \[X=\sum\limits_{h=1}^n x_h\mathbb{1}_{A_h}\] avec \(x_1 < \dots < x_n\) et \(\{A_h=(X=x_h)\}_{1 \leqslant h \leqslant n}\) une partition de \(\Omega\)22. On dispose là d’un outil efficace pour démontrer des propriétés de l’espérance, par exemple, l’espérance du produit de deux variables indépendantes ou même la formule du transport23.
On peut également étudier certaines inégalités. Par exemple \[\min_k x_k \leqslant \mu \leqslant \max_k x_k.\]
Plus généralement, si \( \mu’\) et \( \mu »\) sont deux moyennes partielles, sur des ensembles d’indice complémentaires, d’une même série \((w_k,\,x_k)\) avec \( \mu’ \leqslant \mu »\), on a toujours \[ \mu’ \leqslant \mu \leqslant \mu ».\]
D’autres moyennes — qui sont aussi en contexte probabiliste des espérances — sont utiles à considérer : \[m(x)=\sum_k w_k |x_k-x|\] est la moyenne (des valeurs absolues) des écarts à \(x\) et \[v(x)=\sum_k w_k (x_k-x)^2\] est la moyenne quadratique des écarts à \(x\), dans laquelle on reconnaît une fonction scalaire de Leibniz. L’action des fonctions affines sur ces moyennes est une bonne occasion de calcul. On démontre facilement (avec ou sans Leibniz) que \(v\) présente un minimum en \(x= \mu\). Il est un peu plus délicat de démontrer que \(m\) présente un minimum en toute valeur médiane de la série \((w_k,\,x_k)\). L’étude visuelle de la façon dont varie \(\displaystyle\sum_k
w_k\,\mathsf{MA}_k\) lorsque \(\mathsf{M}\) se déplace sur la droite pour \(2\), \(3\) ou \(4\) points, d’abord dans le cas « coefficients égaux » puis dans le cas général est génératrice de conjectures appelant des démonstrations accessibles tant que l’on reste sur des exemples. Ici encore, les LGD sont d’une aide précieuse. Le lecteur percevra le rôle de la convexité dans cette question, plus précisément celui de la croissante des pentes des segments de la fonction affine par morceaux \(m\).
Pour ces questions, on pourra consulter [12].
L’inégalité entre la moyenne arithmétique et la moyenne quadratique vue au paragraphe précédente donne une inégalité entre l’écart-moyen \(m(x)\) et l’écart-quadratique \(\sqrt{v(x)}\).
Un lien entre la moyenne pondérée et les quantiles d’une série statistique est fournie par l’inégalité de Markov24 : \[ \mu=\sum\limits_{k=1}^nw_k\,x_k \geqslant a\sum\limits_{k\mid x_k \geqslant a}w_k.\] En mots, citant G-T. Guilbaud25 :
« si toutes les valeurs de \(x\) sont positives, la moyenne (ordinaire) ne peut être inférieure au quart du dernier quartile, ni au dixième du dernier décile, etc.
Ou encore en désignant par \(F\) la fonction de répartition des fréquences : \(\left\{\kern-2pt\begin{array}{r@{\kern2pt}c@{\kern2pt}l}F(0)&=&0 \\ F(u)&=&1-q \end{array}\right.\) implique \( \mu \geqslant q\cdot u\) »
Faire le lien entre ces trois formulations est un exercice non trivial, l’utilisation d’exemples s’avérant bien utile. L’inégalité de Markov peut aussi se formuler sur les variables aléatoires positives \[\text{pour }a>0,\ E(X)\geqslant a\mathbb{P}(X\geqslant a).\] Une autre inégalité joue un rôle important en probabilités et statistique : celle de Bienaymé-Tchebychev26 dont la démonstration est moins simple que celle de Markov (et peut d’ailleurs s’en déduire, mais est-ce didactiquement pertinent ?).
Soit \(\displaystyle \sigma^2=\sum_{k=1}^n w_k\left(x_k- \mu\right)^2\) et \(t>0\); soit \(I\) l’ensemble des indices \(k\) tel que \(|x_k- \mu|\geqslant
t \sigma\); on a \[ \sigma^2 \geqslant \sum_{k \in I}w_k\,\left(x_k- \mu\right)^2
\geqslant t^2 \sigma^2 \sum_{k \in I}w_k\] donc \[\sum_{k\ \mid\ |x_k- \mu| \geqslant
t \sigma}\hspace{-1em}w_k \leqslant \frac{1}{t^2}\] inégalité qui donne une majoration universelle de la dispersion de la série par rapport à sa moyenne, valide aussi pour les distributions de probabilités (finies). \[\mathbb{P}\left(\left|X-E(X)\right|\geqslant t \sigma\right)
\leqslant \frac{1}{t^2}\cdotp\]
Cette majoration est de mauvaise qualité : avec \(t=3\), on a \(\dfrac{1}{9}\) comme majorant, alors que pour une distribution binomiale avec \(n\) assez grand, on obtient, par l’approximation normale, \(\dfrac{3}{{1000}}\) comme majorant.
Une question relève de la théorie des erreurs : lorsque l’on dispose d’une série de mesures — par exemple en astronomie des mesures de durées ou d’angles — pourquoi la moyenne est-elle déclarée, sous certaines hypothèses, la valeur la plus probable de la valeur théorique27 ? La question est vaste — et sans réponse simple — mais peut faire l’objet d’un travail d’enquête historique entrant dans le cadre des programmes. Pour des éléments de synthèse, on pourra consulter l’article de J.F. Pichard paru dans la brochure APMEP 156 Statistique au lycée.
La théorie des erreurs sera élaborée par Lagrange, Laplace et surtout Gauss. L’ouvrage [13] est consacré à cette question. Le point de vue des physiciens est exposé dans [14], celui d’une mathématicienne dans [15].
Une dernière question abordable est le problème de l’ajustement linéaire. Présentons-le géométriquement en dehors de toute considération aléatoire28 : un nuage de « points » \(\left(\mathsf{M}_k(x_k,\,y_k)\right)_{1
\leqslant k \leqslant n}\) de \( \mathbb{R}^2\) étant donné, on cherche une droite d’équation \(y=a\,x+b\) passant au plus près — en un sens à préciser — de ces \(n\) points. On peut supposer que \(n \geqslant 3\) et qu’au moins \(3\) de ces points ne sont pas alignés.
Il s’agit de préciser l’idée de proximité. On a besoin d’une distance dans \( \mathbb{R}^2\); pour assurer l’existence, l’unicité et la calculabilité effective du problème de l’ajustement, on choisit de mesurer la proximité d’un point \((x_k,\,y_k)\) et de la droite \(y=a\,x+b\) par la quantité \((y_k-a\,x_k-b)^2\). Et pour assurer une bonne proximité de tous les points, on cherche à minimiser la fonction de deux variables29 : \[S(a,\,b)=\sum_{k=1}^n (y_k-ax_k-b)^2.\]
On peut soupçonner que le barycentre du nuage \((\bar{x},\,\bar{y})\) va jouer un rôle; supposons les variables centrées, soit \(\bar{x}=\bar{y}=0\) et introduisons des notations usuelles : \[\overline{x^2}=\frac{1}{n}\sum_kx_k^2,\ \overline{x\,y}=\frac{1}{n}\sum_k x_k\,y_k.\] On a alors \(S(a,\,b)=\sum\limits_{k=1}^n
(y_k^2+a^2\,x_k^2+b^2-2\,a\,x_ky_k-2\,a\,b\,x_k-2\,b\,y_k)\) donc \(S(a,\,b)=n\,(a^2\,\overline{x^2}-2\,a\,\overline{x\,y}+\overline{y^2}+b^2)\).La fonction \(S\) est donc somme d’une fonction ne dépendant que de \(a\) et d’une fonction ne dépendant que de \(b\). Le minimum est atteint si et seulement si \(b=0\) et \(a=\dfrac{\overline{x\,y}}{\overline{x^2}}\cdotp\)
Dans le cas général, on centre les variables \(X_k=x_k-\bar{x}\), \(Y_k=y_k-\bar{y}\); on a alors \[S(a,\,b)=\sum_k(Y_k-aX_k)^2+n(\bar{y}-a\bar{x}-b)^2.\] Le minimum est atteint si et seulement si les deux conditions suivantes sont remplies : \[\bar{y}-a\bar{x}-b=0\text{ et }\sum_k(Y_k-a\,X_k)^2\text{ minimum}\] ce qui ramène au cas précédent : le minimum est atteint pour \(a=\dfrac{\overline{X\,Y}}{\overline{X^2}}\) et \(b=\bar{y}-a\bar{x}\).
Ce résultat est en réalité un cas particulier de la méthode des moindres carrées; plutôt que de travailler dans \( \mathbb{R}^2\) il est plus pertinent de se placer dans \( \mathbb{R}^n\) : \(\displaystyle\sum_{k=1}^n(y_k-ax_k-b)^2\) est alors le carré de la distance du vecteur \(Y=(y_1,\,\dots,\,y_n)\) au vecteur générique du plan \(P\) engendré par \(X=(x_1,\,\cdots,\,x_n)\) et \(E=(1,\,\dots,\,1)\). C’est le projeté orthogonal de \(Y\) sur \(P\) qui fournit le minimum. Le calcul peut s’envisager dans le cas \(n=3\).
-
Christian Huygens (1629-1695) est un mathématicien hollandais.↩
-
Réécriture simple à comprendre, du moins sur des exemples permettant de voir le problème, mais pas simple à valider en toute généralité; on a là un exemple où la démonstration formelle est plutôt génératrice de brouillard.↩
-
Cette écriture prend un petit air barycentrique en observant que \(\displaystyle\sum_h
\mathbb{1}_{A_h}=\mathbb{1}_{\Omega}\).↩ -
Si \(\phi\) est une application de \(X(\Omega)\) dans \(\mathbb{R}\), \(\displaystyle E\big(\phi(X)\big)=\sum_k \mathbb{P}(X=x_k)\,\phi(x_k)\); cette propriété n’est pas au programme des lycées.↩
-
Andreï Markov (1856-1922) est un mathématicien russe.↩
-
Georges-Théodule Guilbaud (1912-2008) est un mathématicien français.↩
-
Irénée-Jules Bienaymé (1796-1878) est un mathématicien français et Pafnouti Tchebychev (1821-1894) est un mathématicien russe.↩
-
Le terme de « valeur exacte » fait problème; la tendance actuelle de la physique est de considérer que les grandeurs physiques sont des variables aléatoires.↩
-
Pour ne pas entrer dans les questions de validité de la méthode. ↩
-
La justification est un peu capillotractée; la bonne explication est que \(\displaystyle\sum_{k=1}^n
(y_k-ax_k-b)^2\) est, dans \(\mathbb{R}^n\), le carré d’une authentique distance euclidienne; voir plus loin. ↩
Vide | Vide |