Écart à l’indépendance d’événements :
un encadrement remarquable

Jean-Baptiste Hiriart-Urruty souhaite rendre hommage à Paul-Louis Hennequin en nous proposant un article de mathématicien : dans cet article, il revisite et démontre un encadrement remarquable au sujet de l’indépendance de deux événements. Dans la partie « Complément numérique », il généralise ce résultat en construisant et étudiant un nouvel indicateur de dépendance de plusieurs événements.

Jean-Baptiste Hiriart-Urruty

© APMEP Décembre 2022
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅♦⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅

Cette note pédagogique est rédigée en hommage à Paul-Louis Hennequin récemment disparu. PLH, comme nous l’appelions familièrement, m’accueillit, avec d’autres de ses collègues, quand je commençais ma carrière d’enseignant-chercheur au département de mathématiques appliquées de l’université de Clermont-Ferrand. Nommé assistant agrégé, je venais de l’enseignement secondaire.

Bien que ne travaillant que partiellement dans des domaines « relevant du stochastique », PLH nous a toujours montré son soutien et son intérêt en assistant à tous les exposés de séminaires que je donnais ; d’ailleurs, c’était aussi le cas à l’endroit des autres conférenciers du département. J’ai eu l’honneur et le plaisir de l’avoir comme membre examinateur de ma thèse de doctorat ès Sciences Mathématiques.

Plus tard, lorsque j’étais professeur à l’université Paul Sabatier de Toulouse, PLH et moi avons continué à avoir des échanges épisodiques, parfois sur un livre que j’avais pu écrire, parfois sur des actions de popularisation mathématique, qu’il appréciait particulièrement. C’est d’ailleurs dans cet esprit que j’ai écrit ce texte.

Écart à l’indépendance, les débuts

« \(P(A\text{ et }B)=P(A)P(B)\) lorsque les événements \(A\) et \(B\) sont indépendants » est l’une des premières choses que l’élève ou l’étudiant débutant apprend en cours de probabilités… C’est même la définition de « l’indépendance de deux événements \(A\) et \(B\) ». Lorsque \(A\) et \(B\) ne sont pas indépendants, la différence

\[e(A,B)=P(A\text{ et }B)-P(A)P(B)\]

n’est pas nulle…, mais évidemment comprise entre \(-1\) et \(1\) puisque c’est la différence de deux nombres réels compris entre \(0\) et \(1\). On pourrait s’en tenir là et c’est d’ailleurs ce qu’on fait usuellement dans un cours de probabilités…

On pourrait donc penser que « l’écart à l’indépendance » \(e(A,B)\) de deux événements \(A\) et \(B\) peut prendre n’importe quelle valeur entre \(-1\) et \(1\)… Or il n’en est rien : cet écart est toujours compris entre \(-\dfrac{1}{4}\) et \(\dfrac{1}{4}\) ! C’est en consultant un récent recueil d’exercices d’oraux de concours [1, Exercice 3.7] que j’ai été arrêté par ce résultat… Peut-être l’ai-je appris dans une vie antérieure, en tout cas je l’avais complètement oublié. Aussitôt surgissent les questions : comment le démontrer (si possible de plusieurs façons très différentes) ? Qui a publié le premier ce résultat ? Comment généraliser au cas de \(n\) événements ? C’est à cette tâche que nous allons nous atteler.

Cas de deux événements

Comme souvent en mathématiques, mais pas toujours, une fois qu’on sait ce qu’il faut démontrer, on peut s’attaquer à la démonstration… La démonstration dépend du niveau de connaissances préalables dans lequel on se place, ce qui sera le cas ici.

Après quelques recherches bibliographiques et la consultation de collègues, probabilistes ou pas, j’ai pu détecter la première occurrence de ce résultat : l’encadrement et une paire de démonstrations sont dus à Mme Édith Kosmanek en 1996 [2] ; ils sont repris comme exercice dans un livre d’enseignement des probabilités en université la même année [3, p. 66, exercice 18]. Ensuite c’est dans les exercices d’oraux de concours que j’ai vu apparaître ce résultat.

Voici donc le résultat et quelques-unes des démonstrations possibles.

Théorème 1 (É. Kosmanek)

Soit \(A\) et \(B\) deux événements d’un espace probabilisé \((\Omega,\mathcal{F},P)\). Alors, l’écart à l’indépendance de \(A\) et \(B\), à savoir \(e(A,B)=P(A\text{ et }B)-P(A)P(B)\), est encadré comme suit : \[\begin{align} -\frac{1}{4}\leqslant e(A,B)\leqslant\frac{1}{4}\tag{1}\label{eq1}\end{align}\]

Notons que l’on a bien réduit l’encadrement trivial par \(-1\) et \(1\) signalé au début. De plus, on ne pourra pas faire mieux que \eqref{eq1} : en effet, pour un événement \(A\) dont la probabilité est \(\dfrac{\mathstrut1}{\mathstrut2}\), nous avons \(e(A,A)=\dfrac{1}{4}\) tandis que \(e(A,A^c)=-\dfrac{\mathstrut1}{\mathstrut4}\) (\(A^c\) désigne ici et dans la suite l’événement contraire de \(A\)).

Passons aux démonstrations de \eqref{eq1} .

Nous commençons par la démonstration qui nous paraît la plus simple, de niveau lycée (mais, bien sûr, c’est un avis subjectif).

Démonstration faisant intervenir des probabilités conditionnelles

Niveau lycée, avec l’apport de P. Lassère.

Nous avons \[\begin{align}
e(A,B)&=P(A \text{ et } B)-P(A)P(B)\notag\\[-2pt]
&=P(A|B)P(B)-P(A)P(B)\notag\\[-2pt]
&=P(B)\bigl[P(A|B)-P(A)\bigr].\tag{2}\label{eq2}\\[-19pt]\notag\end{align}\]
\[\begin{aligned}
\text{Or }\qquad P(A)&=P(A\text{ et }B)+P(A\text{ et }B^c)\\
&=P(A|B)P(B)+P(A|B^c)P(B^c).\end{aligned}\]
Injectons ceci dans \eqref{eq2} , de manière à obtenir :


\[\begin{aligned}
e(A,B)&=P(B)\bigl[P(A|B)-P(A|B)P(B)-P(A|B^c)P(B^c)\bigr]\notag\\[-2pt]
&=P(B)\bigl[P(A|B)(1-P(B))-P(A|B^c)P(B^c)\bigr]\notag\\[-2pt]
&=P(B)\bigl[P(A|B)P(B^c)-P(A|B^c)P(B^c)\bigr].\\[-19pt]\notag\end{aligned}\]

Ainsi, \[\begin{align}e(A,B)=P(B)P(B^c)\left[P(A|B)-P(A|B^c)\right].\tag{3}\label{eq3}\end{align}\] Alors : \(P(A|B)\) et \(P(A|B^c)\) sont deux nombres réels compris entre \(0\) et \(1\), donc \[\bigl| P(A|B)-P(A|B^c)\bigr| \leqslant 1\, ;\]

\(P(B)P(B^c)\) est de la forme \(x(1-x)\) avec \(x\) compris entre \(0\) et \(1\), donc majoré par \(\max\limits_{x\in[0,1]}x(1-x)=\dfrac{1}{4}\cdotp\)

L’inégalité \(\bigl| e(A,B)\bigr| \leqslant\dfrac{1}{4}\) est bien démontrée.

Remarque

L’expression \eqref{eq3} est, bien sûr, « symétrisable » de manière à aboutir à \[\begin{align}
e(A,B) &=e(B,A)\notag\\
&=P(A)P(A^c)\bigl[P(B|A)-P(B|A^c)\bigr].\tag{4}\label{eq4}\end{align}\]

Par ailleurs, il vient immédiatement de \eqref{eq3} que \(e(A,B^c)=-e(A,B)\). Cela milite en faveur du fait que la borne supérieure et la borne inférieure dans \eqref{eq1} doivent être opposées ; ce ne sera pas le cas pour plus de trois événements (voir ci-dessous).

Toujours en tirant sur le même fil : \(A\) et \(B\) sont indépendants (c’est-à-dire \(e(A,B)=0\)) si et seulement si \(A\) et \(B^c\) sont indépendants \(\bigl(\)puisque \(e(A,B^c)=-e(A,B)\bigr)\).

Complément numérique

Démonstration par l’optimisation d’une fonction de plusieurs variables

(l’une des preuves données dans [2]) (niveau \(\text{Bac}+2\)).

En se servant de \(A\) et \(B\), on crée une partition de \(\Omega\) de la manière suivante : \[C_{1}=A\text{ et }B\text{ ; }C_{2}=A\text{ et }B^c\text{ ;}\] \[C_{3}=A^c\text{ et }B\text{ ; }C_{4}=A^c\text{ et }B^c.\] Notons \(x\), \(y\), \(z\), \(t\) leurs probabilités respectives. On a alors : \[\begin{align}
e(A,B)&=f(x,y,z,t)\notag\\
&=x-(x+y)(x+z)\notag\\
&=x(1-x-y-z)-yz\notag \\
&=xt-yz\tag{5}\label{eq5}\\
&\text{(puisque }1=x+y+z+t\text{)}.\notag\end{align}\]
L’optimisation, c’est-à-dire la maximisation et la minimisation, de la fonction (de \(4\) variables) \((x,y,z,t)\longmapsto f(x,y,z,t)=xt-yz\) sous les contraintes \(x\geqslant 0\), \(y\geqslant 0\), \(z\geqslant 0\), \(t\geqslant 0\) et \(1=x+y+z+t\) est facile. C’est encore la règle \(\max\limits_{x\in[0,1]}x(1-x)=\dfrac{1}{4}\) qui va servir. En effet :

\[\begin{align}
f(x,y,z,t)&=xt-yz \leqslant xt \leqslant x(1-x) \leqslant \frac{1}{4} \;\;\;\text{(puisque }x \geqslant 0 \text{ et } t \leqslant 1-x \text{) ;}\\
-f(x,y,z,t) & = yz-xt \leqslant yz \leqslant y(1-y) \leqslant \frac{1}{4}\cdotp
\end{align}\]

Donc, l’inégalité \(\bigl|f(x,y,z,t)\bigr|\leqslant\dfrac{1}{4}\) pour les probabilités \(x\), \(y\), \(z\), \(t\) est démontrée.

Remarque

L’évaluation \eqref{eq5} de \(e(A,B)\) est intéressante pour avoir, par exemple, ceci : \(A\) et \(B\) sont indépendants si et seulement si \(xt=yz\), soit \[\begin{align}P(A\text{ et }B)P(A^c\text{ et }B^c)=P(A\text{ et }B^c)P(A^c\text{ et }B).\tag{6}\label{eq6}\end{align}\]

Démonstration par application ad hoc de l’inégalité de Cauchy-Schwarz

(preuves données dans [1, 2]), (niveau \(\text{Bac}+3\)).

On considère les variables aléatoires particulières que sont les indicatrices \(1_{A}\) et \(1_{B}\). Alors, \[\begin{aligned}
\mathrm{cov}(1_{A},1_{B})&=E(1_{A}.1_{B})-E(1_{A})E(1_{B})\\
&=E(1_{A\text{ et }B})-E(1_{A})E(1_{B})\\
&=P(A\text{ et }B)-P(A)P(B)\\
&=e(A,B).\end{aligned}\]
Par l’inégalité de Cauchy-Schwarz, \[\begin{align}
\left[\mathrm{cov}(1_{A},1_{B})\right]^{2}
&\leqslant\mathrm{var}(1_{A})\mathrm{var}(1_{B})=x(1-x)y(1-y)\tag{7}\label{eq7}\end{align}\]
\[\text{où }x=P(A)\text{ et }y=P(B).\] Encore et toujours l’inégalité \(u(1-u)\leqslant\dfrac{1}{4}\) pour tout \(u\) entre \(0\) et \(1\) permet de conclure.

Remarque

Observons l’inégalité \eqref{eq7} écrite avec les probabilités, qui a une certaine esthétique : \[\begin{align}\bigl|P(A\text{ et }B)-P(A)P(B)\bigr|\leqslant\sqrt{P(A)P(A^c)}\sqrt{P(B)P(B^c)}.\tag{8}\label{eq8}\end{align}\]

Et pour \(n\) évènements ?

Les mathématiciens sont incorrigibles pour cela… Inévitablement ils poseront la question :

Quid de l’écart à l’indépendance \(P(A_{1}\text{ et }A_{2}\text{ }\dots\text{ et }A_{n})-P(A_{1})P(A_{2})\text{ }\dots\text{ }P(A_{n})\) ?

J’avoue avoir commencé par le cas \(n=3\) et une démonstration parallèle à la deuxième du Théorème 1 ci-dessus : avec la partition de \(\Omega\) engendrée par \(3\) évènements \(A\), \(B\) et \(C\), on arrive à une fonction \(f\) de \(8\) variables… difficile à optimiser. L’approche ci-dessous est générale, valable pour tout \(n\). Là, comme d’habitude, une fois qu’on sait ce qu’il faut démontrer, les choses deviennent plus faciles.

Soit donc \(n\) évènements \(A_{1}\), \(A_{2}\), …, \(A_{n}\).

On pose \(e(A_{1},A_{2},\ldots,A_{n}):=P(A_{1} \text{ et }A_{2}\ldots \text{ et }A_{n})-P(A_{1})P(A_{2})\ldots P(A_{n})\).

L’encadrement de \(e(A_{1},A_{2},\ldots,A_{n})\), général et optimal, est comme suit.

Théorème 2

Pour tout \(n\geqslant 2\), nous avons \[\begin{align}-\left(\frac{n-1}{n}\right) ^{n}\leqslant e(A_{1},A_{2},\ldots,A_{n})\leqslant (n-1)\left( \frac{1}{n}\right)^{\textstyle\frac{n}{n-1}}\cdotp\tag{9}\label{eq9}\end{align}\]

Deux observations avant de faire une démonstration.

  • L’encadrement \eqref{eq9} est optimal, au sens où on peut se trouver dans des situations où il y a égalité dans l’une des deux inégalités proposées. Considérons par exemple une partition de \(\Omega\) en \(n\) cellules \(C_{j}\) d’égales probabilités \(\dfrac{1}{n}\), puis les \(n\) évènements \(A_{i}\) définis par \(A_{i}=\displaystyle\bigcup_{j\neq
    i}C_{j}\)
    . Alors, \(P(A_{i})=\dfrac{n-1}{n}\) pour tout \(i\), tandis que \(\displaystyle\bigcap_{i}A_{i}=\emptyset\) ; ainsi \(-\left(
    \dfrac{n-1}{n}\right)^{n}=e(A_{1},A_{2},\ldots,A_{n})\)
    . Considérons un évènement \(A\) de probabilité \(\left(\dfrac{1}{n}\right)^{\textstyle\frac{1}{n-1}}\), puis les \(n\) évènements \(A_{i}\) tous égaux à \(A\). Alors, \[\begin{aligned}
    e(A_{1},A_{2},\ldots,A_{n})&=P(A)-P(A)^{n}\\
    &=\left(\frac{1}{n}\right)^{\textstyle\frac{1}{n-1}}-\left(\frac{1}{n}\right)^{\textstyle\frac{n}{n-1}}\cdotp\end{aligned}\]

    En utilisant la décomposition \(\dfrac{n}{n-1}=1+\dfrac{1}{n-1}\), on constate que cette dernière expression n’est autre que \((n-1)\left(\dfrac{1}{n}\right)^{\textstyle\frac{n}{n-1}}\).

  • Le comportement limite quand \(n\longrightarrow +\infty\) des deux bornes dans \eqref{eq9} est facile à obtenir : \[\begin{aligned}
    -\left(\frac{n-1}{n}\right)^{n}&\searrow-\frac{1}{\text{e}}\text{ quand }n\longrightarrow +\infty\text{ ;} \\
    (n-1)\left(\frac{1}{n}\right)^{\textstyle\frac{n}{n-1}}&\nearrow1\text{ quand }n\longrightarrow +\infty.\end{aligned}\]
    L’apparition de la constante \(e\) dans la première limite peut surprendre, mais ce n’est pas la première fois qu’elle apparaît dans une limite de calcul des probabilités (dans le « problème des rencontres » par exemple [3, page 39]).

Pour la bonne bouche, voici quelques valeurs numériques approchées de l’encadrement \eqref{eq9} pour \(n\) allant de \(3\) à \(10\) : \[\begin{array}{c@{\hspace*{2pt}=\hspace*{2pt}}l@{\hspace*{2pt} :\hspace*{2pt}}r@{\null\leqslant\ldots\leqslant\null}l}
n&=& 3:&-0,2962&\leqslant\dots\leqslant0,7313\\
n&=& 4:&-0,3164&\leqslant\dots\leqslant0,8238\\
n&=& 5:&-0,3276&\leqslant\dots\leqslant0,8662\\
n&=& 6:&-0,3348&\leqslant\dots\leqslant0,8911\\
n&=& 7:&-0,3399&\leqslant\dots\leqslant0,9076\\
n&=& 8:&-0,3436&\leqslant\dots\leqslant0,9195\\
n&=& 9:&-0,3464&\leqslant\dots\leqslant0,9284\\
n&=&10:&-0,3486&\leqslant\dots\leqslant0,9355.
\end{array}\]

Démonstration du théorème 2

Commençons par la partie facile, la majoration dans \eqref{eq9}. Soit \(x=P(A_{1}\text{ et }A_{2}\text{ et }\dots\text{ et }A_{n})\). Puisque \(P(A_{i})\geqslant x\) pour tout \(i=1\), …, \(n\), nous avons \[e(A_{1},A_{2},\ldots,A_{n})\leqslant x-x^{n}\leqslant \max_{x\in[0,1]}\left( x-x^{n}\right).\] Ce dernier maximum étant atteint en \(\overline{x}=\left(\dfrac{1}{n}\right)^{\textstyle\frac{1}{n-1}}\), on a \[\max_{x\in[0,1]}\left(x-x^{n}\right)=\left(\frac{1}{n}\right)^{\textstyle\frac{1}{n-1}}-
\left(\frac{1}{n}\right)^{\textstyle\frac{n}{n-1}}=(n-1)\left(\frac{1}{n}\right)^{\textstyle\frac{n}{n-1}}\cdotp\]

Passons maintenant à la minoration dans \eqref{eq9}. Voici la démonstration obtenue via H. Gianella.

On a \[e(A_{1},A_{2},\ldots,A_{n}) = x-\bigl[1-P(A^c_{1})\bigr]\times\ldots\times\bigl[1-P(A^c_{n})\bigr].\]

L’astuce ici consiste à utiliser l’inégalité \(\dfrac{u_{1}+\cdots+u_{n}}{n}\geqslant (u_{1}\times \cdots \times u_{n})^{\textstyle\frac{1}{n}}\) avec \(u_{i}=1-P(A^c_{i})\).

Par ce biais, \[\begin{align}e(A_{1},A_{2},\ldots,A_{n})\geqslant
x-\left[1-\frac{1}{n}(P(A^c_{1})+\cdots+P(A^c_{n}))\right]^{n}.\tag{10}\label{eq10}\end{align}\]
Mais \(\displaystyle P(A^c_{1})+\cdots+P(A^c_{n})\geqslant P\left(\bigcup_{i=1}^{n}A^c_{i}\right)=
P\left(\left(\bigcap_{i=1}^{n}A_{i}\right)^c\,\right)=1-x\)
. Par conséquent, il vient de \eqref{eq10} : \[\begin{align}e(A_{1},A_{2},\ldots,A_{n})\geqslant x-\left( 1-\frac{1-x}{n}\right)^{n}\cdotp\tag{11}\label{eq11}\end{align}\] La fonction de \(x\) apparaissant dans le membre de droite de \eqref{eq11} est une fonction croissante de \(x\) (facile à vérifier avec sa dérivée), sa valeur minimale est donc atteinte en \(\overline{x}=0\), elle vaut \(-\left(1-\dfrac{1}{n}\right)^{n}\). D’où l’inégalité annoncée \[e(A_{1},A_{2},\ldots,A_{n})\geqslant -\left(1-\frac{1}{n}\right)^{n}=-\left(\frac{n-1}{n}\right)^{n}.\]

Références

  1. S. Francinou, H. Gianella et S. Nicolas. Oraux X-ENS Mathématiques. Vol. 6. 2022.  

  2. É. Kosmanek. « Mini-contribution à l’étude de la dépendance probabiliste ». In : L’ouvert n° 83 (1996), p. 16-18.   

  3. D. Foata et A. Fuchs. Calcul des probabilités. Cours et exercices corrigés. Éditions Masson, 1996.  

⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅♦⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅

Jean-Baptiste Hiriart-Urruty (alias JBHU) est professeur émérite à l’université Paul Sabatier de Toulouse, spécialiste en optimisation. Il est impliqué dans la diffusion des sciences et des mathématiques, en particulier au travers de l’association Fermat Science.

Pour citer cet article : Hiriart-Urruty J.-B., « Écart à l’indépendance d’événements : un encadrement remarquable », in APMEP Au fil des maths. N° 546. 28 décembre 2022, https://afdm.apmep.fr/rubriques/ouvertures/ecart-a-lindependance-devenements-un-encadrement-remarquable/.

Une réflexion sur « Écart à l’indépendance d’événements : un encadrement remarquable »

Les commentaires sont fermés.