Formule écart type "incomprise"? "Fausse"?

Un problème, une question, un nouveau théorème ?

Messages : 6

Enregistré le : 18 mai 2019 23:11

Formule écart type "incomprise"? "Fausse"?

Message par sladeo » 29 août 2019 17:34

Bonjour, rentrant en MPSI j'ai voulu révisé le programme de maths de 1ère et Terminale.
Lisant le chapitre de "statistiques" de 1ere la notion d'écart type y est abordée.
L'écart type permet (si je ne me trompe pas) de calculer la moyenne des écarts entre les valeurs x(n) et la moyenne de la série statistique.

La formule pour trouver l'écart type est : √V; V étant la variance; essayons donc avec un exemple.
Un professeur donne une interrogation à 2 élèves, les notes pouvant être: 1/3; 2/3 et 3/3.
Résultats de l'interrogation: élève A 1/3 et élève B 3/3.
La moyenne de classe étant donc de 2/3.
Soit la V= (n(1)*(x(1)-"moyenne")²+n(2)*(x(2)-"moyenne")²) / N; N l'effectif total soit:
V= (1*(1-2)²+1*(3-2)²)) / 2
= (1+1)/2 = 1

Soit l'écart type E;
E= √1 = 1

Ce résultat semble cohérent et intuitif car l'effectif total était très faible et la répartition des notes étaient "symétriques"
En effet, d'après les résultats de l'interrogation, l'écart entre la note d'un élève et la moyenne ne pouvait qu'être 1 d'écart : |1-2| et |3-2|
On aurait pu prendre ,(d'après la définition de l'écart type), les écarts possible soit 1 et 1; puis en faire la moyenne soit (1+1)/2=1

Mais prenons un 3e élève appelé C.
Les résultats sont identiques aux précédents et l'élève C a eu la note de 2/3.
La moyenne reste donc 2.
V= (1*(1-2)²+1*(2-2)²+1*(3-2)²)/3
=2/3
Soit l'écart type:
E= √(2/3) (environ égal à 0.816 arrondi au millième près)

Mais lorsque qu'on utilise la définition de l'écart type ( moyenne des écarts entre chaque valeur et la moyenne de la série statistique ) on a:
deux écarts de 1 (les notes de 1/3 et 3/3 sachant que la moyenne est 2/3)
et un d'écart de 0 (la note de 2/3 sachant que la moyenne est 2/3)

on a donc 2 cas sur 3 d'avoir un écart de 1 et; 1 cas sur 3 d'avoir un écart de 0 (lorsque l'élève à la même note que la moyenne globale)
La moyenne des écarts seraient donc : (1+0+1)/3 soit 2/3 ?
Je me trompe peut-être (calcul ? définition ?) mais ce résultat m'est + cohérent (même si la cohérence ne veut pas forcément dire solution)

Donc "pour moi" en partant de la définition la formule de l'écart type serait plutôt:
E= (n(1)*(√((x(1)-"moyenne")²)) + n(2)*√((x(2)-"moyenne")²)) + ... + n(p)*√((x(p)-"moyenne")²)))/ N; p entier positif.

qui est en fait "quasiment" la même formule que la variance, la variance utilise une élévation au carré pour avoir des écarts positifs; la formule que je donne remet juste l'expression élevée au carré en racine qui est l'équivalent de la valeur absolu.

Cette expression reflète + je trouve la phrase: "l'écart type sert à mesurer la dispersion, ou l'étalement, d'un ensemble de valeurs autour de leur moyenne". qui est donc si je ne me trompe pas la moyenne des écarts entre les x(p) et la moyenne globale.
Le 1/3 est "dispersé" de 1 points par rapport à la moyenne, le 3/3 aussi et le 2/3 est dispersé de 0 point de la moyenne soit une dispersion moyenne de 2/3 ? (1+1+0)/3

Voila je sais/pense que mon raisonnement doit être erroné quelque part mais je ne sais pas où je vous remercie et m'excuse d'avance si j'ai dit des choses "stupides".

Qbi

Messages : 71

Enregistré le : 23 oct. 2018 18:03

Re: Formule écart type "incomprise"? "Fausse"?

Message par Qbi » 29 août 2019 19:02

Salut !

Passe pas trop de temps sur les stats, tu n'en feras pas en prépa (on ne fait que des probas, qui est un domaine plus "simple"). Il faudra attendre d'être en école. Je te donne quand même quelques infos mais à ton stade tu n'as clairement pas tous les outils pour tout comprendre.

La notion d'écart type n'est pas exactement la même en proba et en stats.

En proba :

L'écart type associée à une variable aléatoire X est bien défini comme la racine carrée de la variance, c'est-à-dire : $ \sigma(X) = \sqrt{E[(X-E(X))^2]} $.
Mais ce n'est pas du tout égal à $ E[\sqrt{(X-E(X))^2}] = E[|X-E(X)|] $, tu ne peux pas rentrer la racine dans l'espérance. C'est là que tu fais erreur je crois. Autrement dit, la racine carré d'une somme n'est pas la somme des racines.
Pour les deux expressions tu mesures l'écart moyen par rapport à la moyenne, mais de manière différente. Pour mesurer des distances tu verras plus tard qu'il existe plusieurs possibilités, et le cas qui a été retenu pour l'écart type c'est la distance euclidienne.

En stat :

Maintenant, on étudie toujours une variable aléatoire X mais on ignore sa loi de probabilité exacte : on a juste accès à des réalisations de cette variable, ce sont en quelque sorte des expériences. Comme quand tu fais un sondage, tu ne connais pas la vraie proportion des intentions de vote (ie la loi de ta variable aléatoire). Les seules infos connues sont donc les résultats de ces expériences, et dans l'état il est donc impossible de calculer directement $ \sigma(X) $ précédemment défini, parce que pour calculer une espérance on a besoin de connaître la loi.

Donc le mieux qu'on puisse faire, c'est d'estimer l'écart type en fonction des observations. Dans ce cas, l'écart type est elle-même une variable aléatoire, parce qu'à chaque expérience on obtiendra une estimation potentiellement différente (comme ton exemple avec le prof où pour tes deux expériences tu as 2 estimations distinctes).

Je te passe les détails de comment on trouve un bon estimateur (qui n'est pas unique), mais pour le cas de l'écart type on le choisit comme : $ \sigma = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i - E(X))^2} $
(c'est une variable aléatoire parce que les $ x_i $ varient à chaque expérience, ce sont les réalisations de X).
Le but c'est que cette formule permette d'obtenir une très bonne estimation de $ \sigma(X) $ précédemment défini. Je te laisse observer la similarité avec la définition probabiliste de l'écart type.

En fait, l'espérance de X n'est elle même pas connue (toujours parce qu'on ne connaît pas la loi de X). Donc on l'approxime elle même par un estimateur : $ \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i $. Malheureusement, substituer cette estimation dans la dernière formule de l'écart type donne un estimateur biaisé pour l'écart type (c'est à dire qu'en moyenne, on obtient une estimation trop petite par rapport à la "vraie" valeur de l'écart type). Pour le rendre non biaisé, on utilise donc généralement cette estimateur pour l'écart type : $ \sigma = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i - \overline{x})^2} $. A noter que si n est grand, c'est pratiquement la même chose de remplacer n-1 par n.

C'est à prendre comme une définition. Si n tend vers l'infini, on est censé retrouver $ \sigma(X) $ (pour un mode de convergence spécifique).
Modifié en dernier par Qbi le 29 août 2019 19:09, modifié 1 fois.

Messages : 6651

Enregistré le : 17 avr. 2012 21:19

Classe : Thé à la

Re: Formule écart type "incomprise"? "Fausse"?

Message par bullquies » 29 août 2019 19:08

l'écart type n'est pas la moyenne des écarts tout simplement.
la variance est la moyenne des carrés des écarts mais c'est tout.
The Axiom of Choice is obviously true, the Well-Ordering Principle is obviously false, and nobody knows about Zorn's Lemma. - Jerry Bona

Qbi

Messages : 71

Enregistré le : 23 oct. 2018 18:03

Re: Formule écart type "incomprise"? "Fausse"?

Message par Qbi » 29 août 2019 19:26

bullquies a écrit :
29 août 2019 19:08
l'écart type n'est pas la moyenne des écarts tout simplement.
la variance est la moyenne des carrés des écarts mais c'est tout.
Pour être plus précis : l'écart type c'est l'écart entre la variable aléatoire et la fonction constante égale à son espérance, pour la distance euclidienne.

Mais bon je crois pas que ça va vraiment aider l'OP ça :mrgreen:

Messages : 64

Enregistré le : 04 août 2018 12:54

Re: Formule écart type "incomprise"? "Fausse"?

Message par Nicolas Patrois » 29 août 2019 20:35

La variance est la moyenne des carrés des écarts à la moyenne et c’est aussi (théorème) la moyenne des carrés moins le carré de la moyenne.
Écrit en langage mathématique, $ V(X)=E\left(\left(X-\overline{X}\right)^2\right) \stackrel{théo}{=}E\left(X^2\right)-\left(E(X)\right)^2 $.
INFINITÉSIMAL : On ne sais pas ce que ce c’est, mais a rapport à l’homéopathie.
-+- Gustave Flaubert, Dictionnaire des idées reçues -+-

Messages : 6

Enregistré le : 18 mai 2019 23:11

Re: Formule écart type "incomprise"? "Fausse"?

Message par sladeo » 29 août 2019 22:27

Qbi a écrit :
29 août 2019 19:02
Salut !

Passe pas trop de temps sur les stats, tu n'en feras pas en prépa (on ne fait que des probas, qui est un domaine plus "simple"). Il faudra attendre d'être en école. Je te donne quand même quelques infos mais à ton stade tu n'as clairement pas tous les outils pour tout comprendre.

La notion d'écart type n'est pas exactement la même en proba et en stats.
En proba :

L'écart type associée à une variable aléatoire X est bien défini comme la racine carrée de la variance, c'est-à-dire : $ \sigma(X) = \sqrt{E[(X-E(X))^2]} $.
Mais ce n'est pas du tout égal à $ E[\sqrt{(X-E(X))^2}] = E[|X-E(X)|] $, tu ne peux pas rentrer la racine dans l'espérance. C'est là que tu fais erreur je crois. Autrement dit, la racine carré d'une somme n'est pas la somme des racines.
Pour les deux expressions tu mesures l'écart moyen par rapport à la moyenne, mais de manière différente. Pour mesurer des distances tu verras plus tard qu'il existe plusieurs possibilités, et le cas qui a été retenu pour l'écart type c'est la distance euclidienne.

En stat :

Maintenant, on étudie toujours une variable aléatoire X mais on ignore sa loi de probabilité exacte : on a juste accès à des réalisations de cette variable, ce sont en quelque sorte des expériences. Comme quand tu fais un sondage, tu ne connais pas la vraie proportion des intentions de vote (ie la loi de ta variable aléatoire). Les seules infos connues sont donc les résultats de ces expériences, et dans l'état il est donc impossible de calculer directement $ \sigma(X) $ précédemment défini, parce que pour calculer une espérance on a besoin de connaître la loi.

Donc le mieux qu'on puisse faire, c'est d'estimer l'écart type en fonction des observations. Dans ce cas, l'écart type est elle-même une variable aléatoire, parce qu'à chaque expérience on obtiendra une estimation potentiellement différente (comme ton exemple avec le prof où pour tes deux expériences tu as 2 estimations distinctes).

Je te passe les détails de comment on trouve un bon estimateur (qui n'est pas unique), mais pour le cas de l'écart type on le choisit comme : $ \sigma = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i - E(X))^2} $
(c'est une variable aléatoire parce que les $ x_i $ varient à chaque expérience, ce sont les réalisations de X).
Le but c'est que cette formule permette d'obtenir une très bonne estimation de $ \sigma(X) $ précédemment défini. Je te laisse observer la similarité avec la définition probabiliste de l'écart type.

En fait, l'espérance de X n'est elle même pas connue (toujours parce qu'on ne connaît pas la loi de X). Donc on l'approxime elle même par un estimateur : $ \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i $. Malheureusement, substituer cette estimation dans la dernière formule de l'écart type donne un estimateur biaisé pour l'écart type (c'est à dire qu'en moyenne, on obtient une estimation trop petite par rapport à la "vraie" valeur de l'écart type). Pour le rendre non biaisé, on utilise donc généralement cette estimateur pour l'écart type : $ \sigma = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i - \overline{x})^2} $. A noter que si n est grand, c'est pratiquement la même chose de remplacer n-1 par n.

C'est à prendre comme une définition. Si n tend vers l'infini, on est censé retrouver $ \sigma(X) $ (pour un mode de convergence spécifique).
Bonjour je vous remercie de votre réponse. En fait, j'avais effectivement vu qu'on ne faisait pas/peu de stats en MPSI mais mon objectif actuel est de rejoindre une école d'ingénieur spécialisé en stat ce qui a donc attiré ma curiosité haha. De plus la notion d'écart type est rapidement abordée en 1ere on sait que c'est pour avoir une idée de la dispersion des valeurs mais pas exactement pourquoi et vous l'avez mentionnez: car il nous manque des connaissances.

En fait je pense avoir compris que je n'avais pas compris ce qu'est l'écart type. Le fait de dire que l'ecart type était la racine carrée de la variance (sans justification en 1ere) me laissait perplexe car oui le dénominateur se retrouve lui aussi en racine, ainsi que les sommes des ecarts.
Or je pensais que faire la moyenne des écarts était d'estimer la dispersion des valeurs autour de la moyenne mais il semble que ce n'est pas le cas.

Je sais que la racine d'une somme =/= la somme de racines mais dans le cas présent je pensais plus "juste" de faire une somme de racine et ainsi laisser le dénominateur N, l'effectif, "tranquille".
Je voulais juste savoir POURQUOI ecart type = racine carré de la variance, D'OU cela sortait, POURQUOI la formule de l'écart type actuelle mesure la dispersion des valeur alors que "1/N" est aussi en racine (car racine de multiplication = multiplication de racine).
La variance est la "moyenne des carrés des écarts" pourquoi l'écart type qui estime le dispersion des valeurs n'est pas "moyenne des écarts" ?

Je n'ai pas toujours pas compris mais comme vous l'avez dit je pense qu'il me manque des outils. Peut être au niveau de la distance euclidienne ? Qui est une racine de somme et qui correspond à la definition actuelle de l'écart type.

Je remercie aussi tous les autres de vos réponses j'espère un jour savoir pourquoi la définition de l'écart type (racine de la variance) estime (exactement? au mieux?) la dispersion des valeurs au sein d'une série statistique.

Messages : 6

Enregistré le : 18 mai 2019 23:11

Re: Formule écart type "incomprise"? "Fausse"?

Message par sladeo » 29 août 2019 22:39

Qbi a écrit :
29 août 2019 19:26
bullquies a écrit :
29 août 2019 19:08
l'écart type n'est pas la moyenne des écarts tout simplement.
la variance est la moyenne des carrés des écarts mais c'est tout.
Pour être plus précis : l'écart type c'est l'écart entre la variable aléatoire et la fonction constante égale à son espérance, pour la distance euclidienne.

Mais bon je crois pas que ça va vraiment aider l'OP ça :mrgreen:
Effectivement je ne comprends rien.
Sans être indiscret êtes vous passé par une prepa scientifique ? Faites vous des stats à l'heure actuelle ?
Les choses que vous avez dites sont elles des bases et donc je suis juste ignorant pour l'instant?

Messages : 1331

Enregistré le : 11 août 2010 23:16

Re: Formule écart type "incomprise"? "Fausse"?

Message par Tompouce67 » 30 août 2019 08:48

La définition de l’écart-type est motivée par exemple par la notion de variables corrélées.
Avoir des variables XY corrélées implique que E(XY) est différent de E(X)E(Y)
La corrélation peut se quantifier avec ce qu’on appelle la covariance Cov(X,Y)=E(XY)-E(X)E(Y)
Pour X=Y on retrouve la formule de la variance.
Pour des variables non-corrélées, la variance a aussi la bonne propriété d’être additive Var(X+Y)=Var(X)+Var(Y)
L’écart-type défini en prenant la racine carrée est juste là pour avoir une grandeur homogène à la variable, plus pratique à comparer pour des interprétations par exemple.
Ces propriétés ne seraient pas valables avec la définition basée sur la valeur absolue.
2008-2010 Lycée Kléber Strasbourg (MPSI4 - MP*)
2010-2014 Ecole Polytechnique - Master Physique des Hautes Energies (X-ETH Zürich)
2014-2017 Doctorat Laboratoire Leprince-Ringuet
2017-2018 Post-doc Imperial College
2018-... Chargé de recherche CNRS

Qbi

Messages : 71

Enregistré le : 23 oct. 2018 18:03

Re: Formule écart type "incomprise"? "Fausse"?

Message par Qbi » 30 août 2019 14:51

C'est vrai que définir l'écart type comme étant la racine carré de la variance n'est pas très intuitif et c'est difficile de cerner sa signification. Mais comme l'a dit Tompouce on l'a défini ainsi parce que cela donne plein de propriétés sympas, que tu n'aurais pas si tu utilisais simplement la moyenne des écarts. Et cela mesure bien en quelque sorte la dispersion même si sa valeur précise n'est pas immédiatement interprétable.


C'est bien plus abstrait mais tu peux interpréter l'écart type comme ca :

Une variable aléatoire c'est en fait rien d'autre qu'une fonction. Et tout comme il est possible de calculer des distances entre des points de l'espace, il est possible de calculer des distances entre des fonctions. C'est ce qu'est l'écart type : c'est la distance entre la variable aléatoire et sa moyenne (vue comme une fonction constante), la distance portant ici sur des fonctions.

(La dernière phrase est fausse à cause d'un article mal choisi mais je la laisse comme ça pour ne pas t'embrouiller encore plus).

Je suis pas trop convaincu que cette interprétation t'eclaire bcp, c'est plus important que tu comprennes la réponse de tompouce.
sladeo a écrit :
29 août 2019 22:39
Sans être indiscret êtes vous passé par une prepa scientifique ? Faites vous des stats à l'heure actuelle ?
Les choses que vous avez dites sont elles des bases et donc je suis juste ignorant pour l'instant?
Je suis toujours étudiant, tu peux me tutoyer ;) j'ai fait deux ans de prepa et là j'entame ma 2A à Centrale Supélec.
Et je suis loin d'être le plus calé sur le sujet dans ce forum, mais à ton âge j'étais tout autant ignorant (voire plus) que toi. Ne sois pas trop pressé, en math il faut y passer bcp de temps pour comprendre et prendre du recul.

Messages : 11284

Enregistré le : 30 juil. 2008 16:59

Classe : Dr.-Ing

Re: Formule écart type "incomprise"? "Fausse"?

Message par fakbill » 01 sept. 2019 18:53

Heu l'écart type c'est l'écart type, que ce soit en stat ou en proba :D
Le machin avec le n-1 au lieu du n c'est un estimateur de l'écart type. C'est un estimateur car on n'a pas toute la série mais seulement une partie.
Pas prof.
Prépa, école, M2, thèse (optique/images) ->ingé dans le privé.

Répondre