pied gauche

 

Politique & Société

Forum > Politique & Société > Les articles de presse du jour

1 | ... | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | ... | 56

Gâterie

13/03 (17:24)

avatar

nombre messages : 11533

Membre

Megalion a écrit :

> Sans préjuger de la fiabilité qui peut être aussi dans la marge d'erreur, il
> y a une différence entre précision et exactitude.
Une variation des intentions de vote
> dans leur échantillon représentatif peut être significatif car les sondages sont précis quand
> l'exactitude de la représentativité de l'échantillon par rapport aux intentions de vote national
> peut être différente de plusieurs ordres de magnitude.
>
> Bref
>
> Une variation peut être une réalité mesurable et valide quand bien même on ne saurait pas avec
> précision le score final du candidat.

J'ai vraiment envie de répondre : cool story bro. Mais soit, je sens qu'il faut faire un peu de vulgarisation, que c'est pas si simple que j'ai envie de le croire... Après, le problème, c'est que je suis bien nul en vulgarisation, alors si quelqu'un veut vulgariser ma vulgarisation...


Primo, il me semble que l'hypothèse utilisée pour calculer les marges d'erreur de sondage, c'est qu'il n'y a pas de biais. ie que la mesure est exacte. C'est justement pour ça que les instituts font des corrections : pour virer les biais, genre la proportion de gens n'avouant pas voter extrême-droite.

Quand bien même il ne feraient pas ces corrections, le calcul de marge d'erreur reste un bête calcul de précision (que l'on peut calculer juste en connaissant la taille de l'échantillon). Or, si les biais ne sont pas gênant pour constater une évolution (à condition bien évidemment que chaque sondage subisse les mêmes biais... Ce qui est sans doute faux : si les sondages précédents indiquent une monté de l'extrême-droite, il est probable de les gens se sentent de moins en moins honteux de voter extrême-droite, et donc, que le biais qui minore les votes d'extrême-droite devienne de plus en plus faible...), les problèmes de précision sont bloquants.


Secundo, un petit peu de math ; partons de la conclusion du second sondage : 25% de la population désire voter EM. C'est notre hypothèse.

Là-dessus, je vais faire une expérience aléatoire : je prend une personne au hasard dans la population, je note un score de 1 si elle désire voter EM, 0 sinon. Ceci me crée une variable aléatoire X1 assez simple : P(X1 = 1) = 0.25, P(X1 = 0) = 0.75, l'espérance est E(X1) = 0.25, la variance est sigma**2(X1) = E(X^2) - E(X)^2 = 1/4 - 1/16 = 3/16, l'écart-type est la racine de la variance soit environs sigma(X1) = 0.43.

J'interroge une seconde personne, j'obtiens une seconde variable aléatoire indépendante X2 qui suit exactement la même loi, et une moyenne M2 = (X1+X2)/2 qui suit une loi un brin plus compliquée : P(M2 = 1) = 1/16, P(M2 = 0.5) = 6/16, P(M2 = 0) = 9/16. Je pourrais calculer l'espérance, la variance etc, mais en fait je vais pas le faire, parce que j'en ai pas besoin dans la suite et que c'est chiant.

Comme je suis un fou dans ma tête, je fais l'expérience 1400 fois. J'ai donc 1400 variables aléatoires X1, X2, ... X1400, indépendantes et de même loi (celle de X1 définie plus haut), et une moyenne M1400 = sum(X1, ..., X1400)/1400. Je m'intéresse à la loi de probabilité de M1400. Note : M1400 est (presque, j'y reviendrais ensuite) la loi de probabilité du résultat de ton sondage, en partant de l'hypothèse que ton sondage a par chance donné le résultat exact.

La loi de probabilité de M1400, c'est compliqué à calculer, on pourrait passer par une loi binomiale mais ça resterait chiant, mais en vrai je vais l'approximer en utilisant le théorème de la limite centrale. Bon, alors, je conçois qu'il fasse très très peur, mais en vrai il est assez simple et il est au centre des des stats et des calculs d'incertitude de mesure. Ce qu'il dit, en simplifiant, c'est "si je fais plein de fois la même expérience aléatoire (de façon indépendante entre chaque essais) et que je fais la moyenne de mes résultats, alors cette moyenne suit une loi simple : une loi gaussienne dont l'espérance est celle de la variable initiale, et dont l'écart-type est celui de la variable initiale divisé par racine(nombre d'expérience). Et ce, indépendamment de la complexité de la loi de probabilité initiale". C'est pour ça que toutes les lois de probabilité sont toujours gaussiennes : parce que la plupart des phénomènes que l'on observe sont en fait issus d'un grand nombre de phénomènes microscopiques indépendants et qui ont tous la même chance de se produire.

Ici 1400 étant assez grand, la loi de probabilité de M1400 est à peu près une loi gaussienne d'espérance E(M1400) = E(X1) = 0.25 et d'écart-type sigma(M1400) = sigma(X1)/racine(1400) = 0.012.

Maintenant je vais utiliser une table de la loi gaussienne ; genre une table pourrie. J'ai donc :
38.3% de chance de trouver M1400 dans l'intervalle E(M1400)+-0.5*sigma(M1400) (ie M1400 entre 24.5% et 25.5%)
68.3% de chance de trouver M1400 dans l'intervalle E(M1400)+-sigma(M1400) (ie M1400 entre 23.9% et 26.1%)
95.4% de chance de trouver M1400 dans l'intervalle E(M1400)+-2*sigma(M1400) (ie M1400 entre 22.7% et 28.3%)


De là, j'ai envie de tirer deux conclusions.

La première, c'est que j'ai trouvé à peu près 95% de chance d'avoir M1400 dans l'intervalle 0.25 +- 2.3. Ce qui n'est, il faut le reconnaître, pas très loin de la marge d'erreur indiquée par ton sondage pour un résultat de 25% (il donne une marge d'erreur entre 2.1 et 2.4). alors, de deux chose l'une : soit je suis un putain de génie, soit j'ai juste fait en gros le calcul de la marge d'erreur (avec moult simplification pour vulgariser, et aussi parce que je ne suis pas du tout à l'aise avec le calcul exact - et il me semble qu'il contient des heuristiques douteuses).

La seconde, c'est que si je fais un second sondage sur 1400 personnes, le nombre de votant macron sera une variable aléatoire qui a la loi de M1400. Presque. Les approximation que j'ai faite, c'est l'usage du théorème de la limite centrale (mais ça, tkt, c'est aussi ce que font les instituts de sondage, il se font pas chier avec des loi binomiales), et surtout supposer l'indépendance entre X1, X2 etc (alors que ce n'est pas le cas ; entre autre, les instituts prennent soin de ne pas interroger deux fois la même personne). Mais j'ai pas l'impression que ça change grand-chose, et en vrai, m'est avis que quand ils calculent, ils utilisent ce genre d'hypothèse d'indépendance - qui est pratiquement vraie du fait que la taille de l'échantillon est négligeable devant la taille de la population. Maintenant, regarde la loi de M1400 : elle a moins de une chance sur deux de donner un résultat entre 24.5% et 25.5%.

Si je fais un second sondage exactement dans les mêmes conditions que celui que tu met en lien, juste en raison de l'imprécision liée à la taille d'échantillon, et en partant de l'hypothèse que ton sondage donne le résultat exact, j'ai moins de une chance sur deux de trouver un score proche à 0.5% près. A partir de là, il faut être complètement con pour prétendre qu'un +0.5 est une hausse : on est en plein dans le bruit. C'est comme ça, c'est lié au fait qu'un sondage n'est pas un recensement, c'est intrinsèque au principe même d'un sondage, au fait que son résultat soit une variable aléatoire (puisqu'on a interrogé des gens pris au hasard), c'est lié au fait que deux sondages faits au même instant en posant les mêmes questions ne donneront pas le même résultat.


Alors, soit, on pourrait essayer de calculer P(EM a progressé dans la population totale)... Mais non. Y a pas besoin d'être un génie pour comprendre que +-0.5% quand la marge d'erreur est de 2.3%, c'est juste du bruit.

Quelques points de repère : la marge d'erreur est donnée (en général) pour 95% de chance. Ce qui signifie "si le résultat que l'on a obtenu est le résultat exact, alors 95% des sondages donneront un résultat proche à cette marge d'erreur près" ou, de façon équivalente je crois, "si le résultat réel n'était pas dans cette marge d'erreur, alors notre sondage aurait eu moins de 5% de chance de donner un tel résultat".

Ce "95%" signifie donc (voir les tables de gaussienne) que le nombre donné est 2 fois l'écart-type que l'on aurait sur ce résultat en faisant plein de sondage (plus précisément, 1.96 fois l'écart-type). On a, par ailleurs, si l'on fait un autre sondage identique, environs 2 chances sur trois de tomber sur le même résultat à l'écart-type près, et seulement une chance sur trois d'être à la moitié de l'écart-type.

En somme, lorsqu'on constate une hausse/baisse égale à la moitié de la marge d'erreur, ça commence à être douteux d'y déceler une tendance : vous avez une chance sur trois de vous planter - dans aucun domaine sérieux on n'utilise une prévision fiable à 2/3. Les journalistes le font, certes, mais c'est pas franchement le top du sérieux comme domaine ; à vrai dire, je pense qu'un voyant un peu doué dans la lecture à froid est capable de faire des prévisions plus fiables.

Et pire, lorsqu'on constate une hausse/baisse égale au quart de la marge l'erreur, on est en train de regarder du bruit : la plupart (littéralement : plus de 1/2) des sondages fait exactement dans les même conditions auront ce genre de différences, juste en raison des règles du hasard. A ce stade, faut rien entraver de ce qu'on fait pour en tirer des conclusions. Et c'est exactement ce que fait le journaliste dans ton article. Le tableau de valeur des gaussiennes est quand même assez parlant : en imaginant un tel sondage 1 fois par jour avec chaque fois un commentaire de ce journaliste, alors 4 à 5 fois par semaine il se tromperait dans son analyse. Un mec qui se plante avec une telle régularité, dans n'importe quel domaine sérieux on le vire rapidos. Tous les liens que tu pourras mettre sur l'exactitude vs la précision n'y changeront rien.

Une telle "règle du 1/4 marge d'erreur", même un journaliste qui entrave rien aux stats devrait pouvoir la comprendre il me semble...

___

Desproges disait que le jour de la mort de Brassens, il avait pleuré comme un gamin. Et bien moi, c'est étrange, mais le jour de la mort de Chirac, j'ai repris deux fois des moules.

[ce message a été édité par Gâterie le 13/03 à 18:06]
Mégalion

13/03 (19:25)

nombre messages : 1

Visiteur

Gâterie a écrit :

J'ai l'impression que je n'ai pas été très clair dans le fait que tu as deux marges d'erreur; un sondage est toujours effectué sur le même échantillon, donc la précision de ce sondage par rapport au précédent est importante et une évolution de +0.5% des mêmes personnes sondées significatif quand bien même l'extrapolation à la population totale du sondage dans son ensemble qui serait 24 ou 26% (2% d'erreur) plus imprécis que +0.5%.

On peut mesurer précisément une évolution significative faible à partir d'un échantillon représentatif malgré l'incertitude inhérente à la représentativité de cet échantillon.
Megalion

13/03 (19:32)

nombre messages : 1

Visiteur

Mégalion a écrit :

Et je parle en connaissance de cause: une variation de teneur de 0.5% dans un échantillon de minerai est significative d'un point de vue géologique avec une précision de 0.1% quand bien même la teneur de cet élément dans les roches ne puisse être estimé à 2% près: du moment que les deux minerai sont comparé l'un à l’autre avec les mêmes méthodes de précision fine, le fait que cette valeur ne corresponde pas à la réalité dans l'absolu n'est pas significatif.

C'est par exemple le cas des analyses fluo-X qui ne sont pas capable d'avoir une précision digne d'un ICP pour déterminer la teneur en un élément d'une roche (en particulier les alcalins) de manière absolue, mais la dérive étant stable l'analyse de deux échantillons entre eux est reproductible et extrêmement précise.

Void Quit

13/03 (19:43)

avatar

Membre

Mégalion a écrit :

> un sondage est toujours effectué sur le même échantillon

Non.


> Et je parle en connaissance de cause: une variation de teneur de 0.5% dans un échantillon de
> minerai est significative d'un point de vue géologique


Le jour où les électeurs seront des cailloux tu parleras en connaissance de cause.
En attendant ce n'est ni comparable ni pertinent.

Gâterie

13/03 (20:59)

avatar

nombre messages : 11533

Membre

Mégalion a écrit :

> J'ai l'impression que je n'ai pas été très clair dans le fait que tu as deux marges d'erreur;
> un sondage est toujours effectué sur le même échantillon

Source ?

Sérieux, ton lien cite sa source, la première partie de ta source concerne la méthodologie, et rien de ce que j'ai vu dedans n'indique une conservation de l'échantillon (ce serait même le contraire, vu que c'est un rolling : après quelques jours l'échantillon est complètement renouvelé). Soit tu indiques où tu as vu ça dans ce sondage, soit on peut partir du principe que tu inventes.

Quand bien même tu aurais raison, une estimation rapide de P(EM a monté) en partant qu'une marge d'erreur à 95% de 2% et d'un écart de 0.5% entre le temps t et t-1 (sur base d'un même échantillon donc) donne, à vue de nez, moins de 60% (pour P(EM a monté) donc). Source : la même que la tienne (j'ai fait les estimations rapides cet aprèm, avant de me rendre compte que le problème était même pas là, et non, je vais pas me faire chier à retrouver les détails pour un mec qui lance des affirmations randoms). Quand bien même tu aurais raison sur cet argument, ça continuerait à te donner tort.


Edit : ah oui, et je devrais ajouter un petit argument d'autorité comme toi. Sauf que comme j'ai pas envie de parler de mon boulot, ça risque d'être difficile d'expliquer en quoi ces affaires d'imprécision et de biais sont aussi mon domaine d'expertise. Sans doute plus que toi, puisqu'en plus de mon boulot actuel, j'ai une formation initiale en maths pour comprendre rapidement comment fonctionnent les sondages et ce que représente la marge d'erreur (vu que c'est juste des calculs de proba).

___

Desproges disait que le jour de la mort de Brassens, il avait pleuré comme un gamin. Et bien moi, c'est étrange, mais le jour de la mort de Chirac, j'ai repris deux fois des moules.

[ce message a été édité par Gâterie le 13/03 à 21:27]

Void Quit

14/03 (09:49)

avatar

Membre

Gâterie a écrit :

Non mais tu pers ton temps.

C'est même plus grave que ça.
A partir du moment où sur du déclaratif on a une marge d'erreur, cette dernière n'est pas formulée avec exactitude. On est dans le domaine normatif ou conventionnel.

Enfin quand ils parlent de "représentativité" de l'échantillon, on peut en débattre longtemps aussi.
Parce que soit le nombre est important (et ça coûte cher donc ils ne le font pas).
Soit le nombre est autour de 1000/1200 mais ils utilisent la méthode des quotas. (Mais comme c'est du déclaratif des instituts de sondage, on en sait pas plus. Généralement c'est par sexe/région/age/csp).

Et je persiste et signe, il n'est pas possible de conserver le même échantillon. C'est non seulement un argument absurde mais c'est pour moi la preuve que Mégalion ne maîtrise pas du tout un domaine où il fait usage d'arguments d'autorité.
Raisonnons par l'absurde : Admettons que tu aies raison, que l'on doive conserver toujours le même échantillon.
Admettons également que la méthode des quotas soit rigoureuse et extrêmement représentative de la population (gros mdr mais admettons).

Cela voudrait dire que pour faire du longitudinal sur tes 1000 répondants en respectant tes deux critères, il faudrait absolument que chacun réponde à ton enquête, mais réponde à tous les items de ton enquête. Si sur tes 1000 bonhommes et bonnes femmes qui doivent répondre à 20 questions tu as un péquin qui ne répond pas, tu ne peux pas faire ton enquête.
Et tu ne peux pas le remplacer par quelqu'un d'aussi représentatif que lui, vu qu'il faut garder absolument le même échantillon.

Ah et dernier point, les cailloux eux, ils ne mentent pas.

Leonid Zombaditulov

14/03 (20:48)

avatar

Citoyen

Kraland

Domicile : Tribunal Cybermondial

Création d'une assemblée franco-allemande..

"Cet accord acte la possibilité de "déroger aux règles du droit national" dans les régions transfrontalières, une possibilité qui ne pourra toutefois pas conduire à abaisser "les standards en vigueur". "

"Déroger aux règles du droit national", sérieusement ?!

[ce message a été édité par Leonid Zombaditulov le 14/03 à 20:51]

Emile Loir

14/03 (22:40)

avatar

Membre

Mégalion a écrit :

un sondage est toujours effectué sur le même échantillon


Euh. Dans la méthodologie, c'est pas ce qu'ils racontent.

Tu as 500 participants par jour. Le troisième jour tu fais les comptes.
Le quatrième jour, tu vires les résultats du premier jour, tu ajoutes les résultats du quatrième jour, tu fais les comptes.
5° jour, tu vires les résultats du second jour, tu ajoutes les résultats du cinquième jour, et tu continues comme ça.

C'est pas explicitement dit que les participants du 4° jour sont différents du 1° jour, mais ça semble une supposition beaucoup plus raisonnable que de supposer que ce sont les mêmes. (Si c'était les mêmes, ce serait explicitement indiqué).

Et dans ce cas, ce que raconte Gâterie (à quelques trucs près, parce que la méthodologie est pas appropriée pour un calcul d'intervalle de confiance comme il le fait, m'enfin l'esprit est là) est correct.
Une augmentation de 0.5 pt de pourcentage n'a aucune signification statistique, et le commenter en disant que "LREM creuse l'écart" c'est une ineptie.

Darjeeling WinterGarden

19/03 (18:35)

avatar

Membre

Void Quit a écrit :
> Ah et dernier point, les cailloux eux, ils ne mentent pas.


Source ?
Rex

21/03 (10:02)

nombre messages : 1

Visiteur

Leonid Zombaditulov a écrit :

"Déroger aux règles du droit national", sérieusement ?!


En soi pllutôt stylé, je trouve, ça va beaucoup rapprocher la France et l'Allemagne sur un territoire assez large, même si du coup, il va y avoir potentiellement une grosse différence entre le reste des régions françaises et les régions transfrontalières.

Forum > Politique & Société > Les articles de presse du jour

1 | ... | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | ... | 56