Excel : Faire une droite de Henry pour montrer la normalité d'une série d'observations
Vložit
- čas přidán 7. 09. 2024
- Fait sous excel 2016
Remarque : le classement et le calcul des probabilités pi sera avantageusement remplacé par l'utilisation de la fonction RANG.POURCENTAGE.INCLURE sur la série d'observations.
Bonjour,
L'usage de la fonction =RANG() vous permettrez de tenir compte des éventuels doublons dans votre série de valeurs mesurées. Deux valeurs identiques occupent en effet le même rang.
Il existe la norme NF X 06-050 très bien faite sur le sujet.
Ce tuto est basé sur un de mes cours créé il y a longtemps à partir du GUM (guide de métrologie) et les ISO de détection de données aberrantes (via la droite de Henry pas par au moyen des tests type Grubbs etc..), enfin je n'ai pas regardé ça depuis 2 ans je regarderai la norme que vous citez merci. Sinon oui les fonctions RANG ou mieux RANG.POURCENTAGE.INCLURE fonctionnent bien (et c'est plus simple à utiliser dans un tableur).
La comparaison d'un histogramme avec une fonction de densité de probabilité théorique est délicate en raison de la présence de classes d'effectif faible. La norme NF X 06-050 recommande le test de Shapiro-Wilk ou le test de Kolmogorov-Smirnov. Le logiciel Minitab suggère le test d'Anderson Darling.
Je suis d'accord il y a plusieurs options (si vous voulez les comparer je vous recommande de lire des revues statistiques plutôt que des normes). Dans cette vidéo, je me réfère à l'ISO 5479 (pour le calcul des pourcentiles). La droite de Henry est un outil qualitatif de visualisation rapide des valeurs extrêmes d'une série, en ce sens je ne crois pas qu'il soit nécessaire de l'optimiser. Pour ce qui est d'une approche par test (plus robuste donc) j'utilise souvent le Shapiro-Wilk (fonction R shapiro.test très simple à utiliser) ou via Excel le test de Pearson (avec les tables d’asymétrie et d’aplatissement Pearson et les fonctions KURTOSIS et COEFFICIENT.ASYMETRIE test qui peut facilement suggérer des lois autres que la loi normale), effectivement il est d'usage de valider la droite de Henry par un test complémentaire.
Merci Marc !
Bonjour Marc, peut-on appliquer le test par la droite d'henry à une taille d'échantillon très réduite < 10 ?? merci
tu peux mais cette méthode c'est une méthode graphique, tu n'as qu'une vague idée de la normalité. Là où c'est vraiment performant c'est pour voir un ou deux points aberrants sur un échantillon. Si tu veux être conforté dans ton résultat graphique il faut compléter avec un test de normalité comme le chi² ou le shapiro wilks
Bonjour Marc,
S'il vous est ce que vous auriez pas par hasard le fichier excel pour s'entraîner?
Merci
Malheureusement je ne l'ai pas, par contre il y a plein de jeux de données pour s’entraîner en stats sur l'aide en ligne d'XLSTAT par exemple celui-ci help.xlstat.com/customer/fr/portal/articles/2062038-test-de-shapiro-wilk-et-d-autres-tests-de-normalit%C3%A9-dans-excel?b_id=9283 ça devrait faire l'affaire pour tester comment f (lien du fichier au début de la page).
Bonjour je dois confirmer la normalité de séries de données et je souhaite connaître l'origine de la formule pi
Pouvez vous m'expliquer pourquoi il faut ajouter 0.25 au dénominateur et 8/3 au numérateur ?
Je vous remercie par avance
Pour faire la droite de Henry, il faut comparer des quantiles (théoriques sous hypothèse de normalité) et des quantiles empiriques (valeurs observables). Pour calculer les quantiles théoriques, il faut estimer les valeurs de la répartition (fonction des proba cumulées) empirique et cette proportion peut être estimée au moyen de plusieurs estimateurs. L’estimateur pi que j’ai présenté dans cette vidéo est celui cité dans le GUM (et normes ISO), mais on aurait pu prendre une autre valeur comme pi=i/(n+1) ou bien un autre estimateur robuste d’une proportion aurait pu faire l’affaire.
Marc LAVARDE
Merci pour vos explications donc pour 100 échantillons la formule devient pi=(rang-3/8)/(100+0.25)
Est il possible d'échanger par mail ?
Oui pour la formule sinon vous pouvez utiliser la fonction rang.pourcentage (en prenant celle qui ne vaut jamais ou ) pour les échanges vous pouvez me contacter via linked-in www.linkedin.com/in/marc-lavarde-98045460/
Bonjour,
Pouvez-vous m'expliquer votre calcul de PI ?
Merci à vous.
P(i) correspond à la iième valeur de la fonction de répartition empirique, n à la taille de la série d'observations. Il y a plusieurs méthodes d'estimations possibles pour cette probabilité, les plus simples sont pi=i/n ou i/(n+1), là j'ai utilisé une méthode d'estimation issue d'une norme métrologique (GUM) (cf commentaires précédents). Si tu veux aller au plus simple je te recommande la fonction RANG.POURCENTAGE.INCLURE("échantillon",i) pour estimer p(i).
comment vous avez calculé Pi
Nous avons discuté de ce sujet suite au message de Dakens Viams ci-dessous, si tu as des questions complémentaires n'hésites pas à les poser.