Informations

Décider entre le chi carré et le test t

Décider entre le chi carré et le test t


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je ne sais toujours pas si je dois faire un test de chi carré ou un test de t dans les sommes données par mon professeur de biostats. Quelqu'un a-t-il une règle simple pour décider de cela?


C'est une question très subtile et je vous encourage à lire les articles de Wikipédia sur ces différents sujets (test t, test du chi carré, valeur p, etc.) car les auteurs ont travaillé dur pour combattre les idées fausses courantes sur ces tests statistiques couramment utilisés. . Voici une règle empirique assez simplifiée pour ces différents tests :

  1. t-test : Utilisé lorsque vous regardez le moyens de différentes populations. Par exemple, vous pouvez déterminer si la différence du niveau moyen d'expression génique entre les cellules traitées et non traitées est différente, ou si le niveau d'expression génique des cellules dans un certain environnement diffère de ce à quoi vous vous attendriez dans une hypothèse nulle. Hypothèses: Vous supposez que les populations que vous regardez sont normalement distribuées. La variance des populations n'est pas connue (ce serait un test Z), mais on suppose que la variance de chaque population est la même. Enfin, pour que le test t fonctionne, les échantillons des données des deux populations sont supposés être indépendants.
  2. Test $chi^2$ : Plusieurs possibilités pour cela. Le test le plus courant en biologie est le test de Pearson $chi^2$, qui est utilisé lorsque vous regardez données catégorielles, comme le nombre de plants de pois avec des fleurs blanches ou violettes et des graines rondes ou ridées, et essayer de voir si le nombre d'individus dans chaque catégorie est cohérent avec une hypothèse nulle (comme le nombre dans chaque catégorie auquel vous vous attendriez si le les gènes de la couleur des fleurs et de la forme des graines ne sont pas liés). Hypothèses: Les points de données ont été collectés de manière aléatoire et indépendante à partir de la population, et vous disposez d'un nombre raisonnablement important d'échantillons.

Je détesterais avoir fait une énorme erreur, alors veuillez modifier ma réponse et/ou contribuer à la vôtre si vous pensez que je déforme complètement ces sujets !


Information additionnelle

Test T

Comme l'a dit A.Kennard, le test t est appliqué lorsque la variable aléatoire est normalement distribuée. Comment savoir ce qui est normalement distribué est une question pertinente. Les mesures régulières qui souffrent d'une erreur de mesure aléatoire sont normalement distribuées. Les valeurs moyennes estimées à partir de différents échantillons (l'expérience qui génère cet échantillon peut avoir tout distribution) suivent une distribution normale. Par exemple, l'intervalle de temps moyen d'une décroissance radioactive - l'intervalle lui-même est distribué de manière exponentielle mais la moyenne de l'intervalle de décroissance moyen sera normalement distribuée. On peut penser qu'il s'agit encore une fois d'une erreur de mesure qui entraîne une variation de la valeur moyenne calculée dans différents échantillons. C'est ce qu'on appelle le théorème central limite.

Une distribution normale a deux paramètres : la moyenne et la variance, c'est-à-dire que vous devez connaître ces valeurs au préalable pour construire une distribution normale. Une distribution uniforme n'a pas de paramètres - cela ne signifie pas que les échantillons uniformément distribués n'ont ni moyenne ni variance (dans ce cas, la moyenne et la variance sont des propriétés d'échantillon et non des paramètres de distribution). Un test t ou un test z est effectué pour voir si un échantillon est représentatif d'une distribution normale donnée. Cela signifie à nouveau que la moyenne et la variance calculées sont équivalentes aux paramètres de distribution correspondants. En cas de test z, vous connaissez la variance de la population (paramètre de distribution). Vous pouvez demander comment quelqu'un peut-il connaître à l'avance la variance de la population. Un exemple est un cas dans lequel vous connaissez déjà le taux d'erreur de votre appareil de mesure (peut être fourni par le fabricant ou interprété à partir de sa conception).

Test $chi^2$

Il existe plusieurs variantes du test $chi^2$. Mais ce qui est commun entre eux, c'est qu'ils se réfèrent à Répartition $chi^2$. Les écarts, qui sont toujours positifs, ne peuvent pas être distribués normalement. Ceux-ci suivent la distribution $chi^2$. Le test F pour les variances utilise le rapport de la statistique $chi^2$ des deux variables aléatoires indiquant les variances. Même dans le test de Pearson $chi^2$, la statistique de test est une somme de carrés qui la rend toujours positive. En fait, cette distribution $chi^2$ est également utilisée dans le test t. Comme . Kennard a déclaré que l'une des hypothèses du test t est que la variance de la population est inconnue mais supposée égale. Comme la variance de la population est inconnue, elle doit être estimée à partir de l'échantillon. Comme dans le cas de toutes les estimations, vous n'avez pas de valeur fixe mais une plage de valeurs acceptables tombant dans certains intervalles de confiance. La distribution T est essentiellement une moyenne de plusieurs distributions normales avec des valeurs de variance tombant dans l'intervalle de confiance autorisé d'une distribution $chi^2$.

Il n'est pas nécessaire que les données catégorielles soient testées par le test $chi^2$. L'expérience du tirage au sort donne lieu à une distribution catégorique mais elle peut être testée par rapport à une distribution binomiale. Ainsi, le test $chi^2$ peut être utilisé pour les données catégorielles mais ce n'est pas le seul test.

Conclusion: une statistique testée par un test $chi^2$ a $chi^2$ Distribution comme sa distribution d'échantillonnage. Cette statistique devrait être un carré/somme de carrés, quelque chose qui ne peut jamais avoir une valeur négative. C'est peut-être pour ça qu'on l'appelle $chi$ au carré.


Il est vrai que les tests T sont utilisés lorsque votre variable dépendante est numérique et que le test du Khi carré est utilisé lorsque vous analysez une variable catégorielle. Mais qu'en est-il de ceci :

Vous avez une réponse catégorique (0,1) à une campagne. 1 qui a acheté le produit et 0 qui ne l'a pas fait. Si vous additionnez les réponses dans votre groupe de test et votre groupe de contrôle et que vous les divisez par la taille de leur population respective, disons que vous obtenez quelque chose comme ceci : un taux de réponse de 0,23 % dans le groupe de test et un taux de réponse de 0,01 % dans le groupe de contrôle.

Ne pouvez-vous pas utiliser T-Test pour voir si ces taux de réponse sont différents ? Si oui, permettez-moi de rappeler que ces variables étaient catégoriques (0,1) mais nous les avons toujours utilisées comme numériques.

Tout ce que je veux dire, c'est que si nous comparons des taux de réponse ou des pourcentages, les tests T peuvent être utilisés, que la variable dépendante soit de caractère ou numérique.

Sachin


Quelle est la différence entre un test T et une ANOVA ?

Ce tutoriel explique la différence entre un test t Et un ANOVA, ainsi que quand utiliser chaque test.

Test T

UNE test t est utilisé pour déterminer s'il existe ou non une différence statistiquement significative entre les moyennes de deux groupes. Il existe deux types de tests t :

1. Test t pour échantillons indépendants. Ceci est utilisé lorsque l'on souhaite comparer la différence entre les moyennes de deux groupes et que les groupes sont complètement indépendants les uns des autres.

Par exemple, les chercheurs voudront peut-être savoir si le régime A ou le régime B aide les gens à perdre plus de poids. 100 personnes assignées au hasard sont assignées au régime A. 100 autres personnes assignées au hasard sont assignées au régime B. Après trois mois, les chercheurs enregistrent la perte de poids totale pour chaque personne. Pour déterminer si la perte de poids moyenne entre les deux groupes est significativement différente, les chercheurs peuvent effectuer un test t d'échantillons indépendants.

2. Test t d'échantillons appariés. Ceci est utilisé lorsque nous souhaitons comparer la différence entre les moyennes de deux groupes et où chaque observation dans un groupe peut être jumelée avec une observation dans l'autre groupe.

Par exemple, supposons que 20 élèves d'une classe passent un test, puis étudient un certain guide, puis reprennent le test. Pour comparer la différence entre les scores du premier et du deuxième test, nous utilisons un test t apparié car pour chaque élève, le score du premier test peut être jumelé avec le score du deuxième test.

Pour qu'un test t produise des résultats valides, les hypothèses suivantes doivent être remplies :

  • Aléatoire: Un échantillon aléatoire ou une expérience aléatoire doit être utilisé pour collecter des données pour les deux échantillons.
  • Normal: La distribution d'échantillonnage est normale ou approximativement normale.

Si ces hypothèses sont remplies, il est alors prudent d'utiliser un test t pour tester la différence entre les moyennes de deux groupes.


Comment calculer la taille de l'échantillon dans les études animales ?

Le calcul de la taille de l'échantillon est l'un des éléments importants de la conception de toute recherche, y compris les études sur les animaux. Si un chercheur sélectionne moins d'animaux, cela peut entraîner l'absence de toute différence significative même si elle existe dans la population et si plus d'animaux sont sélectionnés, cela peut entraîner un gaspillage inutile de ressources et peut entraîner des problèmes éthiques. Dans cet article, sur la base d'une revue de la littérature que nous avons effectuée, nous avons suggéré quelques méthodes de calcul de la taille de l'échantillon pour les études animales.

Combien d'animaux dois-je utiliser pour mon étude ? C'est l'une des questions les plus déroutantes auxquelles un chercheur est confronté. Une taille d'échantillon trop petite peut manquer l'effet réel dans l'expérience et une taille d'échantillon trop grande entraînera un gaspillage inutile des ressources et des animaux.[1] La question de la taille de l'échantillon a été mise en évidence de manière adéquate pour les essais cliniques et les études cliniques, mais n'a pas été beaucoup explorée dans le cas des études animales dans la littérature publiée. Il est très important d'enseigner aux jeunes chercheurs et étudiants de troisième cycle l'importance et les méthodes de calcul de la taille de l'échantillon. Pour clarifier cette question de la taille de l'échantillon dans les études animales, nous avons décidé de rechercher divers articles disponibles concernant la taille de l'échantillon dans les études animales. Nous avons effectué une recherche PubMed en utilisant divers termes MeSH tels que “sample size,” “sample size calculs,” 𠇊nimal studies” etc., et leurs combinaisons. Nous avons également recherché divers articles via Google et Google Scholar. Nous avons également effectué des recherches sur divers sites Web liés à la recherche animale (http://www.3rs-reduction.co.uk/html/6__power_and_sample_size.html, http://www.acuc.berkeley.edu/, http://www. bu.edu/orccommittees/iacuc/policies-and-guidelines/sample-size-calculations/, http://www.ucd.ie/researchethics/etc.). Le premier auteur a lu toute la littérature disponible et une compréhension du concept est faite en consultation avec le deuxième auteur. Ici, nous expliquons brièvement la méthode de calcul de la taille de l'échantillon dans les études animales sur la base d'une revue de la littérature effectuée par nous.

Fondamentalement, il existe deux méthodes de calcul de la taille de l'échantillon dans les études animales. La méthode la plus privilégiée et la plus scientifique est le calcul de la taille de l'échantillon par analyse de puissance.[2] Tous les efforts doivent être déployés pour calculer la taille de l'échantillon par cette méthode. Cette méthode est similaire à la méthode utilisée pour le calcul de la taille de l'échantillon pour les essais cliniques et les études cliniques. Un calcul simple peut être effectué manuellement à l'aide d'une formule [Annexe 1], mais pour les calculs complexes, un logiciel statistique peut être utilisé ou l'aide d'un statisticien peut être recherchée. Pour calculer la taille de l'échantillon par analyse de puissance, un chercheur doit avoir des connaissances et des informations sur ces concepts :

Taille de l'effet : C'est la différence entre la moyenne de deux groupes (données quantitatives) ou les proportions d'événements dans deux groupes (données qualitatives). Un chercheur doit décider avant le début de l'étude que la différence minimale entre deux groupes peut être considérée comme cliniquement significative. L'idée d'une différence cliniquement significative entre les groupes doit être tirée de préférence d'études précédemment publiées[2,3,4,5]

Écart-type : L'écart-type mesure la variabilité au sein de l'échantillon. Les informations sur l'écart type ne sont nécessaires que dans le cas de variables quantitatives. Les informations sur l'écart type d'une variable particulière peuvent être tirées d'études publiées précédemment. Si aucune étude de ce type n'est disponible, l'auteur doit d'abord mener une étude pilote et l'écart type peut être calculé à partir de l'étude pilote[2,3,4,5]

Erreur de type 1 : elle est mesurée par le niveau de signification, qui est généralement fixé au niveau de 5 % (P = 0,05). Il s'agit d'une valeur arbitraire et peut être diminuée ou augmentée selon la question de recherche[2,3,4,5]

Puissance : La puissance d'une étude est la probabilité de trouver un effet, que l'étude vise à trouver. Cela peut être maintenu entre 80% et même 99% selon la question de recherche, mais généralement, il est maintenu à 80%[2,3,4,5]

Direction de l'effet (unilatéral ou bilatéral) : lorsqu'un chercheur souhaite explorer l'effet d'une intervention, l'effet réel observé dans l'échantillon peut être dans la même direction que le chercheur le pensait ou il peut être juste à l'opposé. Si le chercheur pense que l'effet peut être dans les deux sens, il doit alors utiliser un test bilatéral et s'il a de bonnes raisons de croire que l'effet se situe dans une direction, il peut alors utiliser un test unilatéral. En recherche animale, des tests bilatéral sont généralement utilisés[2]

Tests statistiques : Pour le calcul de la taille de l'échantillon, il est important d'avoir une idée du test statistique, qui doit être appliqué sur les données. Pour les tests statistiques simples tels que le test t de Student ou le test du Chi carré, un calcul manuel basé sur une formule peut être effectué [Annexe], mais pour des tests complexes comme l'ANOVA ou les tests non paramétriques, l'aide d'un statisticien ou l'utilisation d'un logiciel est nécessaire. 2,4]

Attrition ou mort attendue des animaux : La taille finale de l'échantillon doit être ajustée en fonction de l'attrition attendue. Supposons qu'un chercheur s'attend à une attrition de 10 %, la taille de l'échantillon calculée par une formule ou un logiciel doit être divisée par 0,9 pour obtenir la taille réelle de l'échantillon. Supposons que la taille de l'échantillon calculée par le logiciel soit de 10 animaux par groupe et que le chercheur s'attend à une attrition de 10 %, la taille finale de son échantillon sera de 11 animaux par groupe (10/0,9 = 11,11). De même, pour 20 % d'attrition, la taille de l'échantillon doit être divisée par 0,8.[5] Cela peut être expliqué sous la forme d'une formule structurée, c'est-à-dire,

Taille de l'échantillon corrigé = Taille de l'échantillon/ (1− [% d'attrition/100])

Nous suggérons d'utiliser le logiciel téléchargeable gratuitement G Power (Faul, Erdfelder, Lang et Buchner, 2007) pour le calcul de la taille de l'échantillon. Ce logiciel est également bon pour le calcul de la taille des échantillons pour les essais cliniques. Ce logiciel peut être utilisé pour des calculs de taille d'échantillon simples ou complexes.[6] G Power peut calculer la taille de l'échantillon en fonction de la taille de l'effet prédéfinie avec une différence petite, moyenne et grande entre les groupes sur la base des principes de Cohen.[7] Des informations sur d'autres logiciels et calculatrices disponibles gratuitement pour le calcul de la taille de l'échantillon sont fournies à l'annexe 2. Une taille d'échantillon plus complexe nécessitera des logiciels plus sophistiqués tels que “nQuery advisor” ou “MINITAB.”

La deuxième méthode de calcul est une méthode brute basée sur la loi du rendement décroissant. Cette méthode est appelée méthode “resource equation”.[2,8,9] Cette méthode est utilisée lorsqu'il n'est pas possible de présumer de la taille de l'effet, pour avoir une idée de l'écart type car aucun résultat précédent n'est disponible ou lorsque plusieurs les points finaux sont mesurés ou une procédure statistique complexe est utilisée pour l'analyse. Cette méthode peut également être utilisée dans certaines études exploratoires où le test d'hypothèse n'est pas l'objectif principal, mais le chercheur s'intéresse uniquement à trouver un niveau de différence entre les groupes.

Selon cette méthode, une valeur 𠇎” est mesurée, qui n'est autre que le degré de liberté d'analyse de la variance (ANOVA). La valeur de E doit être comprise entre 10 et 20. Si E est inférieur à 10, l'ajout de plus d'animaux augmentera les chances d'obtenir un résultat plus significatif, mais s'il est supérieur à 20, l'ajout de plus d'animaux n'augmentera pas les chances d'obtenir un résultat significatif. résultats. Bien que cette méthode soit basée sur l'ANOVA, elle est applicable à toutes les expérimentations animales. Toute taille d'échantillon qui maintient E entre 10 et 20 doit être considérée comme adéquate. E peut être mesuré par la formule suivante :

E = Nombre total d'animaux − Nombre total de groupes

Supposons qu'un chercheur veuille voir l'effet d'un médicament et qu'il forme cinq groupes (un groupe témoin et quatre groupes de doses différentes de ce médicament) avec 10 rats chacun. Dans ce cas, E sera

E = 50 − 5 = 45, ce qui est supérieur à 20, donc la taille de l'échantillon dans cette expérience est plus que nécessaire. Cependant, si la taille de l'échantillon est de cinq par groupe, alors E sera de 20, ce qui est la limite acceptable et peut donc être considérée comme une taille d'échantillon adéquate.

Cette méthode est facile, mais elle ne peut pas être considérée comme aussi robuste que la méthode d'analyse de puissance.

Nous souhaitons suggérer aux chercheurs d'inclure une déclaration sur la méthode de calcul de la taille de l'échantillon et la justification de la taille de l'échantillon dans le manuscrit qu'ils souhaitent publier. Animaux en recherche : Rapports in vivo la directive sur les expériences recommande l'inclusion d'une déclaration mentionnant la justification de la taille de l'échantillon utilisé dans la recherche et le détail de la méthode de calcul de la taille de l'échantillon.[10] Tous les composants du calcul de la taille de l'échantillon, tels que la taille de l'effet, les erreurs de type 1 et de type 2, le test unilatéral/bilatéral, l'écart type, etc., doivent être rapportés dans le manuscrit envoyé pour publication de la manière suggérée pour la recherche clinique.[11 ] Le manque de ressources (budget, main-d'œuvre), les contraintes de temps, etc., ne peuvent pas être considérés comme une justification valable concernant la décision de la taille de l'échantillon. De nombreux chercheurs considèrent six animaux par groupe comme une taille d'échantillon adéquate, mais après avoir examiné la littérature disponible sur cette question, nous sommes arrivés à la conclusion que cette notion de six animaux par groupe a peu de fondement scientifique et statistique. Ceci est une brève description et les lecteurs sont priés de lire plus de ressources disponibles pour une meilleure compréhension des divers concepts liés au calcul de la taille de l'échantillon dans les études animales.


VARIABLES

La variable est une caractéristique qui varie d'un membre individuel de la population à un autre individu.[3] Des variables telles que la taille et le poids sont mesurées par un certain type d'échelle, transmettent des informations quantitatives et sont appelées variables quantitatives. Le sexe et la couleur des yeux donnent des informations qualitatives et sont appelés variables qualitatives[3] [ Figure 1 ].

Classification des variables

Variables quantitatives

Les données quantitatives ou numériques sont subdivisées en mesures discrètes et continues. Les données numériques discrètes sont enregistrées sous la forme d'un nombre entier tel que 0, 1, 2, 3, & # x02026 (entier), tandis que les données continues peuvent prendre n'importe quelle valeur. Les observations qui peuvent être comptées constituent les données discrètes et les observations qui peuvent être mesurées constituent les données continues. Des exemples de données discrètes sont le nombre d'épisodes d'arrêts respiratoires ou le nombre de réintubations dans une unité de soins intensifs. De même, des exemples de données continues sont les niveaux de glucose sérique en série, la pression partielle d'oxygène dans le sang artériel et la température œsophagienne.

Une échelle hiérarchique de précision croissante peut être utilisée pour observer et enregistrer les données qui sont basées sur des échelles catégorielles, ordinales, d'intervalle et de rapport [ Figure 1 ].

Les variables catégorielles ou nominales ne sont pas ordonnées. Les données sont simplement classées en catégories et ne peuvent pas être classées dans un ordre particulier. S'il n'existe que deux catégories (comme dans le genre masculin et féminin), on parle de données dichotomiques (ou binaires). Les différentes causes de ré-intubation en unité de soins intensifs dues à une obstruction des voies aériennes supérieures, une altération de la clairance des sécrétions, une hypoxémie, une hypercapnie, un œdème pulmonaire et une atteinte neurologique sont des exemples de variables catégorielles.

Les variables ordinales ont un ordre clair entre les variables. Cependant, les données ordonnées peuvent ne pas avoir des intervalles égaux. Des exemples sont le statut de l'American Society of Anesthesiologists ou l'échelle d'agitation-sédation de Richmond.

Les variables d'intervalle sont similaires à une variable ordinale, sauf que les intervalles entre les valeurs de la variable d'intervalle sont également espacés. Un bon exemple d'échelle d'intervalle est l'échelle de degrés Fahrenheit utilisée pour mesurer la température. Avec l'échelle Fahrenheit, la différence entre 70° et 75° est égale à la différence entre 80° et 85° : Les unités de mesure sont égales sur toute la plage de l'échelle.

Les échelles de rapport sont similaires aux échelles d'intervalle, en ce sens que des différences égales entre les valeurs d'échelle ont la même signification quantitative. Cependant, les échelles de rapport ont également un véritable point zéro, ce qui leur confère une propriété supplémentaire. Par exemple, le système des centimètres est un exemple d'échelle de rapport. Il existe un vrai point zéro et la valeur de 0 cm signifie une absence totale de longueur. La distance thyromentale de 6 cm chez un adulte peut être le double de celle d'un enfant chez qui elle peut être de 3 cm.


Quand utiliser le test z par rapport au test t

Comment savoir quand utiliser le test t au lieu du test z ?

À peu près tous les étudiants en statistiques que j'ai enseignés m'ont posé cette question à un moment donné. Quand j'ai commencé à donner des cours particuliers, j'expliquais que cela dépendait du problème et je commençais à divaguer sur le théorème central limite jusqu'à ce que leurs yeux deviennent vitreux. Puis j'ai réalisé que c'était plus facile à comprendre si je faisais juste un organigramme. Alors, voilà !

En gros, cela dépend de quatre choses :

  1. Que nous travaillions avec une moyenne (par exemple, "37 étudiants") ou une proportion (par exemple, "15% de tous les étudiants").
  2. Que nous connaissions ou non le population écart type ( (sigma) ). Dans la vraie vie, ce n'est généralement pas le cas, mais les cours de statistiques aiment inventer des problèmes là où nous le faisons.
  3. Si oui ou non la population est normalement distribuée. Ceci est particulièrement important lorsqu'il s'agit de petits échantillons.
  4. Les Taille de notre échantillon. Le nombre magique est généralement 30 - en dessous, il est considéré comme un "petit" échantillon, et 30 ou plus est considéré comme "grand". Lorsque la taille de l'échantillon est grande, le théorème central limite nous dit que nous n'avons pas à nous soucier de savoir si la population est normalement distribuée.

Lorsque vous travaillez sur un problème de mots statistiques, ce sont les éléments que vous devez rechercher. Les problèmes de proportion ne sont jamais des problèmes de test t - utilisez toujours z ! Cependant, vous devez vérifier que (np_<0>) et (n(1-p_<0>)) sont tous deux supérieurs à 10, où (n) est la taille de votre échantillon et (p_< 0>) est votre proportion de population hypothétique. Cela revient essentiellement à dire que les proportions de la population (par exemple, % d'hommes et % de femmes) devraient toutes les deux être suffisamment grandes pour être adéquatement représentées dans l'échantillon.

De manière générale, le problème vous dira explicitement si l'écart type de la population est connu - s'ils ne le disent pas, supposez qu'il est inconnu. Il en va de même pour une population normalement distribuée - s'ils ne disent pas « supposez que la population est normalement distribuée », ou quelque chose dans ce sens, alors ne pas inventez simplement cette hypothèse. Heureusement, si la taille de l'échantillon est suffisamment grande, cela n'a pas d'importance !

Commencez dès aujourd'hui avec un professeur de statistiques à l'IU !

Vous aimez cet article ? Consultez d'autres articles sur les statistiques.

Bloomington Tutors © 2013 - 2021 sert les étudiants à Bloomington, Indiana, 47405. Intéressé à travailler avec nous? Postuler aujourd'hui. Besoin de nous contacter ? Visitez notre page de contact ou envoyez-nous un SMS/appelez-nous au (812) 269-2380. Découvrez College Park Tutors pour le tutorat à l'Université du Maryland (UMD).

Conditions générales de vente · Politique de confidentialité · Santé et sécurité
Ce site est protégé par reCAPTCHA et la politique de confidentialité et les conditions d'utilisation de Google s'appliquent.
Nous ne sommes pas affiliés à l'Université d'Indiana (IU) ou à Ivy Tech.


Test du chi carré vs régression logistique : un test plus sophistiqué est-il meilleur ?

Bonjour Karen,
Je suis étudiant en MPH en biostatistique et je suis curieux de savoir utiliser la régression pour les tests d'associations en analyse statistique appliquée. Pourquoi l'utilisation de la régression ou de la régression logistique est-elle préférable à l'analyse bivariée telle que le chi carré ?

J'ai lu beaucoup d'études dans mes études supérieures, et il semble que la moitié des études utilisent le chi carré pour tester l'association entre les variables, et l'autre moitié, qui semble juste essayer d'être fantaisiste, effectue une régression compliquée -ajusté pour-contrôlé par modèle. Mais les résultats finaux semblent être les mêmes. J'ai travaillé avec des professionnels qui disent que c'est simple c'est mieux, et que l'utilisation de Chi-Square est très bien, mais j'ai travaillé avec d'autres professeurs qui insistent sur la construction de modèles. Il semble également tellement plus simple de faire du chi carré lorsque vous effectuez principalement une analyse catégorielle.

Mes professeurs ne semblent pas être en mesure de me donner une simple justification
réponse, alors j'ai pensé que je vous demanderais. J'aime lire votre site et j'ai l'intention de commencer à participer à vos webinaires.

Merci!

Hé Merci. J'ai hâte de vous voir sur les webinaires.

Selon votre question, il y a un certain nombre de raisons différentes que j'ai vues.

Vous avez raison de dire qu'il existe de nombreuses situations dans lesquelles une approche sophistiquée (et compliquée) et une approche simple fonctionnent toutes deux aussi bien, et toutes choses étant égales par ailleurs, la simplicité est meilleure.

Bien sûr, je ne peux pas dire pourquoi quelqu'un utilise une méthodologie particulière dans une étude particulière sans la voir, mais je peux deviner certaines raisons.

Je suis sûr qu'il y a un parti pris parmi les chercheurs pour aller compliqué parce que même lorsque les journaux disent qu'ils veulent simple, les trucs de fantaisie sont si brillants et jolis et sont plus acceptés. Principalement parce qu'il communique (à un certain niveau) que vous comprenez des statistiques sophistiquées et que vous avez vérifié les variables de contrôle, il n'est donc pas nécessaire que les examinateurs s'y opposent. Et si tout cela est vrai, je suis sûr que les gens s'en inquiètent.

L'inclusion de contrôles est vraiment importante dans de nombreuses relations. Le paradoxe de Simpson, dans lequel une relation s'inverse sans les contrôles appropriés, se produit vraiment.

Maintenant, vous pouvez débattre du fait que la régression logistique n'est pas le meilleur outil. Si toutes les variables, prédicteurs et résultats, sont catégoriques, une analyse log-linéaire est le meilleur outil. Une analyse log-linéaire est une extension du chi carré.

Cela dit, je n'ai personnellement jamais trouvé de modèles log-linéaires intuitifs à utiliser ou à interpréter. Donc, si on me donne le choix, j'utiliserai la régression logistique. Ma philosophie personnelle est que si deux outils sont tous les deux raisonnables et que l'un est si obtus que votre public ne le comprendra pas, optez pour le plus facile.

Ce qui nous ramène au chi carré. Pourquoi ne pas simplement utiliser le plus simple de tous ?

Un test du Chi carré est en réalité un test descriptif, apparenté à une corrélation. Ce n'est pas une technique de modélisation, il n'y a donc pas de variable dépendante. La question est donc la suivante : voulez-vous décrire la force d'une relation ou voulez-vous modéliser les déterminants et prédire la probabilité d'un résultat ?

Ainsi, même dans un modèle bivarié très simple, si vous souhaitez définir explicitement une variable dépendante et faire des prédictions, une régression logistique est appropriée.


3 réponses 3

Il y a une raison pour laquelle le « chi carré bilatéral » est rarement utilisé : si vous effectuez un test $chi^2$ pour les tableaux de contingence, alors la statistique du test est (sans la correction de continuité) :

où $o_$ sont les nombres observés dans les cellules $i,j$ et $e_$ sont le nombre de cellules attendu dans la cellule $i,j$. Sous des hypothèses relativement faibles, on peut montrer que $X^2$ suit approximativement une distribution $chi^2$ avec un degré de liberté de 1$ (c'est pour une table 2x2 comme dans votre cas).

Si vous supposez l'indépendance entre la variable de ligne et de colonne (qui est $H_0$ ) , alors le $e_$ sont estimés à partir des probabilités marginales.

Ceci est juste pour une brève introduction à $chi^2$ pour les tableaux de contingence. La chose la plus importante est que le numérateur de chaque terme dans $X^2$ est le au carré différence entre les « comptes observés » et les « comptes attendus ». Donc si $o_ < e_$ ou $o_ > e_$ ne fait aucune différence dans le résultat pour $X^2$.

Ainsi, le test $chi^2$ pour le tableau de contingence teste si les observations sont soit plus petites soit plus grandes que prévu ! Donc c'est un test bilatéral même si le la région critique est définie dans une (la droite) queue de la distribution $chi^2$.

Le fait est donc que le test $chi^2$ est un test bilatéral (il peut rejeter les valeurs $o_$ qui sont soit trop petits, soit trop grands) mais il utilise une région critique unilatérale (la file de droite de $chi^2$).

Alors, comment devez-vous interpréter votre résultat : si $H_0: ext< 'la variable de ligne et la variable de colonne sont indépendantes' >$ alors la probabilité d'observer une valeur au moins aussi extrême que le $X^2$ calculé est de 0,059. C'est ce qu'on appelle la valeur p du test.

(Notez que, par ce qui précède, « indépendant » inclut « soit trop élevé, soit trop faible ».)

Afin de « décider » quelque chose, vous devez d'abord choisir un niveau de signification. Il s'agit d'un « risque que vous acceptez de commettre des erreurs de type I ». Le niveau de signification de $5\%$ est couramment utilisé.

Vous allez maintenant rejeter l'hypothèse nulle lorsque la valeur p (0,059) est inférieure au niveau de signification choisi (0,05). Ce n'est pas le cas pour votre table, vous allez donc ne pas rejeter $H_0$ à un niveau de signification de $5\%$.

Pour ce qui est de ta question du bas tu devrais dire (mais dans ton exemple ce n'est pas le cas) : la valeur p est inférieure ou égale au seuil de signification choisi de 0,05, donc le $H_0$ est rejeté et nous concluons que les variables de lignes et de colonnes sont dépendantes. (mais, comme dit, dans votre exemple, la valeur p est supérieure au niveau de signification de 0,05).

Peut-être devriez-vous également jeter un œil à Mauvaise compréhension d'une valeur P ?.


Le test du chi carré : un exemple de travail avec des lignes et des colonnes dans SAS

En règle générale, lorsque les programmeurs SAS veulent manipuler des données ligne par ligne, ils atteignent l'étape SAS DATA. Lorsque le calcul nécessite des statistiques de colonne, la procédure SQL est également utile. Lorsque des opérations de ligne et de colonne sont requises, le langage SAS/IML est un ajout puissant à la boîte à outils d'un programmeur SAS.

Je me suis souvenu de ce fait récemment lorsqu'un programmeur SAS (peut-être un étudiant) a demandé comment effectuer "manuellement" le test classique du chi carré pour l'association dans un tableau de fréquences à deux voies. Le calcul nécessite de calculer les moyennes sur les lignes et les colonnes descendantes, et l'étudiant avait du mal à mettre en œuvre les calculs à l'étape DATA. Cet article illustre comment SAS/IML peut simplifier les calculs en ligne et en colonne dans le test classique du Khi-deux.

Le test du chi carré d'association dans PROC FREQ

Dans SAS, le moyen le plus simple de calculer le test du chi carré pour l'association est d'utiliser PROC FREQ. Les données suivantes proviennent de plusieurs exemples de la documentation PROC FREQ. Les données montrent la couleur des cheveux et la couleur des yeux de 762 enfants européens. L'appel à PROC FREQ calcule le test du chi carré et un tableau croisé qui affiche la valeur observée, les valeurs attendues (sous l'hypothèse que la couleur des cheveux et la couleur des yeux sont indépendantes) et les écarts, qui sont les valeurs "observées moins attendues". :

Dans le tableau œil par cheveu, chaque cellule contient trois valeurs. La première valeur est le nombre de cellules observé, la deuxième valeur est le nombre de cellules attendu (en supposant l'indépendance) et la troisième valeur est leur différence, qui est parfois appelée « déviation ». La statistique de test et la valeur p pour le test du chi carré sont encadrées en rouge. La statistique de test est 20,92. La probabilité d'observer cette valeur à partir d'un tirage aléatoire d'une distribution du Khi deux avec 8 degrés de liberté est de 0,0073. Parce que cette probabilité est si faible, nous rejetons l'hypothèse nulle selon laquelle la couleur des cheveux et la couleur des yeux sont indépendantes.

Calculer le test du chi carré "manuellement" dans SAS

Le test du chi carré sur une table 3 x 4 est assez simple à calculer à la main, mais supposons que vous vouliez utiliser SAS pour valider ou reproduire les nombres que PROC FREQ produit ? C'est un bon exercice de programmation pour les étudiants afin de s'assurer qu'ils comprennent les calculs. La documentation PROC FREQ fournit la formule de la statistique de test en utilisant l'équation

mje est le nombre observé dans la ligne i et la colonne j et eje est le nombre attendu, mais il n'y a rien de tel que de programmer une formule pour assurer la compréhension.

    for each row and column, and the grand mean for all cells.
  1. Use an outer product to form the table of expected values from the mean vectors.
  2. Compute the test statistic by using elementwise matrix operations. to compute the p-value.

Notice that the program does not contain any loops, although the formulas contain double summations over the elements of the table. This is an example of "vectorizing" the computations, which means writing the computations as vector or matrix computations rather than scalar operations in a loop.

You can see that the 'Expected' matrix matches the PROC FREQ output for the expected values for each cell. Similarly, the 'Deviance' matrix matches the PROC FREQ output for the difference between observed and expected values. The test statistic is the sum of the ratios of the squared deviances and the expected values. A call to the CDF function computes the p-value.

In summary, you can use the high-level SAS/IML language to implement basic statistical tests such as the chi-square test for association in a two-way frequency table. Such an exercise enables students to understand the details of elementary statistical tests. For programmers who know the statistical details but who are new to the SAS/IML language, this short exercise provides a way to gain proficiency with vectorized programming techniques.

About Author

Rick Wicklin, PhD, is a distinguished researcher in computational statistics at SAS and is a principal developer of PROC IML and SAS/IML Studio. His areas of expertise include computational statistics, simulation, statistical graphics, and modern methods in statistical data analysis. Rick is author of the books Statistical Programming with SAS/IML Software et Simulating Data with SAS.

1 Comment

Rick,
I think the following code is more readable.

proc iml
cName = <"black" "dark" "fair" "medium" "red">
rName = <"blue" "brown" "green">
C = < 6 51 69 68 28,
16 94 90 94 47,
0 37 69 55 38>
colMarg = C[+, ]/c[+] /* margin probability of each column */
rowMarg = C[ ,+]/c[+] /* margin probability of each row */
expect=(rowMarg*colMarg)#c[+]


Introduction

In hypothesis testing a decision between two alternatives, one of which is called the null hypothesis and the other the alternative hypothesis, must be made. As an example, suppose you are asked to decide whether a coin is fair or biased in favor of heads. In this situation the statement that the coin is fair is the null hypothesis while the statement that the coin is biased in favor of heads is the alternative hypothesis. To make the decision an experiment is performed. For example, the experiment might consist of tossing the coin 10 times, and on the basis of the 10 coin outcomes, you would make a decision either to accept the null hypothesis or reject the null hypothesis (and therefore accept the alternative hypothesis). So, in hypothesis testing acceptance or rejection of the null hypothesis can be based on a decision rule. As an example of a decision rule, you might decide to reject the null hypothesis and accept the alternative hypothesis if 8 or more heads occur in 10 tosses of the coin.

The process of testing hypotheses can be compared to court trials. A person comes into court charged with a crime. A jury must decide whether the person is innocent (null hypothesis) or guilty (alternative hypothesis). Even though the person is charged with the crime, at the beginning of the trial (and until the jury declares otherwise) the accused is assumed to be innocent. Only if overwhelming evidence of the person's guilt can be shown is the jury expected to declare the person guilty--otherwise the person is considered innocent.

Errors

In the jury trial there are two types of errors: (1) the person is innocent but the jury finds the person guilty, and (2) the person is guilty but the jury declares the person to be innocent. In our system of justice, the first error is considered more serious than the second error. These two errors along with the correct decisions are shown in the next table where the jury decision is shown in bold on the left margin and the true state of affairs is shown in bold along the top margin of the table.


With respect to hypothesis testing the two errors that can occur are: (1) the null hypothesis is true but the decision based on the testing process is that the null hypothesis should be rejected, and (2) the null hypothesis is false but the testing process concludes that it should be accepted. These two errors are called Type I and Type II errors. As in the jury trial situation, a Type I error is usually considered more serious than a Type II error. The probability of a Type I error is denoted by the Greek letter alpha and is also called the significance level of the test, while the probability of a Type II error is denoted by the Greek letter beta. The next table is analogous to the previous table with the decision reached in hypothesis testing shown in bold along the left margin and the true situation shown in bold along the top margin of the table.

Hypothèses

In a jury trial the person accused of the crime is assumed innocent at the beginning of the trial, and unless the jury can find overwhelming evidence to the contrary, should be judged innocent at the end of the trial. Likewise, in hypothesis testing, the null hypothesis is assumed to be true, and unless the test shows overwhelming evidence that the null hypothesis is not true, the null hypothesis is accepted.

Exemple

Suppose that you are trying to decide whether a coin is fair or biased in favor of heads. The null hypothesis is H0: the coin is fair (i.e., the probability of a head is 0.5), and the alternative hypothesis is Ha: the coin is biased in favor of a head (i.e. the probability of a head is greater than 0.5). To make this problem easier, assume that the alternative hypothesis is Ha: the probability of a head is 0.7. You are allowed to toss the coin only 10 times, and on the basis of the outcomes, make your decision.

The next graphs show Type I and Type II errors made in testing a null hypothesis of the form H0:p=p0 against H1:p=p1 where p1>p0. In these graphs n is taken to be 10. The red outlined bars show the probability distribution of the number of heads under the assumption that the null hypothesis (fair coin or p=0.5) is true , while the blue shaded bars show the probability distribution of the number of heads under the assumption that the null hypothesis is false (and p=0.7) . The decision rule is based on a critical value--if the number of heads is greater than or equal to this critical value, the null hypothesis is rejected--otherwise the null hypothesis is accepted. At the top of each graph you find the null, H0, and alternative, Ha, hypotheses, the critical value (CV) ranging from 6 to 10, Alpha, the probability of a Type I error, and Beta, the probability of a Type II error. These errors are show by the red and blue shadings, respectively.

Decreasing the Probability of a Type II Error (beta) Without Increasing the Probability of a Type I Error (alpha)

The previous example shows that decreasing the probability of a Type I error leads to an increase in the probability of a Type II error, and vice versa. How probability of a Type I error be held at some (preferably small level) while decreasing the probability of a Type II error? The next series of graphs show that this can be done by using a larger n, that is by increasing the number of coin tosses. An increase in n can be viewed as increasing the sample size for the experiment. In the middle graph of the series of five graphs shown above, the probability of a Type I error, alpha, is approximately 0.05. Suppose the coin was tossed 30 times instead of 10 times. With 30 tosses you would want the critical value to be some number greater than 15. Suppose that 20 is used as the critical value, that is, if 20 or more heads occur in the 30 tosses you would reject the null hypothesis that the coin is fair and accept the alternative hypothesis that the coin is biased in favor of heads (in this situation, we are looking at the alternative that the probability of a head is p=0.7). The next graph displays the results with the probability distribution of the number of heads under the assumption that the null hypothesis is true shown in red , and the probability distribution of the number of heads under the assumption that the null hypothesis is false (and the probability of a head is 0.7) is displayed in blue .

Notice that the probability of a Type I error is approximately 0.05, while the probability of a Type II error is approximately 0.27. Contrast this with the situation when the coin was tossed 10 times--from the middle graph of that series of graphs, alpha is approximately 0.05 but beta, the probability of a Type II error, is about 0.62.

The P-Value Approach to Hypothesis Testing

In the previous examples, a critical value was used in each of the situations in which a coin was tested for fairness. Although it was not explained how the critical value was selected in those examples, the critical value is usually chosen so that the test will have a small probability of Type I error. The values usually used for alpha, the probability of a Type I error, are 0.10, 0.05, or 0.01. Recall that alpha is also called the significance level. These are called 10%, 5%, or 1%, respectively, significance levels.

In the p-value approach neither a significance level nor a critical value are determined before the experiment is carried out or the sample taken. The null and alternative hypotheses are stated, and the experiment is run. A statistic is computed from the outcome of the experiment--the p-value is the probability of the observed outcome or something more extreme than the observed outcome, computed under the assumption that the null hypothesis is true. The determination of an outcome being more extreme than the observed outcome is based on the null and alternative hypotheses. Examples of this will be shown later.

For now, go back to the coin tossing experiment where the null hypothesis is that the coin is fair (p=0.5) and the alternative hypothesis is that the coin is biased in favor of heads (p>0.5). Suppose the coin is tossed 10 times and 8 heads are observed. Since the alternative hypothesis is p>0.5, more extreme values are numbers of heads closer to 10. So, to compute the p-value in this situation, you need only compute the probability of 8 or more heads in 10 tosses assuming the coin is fair. But, the number of heads in 10 tosses of a coin assuming that the coin is fair has a binomial distribution with n=10 and p=0.5. The p-value is P[8 heads] + P[9 heads] + P[10 heads]. From the binomial probability distribution, P[8 heads]=0.044, P[9 heads]=0.01, and P[10 heads]=0.001. Thus the p-value is 0.044+0.010+0.001=0.055.

Now that the p-value is computed, how do you decide whether to accept or reject the null hypothesis? Since the p-value is simply the probability of getting the observed number of heads under the assumption that the null hypothesis is true, if this probability is small, it is unlikely that the null hypothesis is true. So 'small' p-values lead to rejection of the null hypothesis. But 'small' is not defined. The definition of small is up to the reader--if in the opinion of the reader, the p-value is small, the null hypothesis is rejected, while larger values would cause the null hypothesis to be accepted. In statistical practice, 'small' values are usually 0.10, 0.05, or 0.01. In the coin tosses above, the p-value is 0.055, and if a 'small' p-value for you is 0.05, you would fail to reject the null hypothesis, that is, you would say 8 heads in 10 tosses is not enough evidence to conclude that the coin is not fair.

One and Two Tail Tests

In each of the coin tests shown above, the null hypotheses was H0: coin is fair (p=0.5) and the alternative hypothesis was Ha: coin is biased toward heads (p>0.5). With these hypotheses the null hypothesis would only rejected if the number of heads in 10 coin tosses was some number greater than 5. For example, you might reject the null only if you observe 9 or 10 heads in the 10 tosses. The 'rejection region' (shown as the red bars in the above graphs) lies in the right tail of the distribution of the number of heads in 10 tosses of a fair coin. This is a one-tail rejection region or one-tail test. Note that the 'greater than' symbol (>) in Ha points toward the rejection region.

If you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is biased toward tails (p<0.5), you would only reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number less than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer. Then the rejection region would lie in the left-hand tail of the probability distribution as shown by the shaded portion of the next graph. This is again a one-tail test. The 'less than' symbol (<) points toward the rejection region.

On the other hand if you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is not fair (p not equal to 0.5), you would reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number much less than 5 or some number much greater than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer or 8 or more. Then the rejection region would lie in both tails of the probability distribution of the number of heads. This is shown by the shaded portion of the next graph. This is a two-tail test with rejection regions in both tails.

Specific Hypothesis Tests

Summary of the p-value method

  • Determine the null and alternative hypotheses
  • Determine the test statistic
  • Take a random sample of size n and compute the value of the test statistic
  • Determine the probability of observed value or something more extreme than the observed value of the test statistic (more extreme is based on the null and alternative hypotheses). This is the p-value.
  • Reject the null hypothesis if the p-value is 'small.' (Where a significance level is give for the test, 'small' is usually meant to be any p-value less than or equal to the significance level)

For a population mean with known population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal or close to normal.

For a population mean with unknown population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal.

For a population proportion

(1) Sample is random
(2) Sample is large (n is 30 or more)
(3) x is the number of sample elements that have the characteristic


Confidence Intervals and Levels

Les Intervalle de confiance is the plus-or-minus figure usually reported in newspaper or television opinion poll results. For example, if you use a confidence interval of 4 and 47% percent of your sample picks an answer you can be “sure” that if you had asked the question of the entire relevant population between 43% (47-4) and 51% (47+4) would have picked that answer.

Les un niveau de confiance tells you how sure you can be. It is expressed as a percentage and represents how often the true percentage of the population who would pick an answer that lies within the confidence interval. The 95% confidence level means you can be 95% certain the 99% confidence level means you can be 99% certain. Most researchers work for a 95% confidence level.

When you put the confidence level and the confidence interval together, you can say that you are 95% sure that the true percentage of the population is between 43% and 51%.

Factors that Affect Confidence Intervals
The confidence interval is based on the margin of error. There are three factors that determine the size of the Intervalle de confiance for a given un niveau de confiance. Ceux-ci sont: taille de l'échantillon, percentage et taille de la population.

Taille de l'échantillon
The larger your sample, the more sure you can be that their answers truly reflect the population. This indicates that for a given un niveau de confiance, the larger your sample size, the smaller your Intervalle de confiance. However, the relationship is not linear (i.e., doubling the sample size does not halve the confidence interval).

Pourcentage
Your accuracy also depends on the percentage of your sample that picks a particular answer. If 99% of your sample said “Yes” and 1% said “No” the chances of error are remote, irrespective of sample size. However, if the percentages are 51% and 49% the chances of error are much greater. It is easier to be sure of extreme answers than of middle-of-the-road ones.

When determining the sample size needed for a given level of accuracy you must use the worst case percentage (50%). You should also use this percentage if you want to determine a general level of accuracy for a sample you already have. To determine the confidence interval for a specific answer your sample has given, you can use the percentage picking that answer and get a smaller interval.

Population Size
How many people are there in the group your sample represents? This may be the number of people in a city you are studying, the number of people who buy new cars, etc. Often you may not know the exact population size. This is not a problem. The mathematics of probability proves the size of the population is irrelevant, unless the size of the sample exceeds a few percent of the total population you are examining. This means that a sample of 500 people is equally useful in examining the opinions of a state of 15,000,000 as it would a city of 100,000. For this reason, the sample calculator ignores the population size when it is “large” or unknown. Population size is only likely to be a factor when you work with a relatively small and known group of people .

Noter:
The confidence interval calculations assume you have a genuine random sample of the relevant population. If your sample is not truly random, you cannot rely on the intervals. Non-random samples usually result from some flaw in the sampling procedure. An example of such a flaw is to only call people during the day, and miss almost everyone who works. For most purposes, the non-working population cannot be assumed to accurately represent the entire (working and non-working) population.

Most information on this page was obtained from The Survey System


  • This table is designed to help you choose an appropriate statistical test for data with two or more dependent variables .
  • Hover your mouse over the test name (in the Test column) to see its description.
  • Les Methodology column contains links to resources with more information about the test.
  • Les Comment columns contain links with examples on how to run these tests in SPSS, Stata, SAS, R and MATLAB.
  • The colors group statistical tests according to the key below:

* This is a user-written add-on

This page was adapted from the UCLA Statistical Consulting Group. We thank the UCLA Institute for Digital Research and Education (IDRE) for permission to adapt and distribute this page from our site.