Je cherche à faire un test statistique

**Emma** Dim 2 Déc - 17:54

Malheureusement ma notion des statistiques est faible.

Je viens de m'amuser à compter des petites cellules sous un microscope à fluorescence. En gros ça consistait à compter le nombre de points (c'est passionnant) dans chacune pour savoir si elles étaient autophagique:
- Si elles avaient 0 à 10 points elles étaient considérées comme non autophagiques
- A plus de 10 points, elles sont autophagiques.
J'avais 4 types de cellules: Contrôles (c), traitées au glycérol (Gly), soumises à un choc thermique (HS) et traitées au glycérol et soumises à un choc thermique (HS+Gly).
Pour chaque type cellulaire j'ai compté entre 99 et 104 cellules, et j'ai rapporté les résultats à 100 cellules (tout est en pourcentage). Voilà les résultats
- C: Autophagiques: 37,5% , non autophagique: 67,5%
- Gly: autophagiques: 41,3% , non autophagiques: 58,7%
- HS: autophagiques: 89,9% , non autophagiques: 10,1%
- Hs+Gly: autophagiques: 71,3%, non autophagiques: 28,7%
Ma question est la suivante: est-ce que la différence de pourcentage de cellules autophagiques entre les HS et les HS+Gly est significative?
Ca se résume à savoir si statistiquement il y a une différence entre 89,9% et 71,3% ?

Voili voilou,

Merci pour votre aide,

Emma. Je cherche à faire un test statistique 601871

Je cherche à faire un test statistique 601871

**Yves** Lun 3 Déc - 21:08

Alors, ma chère Emma, je vais essayer de tout t'expliquer tout bien pour que tu comprennes...

Ce que tu veux faire pour comparer deux fréquences (et pas plus) est un test d'égalité sur des fréquences justement.
Ce qu'il te faut faire avant toute chose, c'est regarder l'image suivante.

Je cherche à faire un test statistique Test_f10

Je cherche à faire un test statistique Test_f10

Tu teste l'hypothèse les deux fréquences sont égales, au risque alpha de 5%, couramment utilisé en biologie. Pour cela, tu dois comparer une valeur calculée à une valeur théorique.

Dans cette image se trouve la formule à utiliser, juste à coté de "Calcul" (epsilon obs).

k1 correspond à l'effectif qui remplit ta condition dans ton échantillon, n1 l'effectif total de ton échantillon (exemple, si tu as 75 cellules au total et que 25 d'entre elles sont autophagiques, alors k1=25 et n1=75).
Même chose pour k2 et n2.
p "chapeau" correspond au calcul ci-dessus
q "chapeau" correspond à 1-p "chapeau"

une fois calculé, epsilon obs se compare donc à epsilon théorique, donné par une table statistique disponible ici.
Dans ton cas, la valeure epsilon théorique est 1,6449.

Si la valeur calculée est supérieure à la valeur théorique, alors l'hypothèse d'égalité est rejetée au risque de 5%.
Si la valeur calculée est inférieure ou égale, alors l'hypothèse d'égalité ne peut pas être rejetée.

voila.

Si tu veux comparer toutes tes fréquences d'un coup, il te faudras utiliser un Chi 2. Si tu en as besoin, ya qu'à faire signe.

**Julien** Mar 4 Déc - 0:52

Petites précisions sur ce test :
Dans ce cas on ne compare pas une valeur calculée à une valeur théorique mais bien 2 valeurs calculées.
Le seuil de 1.6449 pour un risque de se tromper de 5% correspond à un test unilatéral ! je ne suis pas sûr que ce soit approprié ici. Je m’explique : il y a 2 tests différents selon la question qu’on se pose.

-Soit on veut savoir si les 2 fréquences sont différentes quelque soit le signe de cette différence : c’est un test bilatéral. Le seuil est de 1.96 si la différence est positive et de – 1.96 si la différence est négative car il faut répartir le risque de 5% des 2 côtés de la distribution de la statistique calculée (soit 2,5% de chaque côté) :
Je cherche à faire un test statistique C8F5

Je cherche à faire un test statistique C8F5

C’est ce qu’on fait en général lorsqu’on a aucun a priori sur le sens de la différence. Je ne sais pas si c’est le cas ici ?

-Soit on veut savoir si l’une des 2 fréquences est supérieure à l’autre : dans ce cas c’est un test unilatéral. Pour effectuer ce test il faut avoir une bonne raison de penser que l’une des fréquences est supérieure à l’autre (une raison biologique) (ex : expériences antérieures qui démontrent que le glycérol diminue la capacité des cellules à être autophagiques ?). On ne peut pas utiliser ce test si on n’a pas de raison pour privilégier la supériorité d’une des 2 fréquences. Le seuil est alors de 1.6449 puisqu’on ne veut détecter que si la différence est positive (si dans la formule on place la fréquence qu’on pense être supérieure en premier) ou de -1.6443 (si on la place cette fois en 2ème). On place donc le risque de 5% soit tout à droite, soit tout à gauche :
Je cherche à faire un test statistique C8F6

Je cherche à faire un test statistique C8F6

On remarque qu’en unilatéral on rejète plus facilement l’hypothèse nulle pour un même risque de 5%. Ce qui est normal puisqu’on a une connaissance à priori : on sait déjà que si il y a une différence elle ne peut être que supérieure ; l’une des 2 fréquences ne peut que est supérieure (pas besoin de tester si c’est elle est inférieure) donc tout le risque est réparti d’un seul côté.
Il faut donc bien veiller à définir clairement l’hypothèse à tester dès le départ. J’espère n’avoir embrouillé personne ! lol

**Emma** Mar 4 Déc - 12:39

Merci Merci les gars!!!! J'ai même compris ce que je calculais. Very Happy

Que même j'ai un super résultat...

A pluche

Emma Je cherche à faire un test statistique 222934

**Emma** Mar 4 Déc - 12:58

Pour Julien:

Je cherchais à faire un test unilatéral puisque j'avais déjà une petite idée en tête. En effet, d'après une vieille expérience, que j'ai confirmée depuis, le glycérol empêche l'agrégation des protéines. Une des conséquences du choc thermique est l'agrégation générale des protéines cytosoliques. Par test luciférase, j'ai vu que si on traite les cellules au glycérol avant le choc thermique, on a bien une diminution de l'agrégation protéique. Or, l'autophagie peut être activée par l'agrégation protéique, et nous avons observé que le choc thermique active l'autophagie dans nos cellules. Une des hypothèses est donc que l'agrégation provoquée par le choc thermique active l'autophagie. Un traitement au glycérol devait donc confirmer cette hypothèse. Et, par chance, une inhibiton de l'agrégation protéique diminue la réponse autophagique.

Voilà,

Je cherche à faire un test statistique 222934

Merci encore

Emma.

**Adrien** Mar 11 Déc - 2:16

Bien que ce que te propose Yves est correct en soit, tu ne pourrais pas conclure quant à l’effet de tes facteurs : « Gly » et « HS » ni sur leur interaction… La seule conclusion possible est qu’il y a une différente significative de fréquence d’autophage entre les deux traitements que tu compares.
De plus, en ne faisant que cette comparaison, tu pars du principe que les autres fréquences sont effectivement différentes mais il faudrait s’en assurer…
Et enfin, mais c’est déjà moins grave, en passant tes données en fréquences tu perds de l’information et cela peux te faire perdre de la puissance.

Il nous semble que tu aimerais savoir s’il existe un effet significatif de tes traitements (variables explicatives) c'est-à-dire que tu souhaites faire la différence entre des modèles de types :

Hypothèse nulle H0 : yi = a + eps; pas d’effet des facteurs sur le caractère autophage
la proportion d’autophage yi est égale à une constante a (moyenne) plus une variation résiduelle d’échantillonnage

Hypothèses alternatives :
yi = a + b1*Gly + eps; effet du traitement au glycérol
yi = a + b2*HS + eps; effet du choc thermique
yi = a + b1*Gly + b2*HS + eps; effet additif des deux types de traitement
yi = a + b1*Gly + b2*HS +b3*IG*H + eps; interaction entre les deux traitements.

(Soit une régression linéaire multiple)

L’ennui est que ta variable (caractère autophage) n’est pas une variable continue mais suit une distribution binomiale. Et même si tu prends la proportion ou la probabilité d’être autophage, tu obtiens une variable continue seulement sur l’intervalle [0 , 1] mais non linéaire. (Pour information : tu peux réaliser une régression logistique sur ce type de variable)

Nous te proposons donc d’utiliser un modèle linéaire généralisé.
On s’explique : par une transformation de ta variable p = probabilité d’être autophage en logit(p) tu peux maintenant faire une régression linéaire multiple classique.

(Juste pour information la jolie formule c’est : logit(p) = ln( p / (1-p) )

La régression te renvoie les paramètres a, b1, b2 et b3, accompagnés d’une valeur : p-value. Pour simplifier, cela t’indique si ce paramètre veut réellement dire quelque chose ou non, c'est-à-dire s’il y a un effet significatif de la variable explicative associée à ce paramètre.

INTERPRETATION

Tu dois en priorité regarder le paramètre associé à l’interaction. En effet, si celle-ci est significative, alors tu ne peux pas interpréter les valeurs des paramètres associés aux effets des facteurs isolés. Tu pourras tout de même regarder si ces effets sont significatifs, mais rien conclure de plus.

S’il n’y a pas interaction significative, alors tu devras relancer le modèle avec un effet additif de tes facteurs. (cf. post en pratique)

Pour être très rigoureux, si tu souhaites faire des prédictions à partir d’un de ces modèles, il te faudrait faire une comparaison de modèles emboîtés par test LRT (cela revient au même que le test de Chi2 que proposait Yves) ou comparaison d’AIC.
Mais si tu ne souhaites que décrire tes résultats, ceci est superflu.
Signale nous si tu souhaites un topo là-dessus

Il est tard et nos idées sont de moins en moins claires, nous te posterons donc notre « aide » pratique demain !!!

**Emma** Mer 12 Déc - 12:17

Hello

Tout d'abord je ne pensais pas que ma question amènerait à autant de réponse, donc merci de vous soucier de mes petites cellules!!!!
Wink

Je tiens à te préciser, Adrien, que je perçois la pertinence de ton test, et qu'effectivement il apporte beaucoup plus d'informations que le précedent. J'attend donc le calcul pratique, lequel semble-t'il, nécessitera un peu plus de temps que la comparaison de fréquences. J'ai en tout cas saisi le principe général, mais je te crois sur parole pour certains paramètres Rolling Eyes

Ma maître de stage me laisse champ libre pour tester mon échantillon vu qu'elle n'est pas familière avec les statistiques. Merci encore pour votre patience donc, Je cherche à faire un test statistique 601871

Emma Topoïèse

**Adrien** Mer 12 Déc - 23:16

Commence par fabriquer une table Asci (bloc note) avec tes données réelles (pas les pourcentages), par exemple :

H G Auto Non
0 0 38 67
0 1 41 59
1 0 90 10
1 1 71 29

Ensuite, ouvre R (que tu peux télécharger ici Very Happy

: http://cran.univ-lyon1.fr/), et va dans fichier/changer le répertoire courant et place toi dans le répertoire où est enregistré ta table.

Maintenant, charge la table :

> emma<-read.table("emma.txt",h=T)
> attach(emma) % ça te permettra d’atteindre tes colonnes simplement par leur titre.

Tu peux vérifier son contenu en appelant ta table :

> emma
H G Auto Non
1 0 0 38 67
2 0 1 41 59
3 1 0 90 10
4 1 1 71 29

R considère toutes les variables comme numériques, or G et H sont des variables qualitatives (présent ou absent), il faut donc lui préciser :

> HS=factor(H)
> Gly=factor(G)

Tu vas ensuite faire ton modèle linéaire généralisé le plus complet (parapluie, avec tous tes facteurs et leurs interactions) :

> summary(glm(cbind(Auto,Non)~HS*Gly,family=binomial))

Je cherche à faire un test statistique Glmemm10

Je cherche à faire un test statistique Glmemm10

Grâce au « summary », tu peux observer tes paramètres (estimates) associés à tes facteurs (ou l’interaction), et leurs p-value.
La première chose à faire (cf. post « en théorie ») c’est de regarder si le paramètre associé à l’interaction est significatif (p-value inférieur à sa valeur seuil, que tu décides préalablement, disons pour être original : 0.05…)

Deux cas :
- Si l’interaction a une petite p-value, (donc l’effet est significatif) tu ne peux pas réduire ton modèle : yi = a + b1*Gly + b2*HS +b3*IG*H + eps même si cela ne veut pas automatiquement dire que b1 et b2 sont significatifs !

- Si l’interaction n’est pas significative par contre tu peux la retirer en imaginant un modèle simplement avec des effets additifs :

> summary(glm(cbind(Auto,Non)~HC+Glu,family=binomial))

Je cherche à faire un test statistique Glmemm11

Je cherche à faire un test statistique Glmemm11

(Ici bien sûr cela n’avait aucune raison d’être mais nous essayons d’être un peu plus général au cas ou ces post servent à d’autre Wink

)

L’intérêt tout de même est de bien noter que les valeurs des paramètres (a, b1 et b2) ne sont plus les même…

Pour savoir si la réduction d’un modèle était justifiée on peut (de manière intuitive mais non statistiquement rigoureuse) observer si la valeur d’AIC diminue. En simplifiant plus cette valeur est faible meilleur est ton compromis entre la vraisemblance de ton modèle (=ajustement à tes données) et le nombre de paramètres à estimer (=complexité).

Tu peux remarquer ici que la valeur d’AIC augmente et c’est normal puisque l’on a vu que l’interaction était significative. En la retirant on a donc perdu de l’ajustement sans parler de la perte d’information.

Bon on va s’arrêter là tongue

Si quoique ce soit n’est pas clair n’hésite pas à le dire Very Happy

n'LN & Adrien

Contenu sponsorisé

Je cherche à faire un test statistique

Je cherche à faire un test statistique

Re: Je cherche à faire un test statistique

Re: Je cherche à faire un test statistique

Re: Je cherche à faire un test statistique

Re: Je cherche à faire un test statistique

Dans la théorie

Modèle linéaire généralisé

Dans la pratique….

Re: Je cherche à faire un test statistique