Devenir des perdus de vue : un case report

Rappel de vocabulaire en survivologie Considérons une étude de cohorte ouverte dans laquelle les patients sont inclus de janvier 2015 à décembre 2019 et dont le gel des données est réalisé en janvier 2020. Ainsi, un sujet inclus en janvier 2015 aura jusqu’à 5 ans de suivi alors qu’un sujet inclus début décembre 2019, aura …

Conditions de validité du coefficient de corrélation de Pearson et de la régression linéaire

Pour faire court, la seule condition de validité pour le calcul d’un coefficient de corrélation de Pearson ou l’estimation d’une régression linéaire, est l’existence d’une variance non-nulle sur chacune des deux variables, sous peine de division par zéro. Tous les autres éléments ne sont que des « précautions d’interprétation ». La régression linéaire, estimée par les moindres …

Le petit p bidon sous-puissant

Quelques définitions sur les risques Considérant que la plupart des études font des comparaisons bilatérales, qu’il s’agisse d’épidémiologie ou de recherche clinique, l’hypothèse nulle est généralement l’absence totale d’effet de l’intervention ou l’exposition considérée. La plausibilité de cette hypothèse nulle est généralement douteuse, notamment pour les essais cliniques dans lesquels la question porte plus sur …

Hypothèse nulle et alternative

Vous avez peut-être entendu parler d’un résultat statistiquement significatif qui ne serait pas cliniquement significatif car correspondant à une différence trop faible, notamment à cause d’un échantillon « trop grand« . Le problème ne vient pas de la taille de l’échantillon mais du mauvais choix de l’hypothèse nulle. Si on veut prouver qu’un effet est cliniquement significatif, …

Pourquoi un modèle multivarié ?

Les modèles de régression logistique multivariés se retrouvent dans beaucoup de publications, sans que la raison de leur réalisation soit clairement annoncée. Cela est dommage parce que la manière de les construire dépend beaucoup de cette raison. Nous listons ici, un nombre de raisons de réaliser un modèle multivarié : Analyses de causalité en épidémiologie …

There will be legacy

As of April 14, 2020, there are 694 programming languages listed on the Wikipedia list of programming languages. This lists programming languages, not implementations and standards, so that C++ is a single programming language, be it GNU C++, Microsoft’s Visual C++, Clang, Intel C++ compiler or C++98, C++03, C++11, C++14, C++17. Can a legacy programming …

Test de normalité

L’usage de tests de normalité n’est pas pertinente dans la recherche biomédicale. J’ai un point de vue très tranché sur la question car cet usage me paraît être une aberration à plusieurs sens, que je détaillerai ci-dessous. 1er argument : les lois du vivant ne sont pas normales Pour rappel, la loi normale est une …

Quelques néologismes

Si vous suivez ce blog, il peut être intéressant d’apprendre quelques néologismes que je suis susceptible d’utiliser de temps à autre. Petit péter, petit péteur Un résultat petit pète, lorsqu’il est statistiquement significatif (petit p < seuil de significativité). Ce terme est neutre et ne présume pas de la réalité de l’hypothèse nulle ou de …

Combien de noeuds pour paralléliser mes simulations ?

Si vous faites des simulations statistiques lourdes, vous devez ou devriez bénéficier de la parallélisation des ordinateurs multi-coeurs. Un quadri-coeur peut exécuter environ quatre fois plus vite (sauf saturation de la bande passante RAM) les simulations qu’un mono-coeur. Les outils de parallélisation tels que le package R « parallel » permettent de choisir le nombre de noeuds …