Non classé – Biostatistics: The Good, the Bad and the Ugly

tidyverse : les fonctionnalités/bugs de tibble

Vous avez peut être entendu parler de tidyverse, un ensemble de packages pour le langage R, qui redéfinissent la manière de faire de nombreuses choses par rapport au R de base. Cela comprend notamment les data frames, qui sont remplacés par une alternative, prétendue meilleure, les tibbles. Créer des variantes incompatibles de structures de données …

Continuer la lecture « tidyverse : les fonctionnalités/bugs de tibble »

Concept de la dépendance des biais à la taille d’échantillon

Tout l’objet de ce billet de blog est de tracer un parallèle entre la manière d’analyser les biais statistiques et celle d’analyser les biais méthodologiques. Cas des biais statistiques Face à des biais statistiques purs, tels que l’approximation de la loi binomiale à la loi normale, les propriétés mathématiques sont analysables. De manière très schématique …

Continuer la lecture « Concept de la dépendance des biais à la taille d’échantillon »

Ajustement sur effet centre

Imaginez que vous vous intéressiez à comparer des techniques médicales ou chirurgicales pour lesquels il existe à la fois une grande variance de pratique inter-centre mais aussi une variance de pratique intra-centre. Que faire de l’effet centre ? Faut-il ajuster dessus ? Il existe deux approches orthogonales, toutes deux soumises à des biais bien différents. …

Continuer la lecture « Ajustement sur effet centre »

Modèles à risques compétitifs

Introduction Le modèle de Cox, et l’estimateur de Kaplan-Meier servent classiquement aux analyses de survie. Ils reposent sur la notion d’événement, tel que le décès, dont on puisse dater précisément la survenue. Ces modèles atteignent leurs limites lorsqu’on souhaite analyser plusieurs événements mutuellement exclusifs (compétitifs). Par exemple, on peut se demander si le cancer (survenant …

Continuer la lecture « Modèles à risques compétitifs »

Les flogs : nouveau concept sur un outil ancien

Histoire John Napier (1550 – 1617) est un mathématicien, physicien et astronome écossais qui inventa le logarithme. La première table de logarithme publiée par Napier était conçue pour effectuer des multiplications par le sinus d’angles et n’utilisait pas la fonction logarithme telle qu’elle est connue de nos jours (référence : Pochon, Luc-Olivier. « A propos d’une …

Continuer la lecture « Les flogs : nouveau concept sur un outil ancien »

Que faire d’un paramètre de nuisance ?

Le problème d’estimation d’un simple pourcentage est relativement simple. En effet, on dispose généralement de deux données : un numérateur et un dénominateur du pourcentage. La distribution du numérateur suit une loi binomiale qui est parfaitement déterminée pour toute proportion théorique définie. Les fluctuations d’échantillonnages sont ainsi facilement identifiables et, par inversion de tests binomiaux, …

Continuer la lecture « Que faire d’un paramètre de nuisance ? »

Le code source de R

Je commence à connaître un peu le code source de R, en raison d’améliorations que j’y ai apportées : possibilité d’interrompre les gros calculs, accélération de la génération de nombre aléatoires, suppression de la limite à 128 connections, accélération de la fonction mean() sur les ALTREPs, refactoring de la fonction sum(). Voilà mon opinion : …

Continuer la lecture « Le code source de R »

Adoption jeux d’instructions

Un petit billet sur un sujet informatique pour changer des sujets plus statistiques. J’ai fait un récapitulatif de la gestion des jeux d’instructions complémentaires (SSE2, SSSE3, SSE4.2, AVX, AVX2, AVX-512) par les processeurs AMD et Intel. Cette liste devrait permettre aux programmeurs de savoir ce qu’on peut raisonnablement considérer comme universellement présent et ce qui …

Continuer la lecture « Adoption jeux d’instructions »

Robuste ou pas ?

Vous connaissez peut-être le test de Brown-Forsythe publié par Brown et Forsythe et décrit par les auteurs comme un test d’égalité des variances robuste aux écarts à la normalité. Le test est très simple à comprendre : il s’agit d’une ANOVA comparant la moyenne des écarts à la médiane. S’il y a seulement deux groupes, …

Continuer la lecture « Robuste ou pas ? »

Exemple d’optimisation du code en R

Un billet pour expliquer les étapes conduisant à une amélioration des performances d’un programme assez simple : réalisant un bootstrap résiduel dans un modèle linéaire général. Cette méthode statistique est adaptée aux écarts assez sévères à la normalité, fragilisant le théorème central limite et limitant la validité de la méthode de Wald. Cette méthode ne …

Continuer la lecture « Exemple d’optimisation du code en R »