Analyses en sous-groupes

Un billet que j’écris suite à une remarque d’un reviewer qui a remis en cause ma manière de faire des analyses en sous-groupes, proposant une autre méthode, plus classique mais dont la validité est très discutable. Mes réflexions rejoignent une citation du Pr Bruno FALISSARD que je paraphrase ici, parce que je ne l’ai pas …

Des FP32 pas standard

Vous avez peut-être l’habitude des nombres à virgule flottantes 32 bits IEEE-754 avec 23 bits de mantisse (24 bits effectif grace à la normalisation), 8 bits d’exposant et 1 bit de signe. La mantisse est un peu courte, mais il y a beaucoup d’usages pour lesquels ça reste tolérable. Mais, savez-vous que le logiciel statistique …

Qualité des données

Pour faire suite au billet sur l’absence de définition consensuelle d’étude prospective. Le débat sémantique sur le terme cache les vrais problèmes de qualité de données. Ainsi, je vous propose de vous poser les questions suivantes lorsque vous évaluez la qualité d’une donnée : La donnée a-t-elle été renseignée de manière systématique (faible nombre de …

Facteurs croisés et modèles à effets mixtes

Un billet pour vous décrire un joli problème statistique auquel les modèles à effets mixtes sont censés répondre, mais qui malheureusement, n’aident pas trop ; sauf si on les utilise vraiment très bien. Il s’agit d’une étude portant sur l’évaluation d’une intelligence artificielle (https://pubs.rsna.org/doi/10.1148/radiol.2021203886) assistant le travail de lecture radiographique. L’intelligence artificielle détecte de potentielles …

Interprétation combinée des analyses ajustées et non ajustées

Pourquoi ce billet de blog Tout vient de l’interprétation, avec des collègues cliniciens de l’article suivant BMJ 2021;372:m4948. Dans le modèle de base (seulement ajusté sur le sexe, l’âge et l’effet centre), l’effet (hazard ratio) d’une forte consommation de céréales raffinées (>= 350 g/jour) par rapport à une faible consommation (< 50 g/jour) sur le …

Bon usage des nombres à virgule flottante : exemples

Calculer une variance peut paraître simple, mais il y a de très mauvaises formules qui circulent. Considérons une variance portant sur des nombres énormes avec une très faible variance. Un cas fréquent, ce sont les dates ou paires dates/heures ! Ces valeurs sont typiquement représentées par un nombre de jours, secondes ou millisecondes depuis une …

x87 Intel vs AMD

En développant divers tests de performances sur SSE2, AVX2 et les vieilles instructions x87, j’ai découvert un problème de performance avec les processeurs Intel. En présence de représentations spéciales (NaN, +Inf, -Inf), les processeurs Intel (Core i5-4460 de microarchitecture Haswell et Celeron J1900 de microarchitecture Atom/Bay Trail) verront un ralentissement de leurs calculs par un …

Piège des nombres à virgules flottante

J’ai l’habitude d’être très prudent avec la gestion des nombres à virgule flottante, notamment lorsqu’il y a des allers-retours avec des nombres entiers, mais je me suis récemment fait avoir comme un bleu sous R, probablement parce qu’une interruption de plusieurs jours dans mon écriture du script m’a fait oublier l’origine des données, ainsi qu’une …

Conditions de validité des estimateurs

J’avais vivement critiqué l’usage des tests de normalité dans un billet précédent, mais je n’avais pas insisté sur les bonnes manières de faire du cas de mésusage le plus fréquent des tests de normalité : s’assurer de la validité des estimateurs statistiques reposant sur la normalité asymptotique, tel que le test de Student sur séries …

Erreur fréquente : ajustement sur baseline

Un billet pour vous présenter une erreur d’analyse tellement fréquente que c’est l’analyse correcte qui devient une exception. C’est le cas de la comparaison de scores quantitatifs (p.e. scores de qualité de vie, scores fonctionnels) après une intervention (p.e. 3 mois après) entre deux groupes de sujets susceptibles de différer sur le score avant l’intervention …