Archives

  • Le code source de R - Je commence à connaître un peu le code source de R, en raison d’améliorations que j’y ai apportées : possibilité d’interrompre les gros calculs, accélération de la génération de nombre aléatoires, suppression de la limite à 128 connections, accélération de la fonction mean() sur les ALTREPs, refactoring de la fonction sum(). Voilà mon opinion : …
  • Adoption jeux d’instructions - Un petit billet sur un sujet informatique pour changer des sujets plus statistiques. J’ai fait un récapitulatif de la gestion des jeux d’instructions complémentaires (SSE2, SSSE3, SSE4.2, AVX, AVX2, AVX-512) par les processeurs AMD et Intel. Cette liste devrait permettre aux programmeurs de savoir ce qu’on peut raisonnablement considérer comme universellement présent et ce qui …
  • Robuste ou pas ? - Vous connaissez peut-être le test de Brown-Forsythe publié par Brown et Forsythe et décrit par les auteurs comme un test d’égalité des variances robuste aux écarts à la normalité. Le test est très simple à comprendre : il s’agit d’une ANOVA comparant la moyenne des écarts à la médiane. S’il y a seulement deux groupes, …
  • Exemple d’optimisation du code en R - Un billet pour expliquer les étapes conduisant à une amélioration des performances d’un programme assez simple : réalisant un bootstrap résiduel dans un modèle linéaire général. Cette méthode statistique est adaptée aux écarts assez sévères à la normalité, fragilisant le théorème central limite et limitant la validité de la méthode de Wald. Cette méthode ne …
  • Tests anti-hiérarchiques - Vous connaissez peut-être les tests hiérarchiques; une manière de gérer la multiplicité des tests en planifiant une liste de tests, à réaliser dans un ordre précis. Chaque test est réalisé à un niveau de significativité donné (5% le plus souvent). Les tests sont effectués tant qu’ils sont tous significatifs (p < 5%) et il y …
  • Analyses en sous-groupes - Un billet que j’écris suite à une remarque d’un reviewer qui a remis en cause ma manière de faire des analyses en sous-groupes, proposant une autre méthode, plus classique mais dont la validité est très discutable. Mes réflexions rejoignent une citation du Pr Bruno FALISSARD que je paraphrase ici, parce que je ne l’ai pas …
  • Des FP32 pas standard - Vous avez peut-être l’habitude des nombres à virgule flottantes 32 bits IEEE-754 avec 23 bits de mantisse (24 bits effectif grace à la normalisation), 8 bits d’exposant et 1 bit de signe. La mantisse est un peu courte, mais il y a beaucoup d’usages pour lesquels ça reste tolérable. Mais, savez-vous que le logiciel statistique …
  • Qualité des données - Pour faire suite au billet sur l’absence de définition consensuelle d’étude prospective. Le débat sémantique sur le terme cache les vrais problèmes de qualité de données. Ainsi, je vous propose de vous poser les questions suivantes lorsque vous évaluez la qualité d’une donnée : La donnée a-t-elle été renseignée de manière systématique (faible nombre de …
  • Facteurs croisés et modèles à effets mixtes - Un billet pour vous décrire un joli problème statistique auquel les modèles à effets mixtes sont censés répondre, mais qui malheureusement, n’aident pas trop ; sauf si on les utilise vraiment très bien. Il s’agit d’une étude portant sur l’évaluation d’une intelligence artificielle (https://pubs.rsna.org/doi/10.1148/radiol.2021203886) assistant le travail de lecture radiographique. L’intelligence artificielle détecte de potentielles …
  • Interprétation combinée des analyses ajustées et non ajustées - Pourquoi ce billet de blog Tout vient de l’interprétation, avec des collègues cliniciens de l’article suivant BMJ 2021;372:m4948. Dans le modèle de base (seulement ajusté sur le sexe, l’âge et l’effet centre), l’effet (hazard ratio) d’une forte consommation de céréales raffinées (>= 350 g/jour) par rapport à une faible consommation (< 50 g/jour) sur le …