Évaluation des performances d'un logiciel d'intelligence artificielle pour la détection automatisée des hémorragies intracrâniennes sur une base de données originale de scanners cérébraux

Auteur(s)

L’hémorragie intracrânienne (HIC) représente un enjeu majeur de santé publique en raison de sa mortalité précoce élevée, nécessitant un diagnostic rapide par scanner cérébral sans injection. L’intelligence artificielle s’intègre progressivement en radiologie, notamment pour la détection et le triage des urgences neurovasculaires, mais ses performances peuvent diminuer en validation externe, soulignant la nécessité d’évaluations indépendantes. De nombreux outils dédiés à la détection automatisée des HIC rapportent des performances élevées, mais restent souvent limités par des biais méthodologiques (design rétrospectif, exclusion des diagnostics différentiels, vérité terrain mono-lecteur), réduisant leur applicabilité clinique. Dans ce contexte, cette étude a évalué les performances du logiciel de triage des HIC, CINA-ICH v1.0.8 (Avicenna.ai) (voir image 1), à partir d’une cohorte rétrospective bicentrique originale et d’une cohorte prospective monocentrique, afin de se rapprocher des conditions de pratique clinique réelle.

La cohorte rétrospective comprenait 725 scanners cérébraux réalisés entre 2012 et 2024 dans deux hôpitaux universitaires brestois, incluant 60 % de cas d’HIC, 25 % de diagnostics différentiels (tumeurs, malformations vasculaires, calcifications, artefacts) et des examens normaux. La vérité terrain reposait sur une lecture indépendante et en aveugle de trois lecteurs parmi cinq, avec consensus majoritaire. Les lésions ont été localisées par annotations manuelles, permettant une analyse exploratoire des sous-types basée sur la concordance spatiale entre les segmentations de l’IA et les annotations de référence, avec des critères stricts de validation : un sous-type n’était validé que si toutes les lésions correspondantes étaient détectées (voir image 2).

La cohorte prospective incluait 423 examens consécutifs réalisés entre avril et mai 2024, chez des patients non sélectionnés issus des urgences ou hospitalisés, avec une prévalence d’HIC de 19,7 %. La vérité terrain reposait sur les comptes rendus radiologiques validés par un radiologue sénior, sans analyse des sous-types. Dans les deux cohortes, les discordances ont été systématiquement analysées et les performances évaluées à l’aide des indicateurs diagnostiques standards.

Dans la cohorte rétrospective, la concordance inter-observateurs était élevée (kappa = 0,80). Les performances de l’IA étaient légèrement inférieures à celles rapportées dans la littérature, avec une sensibilité de 0,85, une spécificité de 0,83 et une exactitude de 0,85, probablement en raison de l’inclusion de cas complexes. L’analyse exploratoire des sous-types montrait une variabilité des sensibilités, avec de meilleures performances pour les hématomes intraparenchymateux et plus faibles pour les hémorragies intraventriculaires, en lien avec des critères d’évaluation stricts augmentant les faux négatifs. En cohorte prospective, les performances restaient élevées et cohérentes avec la littérature, avec une sensibilité de 0,86, une spécificité de 0,95 et une exactitude de 0,93.

L’analyse des discordances a montré des profils d’erreurs similaires entre les deux cohortes et les études précédentes. Les faux négatifs concernaient principalement des lésions de petite taille (< 10 mm), des hémorragies isodenses ou des localisations proches de la base du crâne (voir image 3). Les faux positifs étaient liés à des tumeurs intra-axiales, des calcifications, des artefacts ou des structures anatomiques normales telles que la faux du cerveau, la tente du cervelet ou les sinus veineux (voir image 4).

Ces résultats confirment des performances globalement élevées de l’algorithme, en particulier en prospectif. L’inclusion de diagnostics différentiels et l’utilisation d’une annotation multi-lecteurs renforcent sa robustesse méthodologique et permettent une analyse détaillée des forces et des limites de l’outil. Les résultats soulignent néanmoins certaines difficultés persistantes, notamment pour les lésions de petite taille ou situées dans des régions anatomiques complexes. Cette évaluation contribue ainsi à mieux définir les conditions optimales d’intégration des systèmes d’IA dans le flux de travail radiologique et à identifier les situations nécessitant une vigilance particulière de la part du radiologue.

Image 1: Images générées par CINA-ICH (à gauche, quand résultat positif, à droit quand négatif)

Image 2 : Illustration de la méthodologie utilisée pour l’analyse de détection des sous-types basée sur la concordance spatiale – à gauche, les « bounding boxes » correspondant à la vérité terrain et à droite la segmentation des contours générée par l’IA. Dans cet exemple, le sous-type IPH a été considéré comme un vrai positif (TP) et le sous-type IVH comme un faux négatif (FN).

Image 3 : Exemples de faux négatifs pour les deux cohortes.

Image 4 : Exemples de faux positifs pour les deux cohortes.

SFR Actu

SFR Actu - Derniers articles

Et si vos compétences de radiologue pouvaient être mobilisées là où elles sont le plus nécessaires ?

Animée par Santé publique France, la Réserve sanitaire est une communauté de professionnels de santé volontaires et mobilisables par l’État (médecins, soignants, techniciens de (…)

Le pulvinar, ce n’est pas que dans la tête !

Que vous le sachiez ou non, le pulvinar correspond à l’une des deux structures occupant la fosse acétabulaire, l’autre étant le ligament rond.

Auteur(s)

Jean-François Budzik

Traumatisme et grossesse : sauver la mère pour sauver le fœtus

Les traumatismes pendant la grossesse représentent un enjeu important à connaître pour les radiologues avec une incidence estimé entre 5% à 7%. Dans une revue récemment publiée dans (…)

Auteur(s)

Noémi Favier

L'IA peut-elle lire seule les mammographies ? La question n'est plus si, mais quand et qui décide

L'essai AITIC (Córdoba, Espagne), premier essai prospectif apparié sur ce sujet, évalue une lecture partiellement autonome par IA dans un dépistage incluant mammographie numérique (MN) (…)

Auteur(s)

Guillaume Herpe

Antoine Noguero

Le cancer du poumon chez les non-fumeurs : faut-il le dépister ?

Longtemps considéré comme marginal, le cancer du poumon chez les non-fumeurs représente aujourd’hui un enjeu émergent de santé publique. Face à l’augmentation de son incidence, notamment (…)

Auteur(s)

Mickaël Ohana

Évaluation des performances d'un logiciel d'intelligence artificielle pour la détection automatisée des hémorragies intracrâniennes sur une base de données originale de scanners cérébraux

Et si vos compétences de radiologue pouvaient être mobilisées là où elles sont le plus nécessaires ?

Le pulvinar, ce n’est pas que dans la tête !

Traumatisme et grossesse : sauver la mère pour sauver le fœtus

L'IA peut-elle lire seule les mammographies ? La question n'est plus si, mais quand et qui décide

Le cancer du poumon chez les non-fumeurs : faut-il le dépister ?

Le pulvinar, ce n’est pas que dans la tête !

Le cancer du poumon chez les non-fumeurs : faut-il le dépister ?