Évaluation des performances d'un logiciel d'intelligence artificielle pour la détection automatisée des hémorragies intracrâniennes sur une base de données originale de scanners cérébraux

L’hémorragie intracrânienne (HIC) représente un enjeu majeur de santé publique en raison de sa mortalité précoce élevée, nécessitant un diagnostic rapide par scanner cérébral sans injection. L’intelligence artificielle s’intègre progressivement en radiologie, notamment pour la détection et le triage des urgences neurovasculaires, mais ses performances peuvent diminuer en validation externe, soulignant la nécessité d’évaluations indépendantes. De nombreux outils dédiés à la détection automatisée des HIC rapportent des performances élevées, mais restent souvent limités par des biais méthodologiques (design rétrospectif, exclusion des diagnostics différentiels, vérité terrain mono-lecteur), réduisant leur applicabilité clinique. Dans ce contexte, cette étude a évalué les performances du logiciel de triage des HIC, CINA-ICH v1.0.8 (Avicenna.ai) (voir image 1), à partir d’une cohorte rétrospective bicentrique originale et d’une cohorte prospective monocentrique, afin de se rapprocher des conditions de pratique clinique réelle.

La cohorte rétrospective comprenait 725 scanners cérébraux réalisés entre 2012 et 2024 dans deux hôpitaux universitaires brestois, incluant 60 % de cas d’HIC, 25 % de diagnostics différentiels (tumeurs, malformations vasculaires, calcifications, artefacts) et des examens normaux. La vérité terrain reposait sur une lecture indépendante et en aveugle de trois lecteurs parmi cinq, avec consensus majoritaire. Les lésions ont été localisées par annotations manuelles, permettant une analyse exploratoire des sous-types basée sur la concordance spatiale entre les segmentations de l’IA et les annotations de référence, avec des critères stricts de validation : un sous-type n’était validé que si toutes les lésions correspondantes étaient détectées (voir image 2).

La cohorte prospective incluait 423 examens consécutifs réalisés entre avril et mai 2024, chez des patients non sélectionnés issus des urgences ou hospitalisés, avec une prévalence d’HIC de 19,7 %. La vérité terrain reposait sur les comptes rendus radiologiques validés par un radiologue sénior, sans analyse des sous-types. Dans les deux cohortes, les discordances ont été systématiquement analysées et les performances évaluées à l’aide des indicateurs diagnostiques standards.

Dans la cohorte rétrospective, la concordance inter-observateurs était élevée (kappa = 0,80). Les performances de l’IA étaient légèrement inférieures à celles rapportées dans la littérature, avec une sensibilité de 0,85, une spécificité de 0,83 et une exactitude de 0,85, probablement en raison de l’inclusion de cas complexes. L’analyse exploratoire des sous-types montrait une variabilité des sensibilités, avec de meilleures performances pour les hématomes intraparenchymateux et plus faibles pour les hémorragies intraventriculaires, en lien avec des critères d’évaluation stricts augmentant les faux négatifs. En cohorte prospective, les performances restaient élevées et cohérentes avec la littérature, avec une sensibilité de 0,86, une spécificité de 0,95 et une exactitude de 0,93.

L’analyse des discordances a montré des profils d’erreurs similaires entre les deux cohortes et les études précédentes. Les faux négatifs concernaient principalement des lésions de petite taille (< 10 mm), des hémorragies isodenses ou des localisations proches de la base du crâne (voir image 3). Les faux positifs étaient liés à des tumeurs intra-axiales, des calcifications, des artefacts ou des structures anatomiques normales telles que la faux du cerveau, la tente du cervelet ou les sinus veineux (voir image 4).

Ces résultats confirment des performances globalement élevées de l’algorithme, en particulier en prospectif. L’inclusion de diagnostics différentiels et l’utilisation d’une annotation multi-lecteurs renforcent sa robustesse méthodologique et permettent une analyse détaillée des forces et des limites de l’outil. Les résultats soulignent néanmoins certaines difficultés persistantes, notamment pour les lésions de petite taille ou situées dans des régions anatomiques complexes. Cette évaluation contribue ainsi à mieux définir les conditions optimales d’intégration des systèmes d’IA dans le flux de travail radiologique et à identifier les situations nécessitant une vigilance particulière de la part du radiologue.

Image1 clotide ruesh.png

Image 1: Images générées par CINA-ICH (à gauche, quand résultat positif, à droit quand négatif)

Image2 clotide ruesh.png

Image 2 : Illustration de la méthodologie utilisée pour l’analyse de détection des sous-types basée sur la concordance spatiale – à gauche, les « bounding boxes » correspondant à la vérité terrain et à droite la segmentation des contours générée par l’IA. Dans cet exemple, le sous-type IPH a été considéré comme un vrai positif (TP) et le sous-type IVH comme un faux négatif (FN).

Image3 clotide ruesh.png

Image 3 :  Exemples de faux négatifs pour les deux cohortes.

Image4 clotide ruesh.png

Image 4 : Exemples de faux positifs pour les deux cohortes.