En appliquant des techniques d’intelligence artificielle en langage naturel pour analyser les champs de texte dans les dossiers de santé, les chercheurs ont développé une approche automatisée pour classer la gravité de la maladie COVID-19 chez les femmes enceintes.
L’approche automatisée pourrait accélérer le traitement des dossiers de surveillance des patientes enceintes présentant un risque plus élevé de maladie COVID-19 grave que les personnes non enceintes infectées par le virus SARS-CoV-2.
Produit dans le cadre d’une collaboration entre le Georgia Tech Research Institute (GTRI) et le Centres pour le Contrôle et la Prévention des catastrophes (CDC), cette solution technique permet de relever un défi auquel est confronté le CDC, qui doit classer rapidement les maladies sur la base de données provenant de formulaires électroniques avec des informations en texte libre saisies par le personnel clinique ou du service de santé. En raison de leur variabilité, les données en texte libre de chaque formulaire électronique doivent être examinées par les cliniciens.
Données de champ de texte utiles mais difficiles à analyser
« Toutes les informations utiles à connaître sur une maladie COVID-19 ne peuvent pas être saisies dans les données codées résumées qui sont saisies dans les formulaires », a déclaré Charity Hilton, une chercheuse scientifique du GTRI qui a dirigé la composante GTRI du projet. «Il peut y avoir beaucoup plus d’informations dans les champs de texte – qui peuvent être copiés directement à partir des dossiers des patients – qui peuvent aider à comprendre la portée plus large de ce qui se passe. Ce projet contribuera à améliorer la vitesse et la précision de la classification des maladies.
Fournir des informations clarifiantes au-delà des codes standardisés est le but des champs de texte, mais leur variabilité et leur manque de structure cohérente peuvent les rendre difficiles à traiter et à interpréter. Le traitement automatique du langage naturel (PNL), une approche automatisée utilisant l’intelligence artificielle, peut aider à fournir le type de compréhension qui nécessiterait autrement un examen humain, en extrayant le sens du texte pour aller au-delà de la simple correspondance des mots, a expliqué Hilton.
En plus de fournir des informations supplémentaires pour aider à la classification, la solution NLP peut valider les informations fournies ailleurs sur les formulaires pour détecter les erreurs de codage ou autres divergences.
Les services de santé des États, locaux et territoriaux fournissent des données
Les services de santé transmettent des informations sur les cas de COVID-19 au CDC, y compris l’état de la grossesse. Les services de santé nationaux et locaux peuvent fournir des données supplémentaires sur les femmes enceintes atteintes de COVID-19 et leurs bébés en développement. Ces données sont collectées dans le cadre du réseau de surveillance des menaces émergentes pour les mères et les bébés (SET-NET) du CDC.
Trente-deux juridictions ont communiqué des données sur la santé des personnes infectées par le SRAS-CoV-2 pendant la grossesse. Jusqu’à présent, les données de plus de 71 000 femmes enceintes infectées par le SRAS-CoV-2 ont été signalées à SET-NET. La classification de la gravité de la COVID-19 est basée sur des facteurs tels que l’admission en unité de soins intensifs (USI), la ventilation invasive, les thérapies COVID-19 requises et les complications. Cette information est utilisée pour classer la maladie comme asymptomatique, légère, modérée à grave ou critique.
Évaluation de l’efficacité du traitement du langage naturel
Pour évaluer l’efficacité de l’approche PNL, les chercheurs du CDC et du GTRI ont comparé les classifications de gravité fournies par l’approche basée sur la PNL à celles établies par l’examen humain standard. Ils ont constaté que les classifications produites par la PNL concordaient avec le jugement du clinicien dans 99,4 % des 4 378 cas de COVID-19 étudiés.
« La concordance entre les approches était élevée, validant que les approches automatisées pourraient réduire le besoin d’examen clinique pour classer la gravité du COVID-19 », ont écrit les chercheurs dans un résumé d’une présentation sur le projet prévu pour une prochaine conférence.
L’analyse aide le CDC à comprendre les risques pour les femmes enceintes
Les informations fournies par SET-NET aident le CDC à formuler des recommandations pour les femmes enceintes, et le nouveau système aidera à évaluer les données entrant dans l’agence.
« Les approches automatisées, telles que le traitement du langage naturel, ont aidé les enquêteurs du CDC à » passer au crible « des milliers d’enregistrements pour déterminer plus efficacement le niveau de gravité du COVID-19 chez les femmes enceintes », a déclaré Van T. Tong, MPH, qui dirige le Emerging Threats Équipe du Centre national des CDC sur les malformations congénitales et les troubles du développement. «Ce travail visant à mieux comprendre les risques accrus d’infection au COVID-19, ainsi que le nombre croissant de preuves soutenant l’innocuité et l’efficacité de la vaccination au COVID-19 pendant la grossesse, ont été utilisés pour soutenir le message du CDC selon lequel les avantages de la vaccination au COVID-19 l’emportent sur tout risque potentiel de la vaccination contre le COVID-19 pendant la grossesse.
Prochaines étapes de la mise en œuvre du projet
Le projet est en grande partie achevé et fonctionne dans l’environnement informatique de CDC. Quelques ajustements supplémentaires seront apportés et le projet pourrait bientôt aider le CDC à analyser les données sur les effets de la pandémie de COVID-19 sur les femmes enceintes. L’équipe travaille à partager le code et l’ensemble de données factices sur le CDC GitHub. Les détails du projet devraient être présentés lors de la 11e Conférence internationale sur les maladies infectieuses émergentes plus tard cette année.
Le traitement du langage naturel a une large application
L’utilisation d’informations provenant de champs de texte libre est l’un des défis auxquels sont confrontés les systèmes de bases de données utilisés dans les soins de santé et d’autres applications, et c’est un domaine où les techniques éprouvées de PNL peuvent être particulièrement utiles.
« Particulièrement dans le cas clinique, les données textuelles peuvent être une riche source d’informations », a déclaré Hilton. « Les prestataires, les cliniciens et les infirmières doivent mettre des informations dans les sections codées des formulaires, mais les champs de texte leur permettent de fournir plus de détails sur un patient et ce qu’il vit. Ils veulent fournir ces informations parce que les boîtes codées ne peuvent pas raconter toute l’histoire. »
Des exemples d’informations utiles pour les cliniciens et les planificateurs de politiques peuvent inclure le contexte sur les antécédents familiaux du patient, une maladie antérieure ou des dimensions sociales pertinentes pour le traitement et l’issue de la maladie.
Résultats du projet d’une collaboration à long terme avec CDC
Les chercheurs du GTRI ont collaboré avec le CDC basé à Atlanta dans le cadre d’une initiative à long terme conçue pour soutenir l’initiative globale de modernisation des données (DMI) de l’agence. En 2020, DMI est un effort pluriannuel de plus d’un milliard de dollars visant à moderniser les données de base et l’infrastructure de surveillance dans le paysage de la santé publique fédérale et étatique. Dans sa troisième année, la collaboration CDC-GTRI a fait avancer la modernisation en se concentrant sur le calcul haute performance, l’interopérabilité des soins de santé, l’analyse de données, les techniques d’apprentissage automatique, la génération de données synthétiques, le développement de modèles prédictifs et la visualisation pour identifier les tendances dans les vastes données ensembles que l’agence reçoit et analyse.
La source: Technologie de Géorgie