Ce concours met les scientifiques des données au défi de montrer comment les données financées par l’État sont utilisées au service de la science et de la société. La preuve par le biais de données est essentielle si le gouvernement veut faire face aux nombreuses menaces auxquelles la société est confrontée, y compris; les pandémies, le changement climatique, la maladie d’Alzheimer, la faim chez les enfants, l’augmentation de la production alimentaire, le maintien de la biodiversité et la résolution de nombreux autres défis. Pourtant, la plupart des informations sur les données nécessaires pour éclairer les preuves et la science sont enfermées dans des publications.
Le traitement du langage naturel peut-il trouver les citations de données cachées à la vue? L’apprentissage automatique peut-il trouver le lien entre les mots utilisés dans les articles de recherche et les données référencées dans l’article?
Dans ce concours, vous utiliserez le traitement du langage naturel (PNL) pour automatiser la découverte de la manière dont les données scientifiques sont référencées dans les publications. En utilisant le texte intégral des publications scientifiques de nombreux domaines de recherche rassemblés REFRAIN les membres éditeurs et d’autres sources, vous identifierez les ensembles de données que les auteurs des publications ont utilisés dans leur travail.
Les soumissions à ce défi doivent être reçues avant 23 h 59 UTC, le 22 juin 2021.
La source: Kaggle