Graph HyperNetworks pour la recherche d'architecture neuronale

La conception d’architectures d’apprentissage en profondeur nécessite une connaissance approfondie du domaine et des essais et erreurs répétitifs. Des techniques de recherche d’architecture neuronale (NAS) sont en cours de création pour les optimiser automatiquement. Le NAS traditionnel nécessite un long processus d’optimisation en résolvant l’optimisation interne.

Crédit image : Piqsels, CC0 Domaine Public

Par conséquent, un article récent sur arXiv.org propose d’apprendre une approximation de fonction paramétrique, qui tente de générer directement les poids du réseau. Le Graph HyperNetwork (GHN) est proposé. Il peut agréger des informations au niveau du graphe en apprenant directement sur la représentation du graphe. L’approche nécessite beaucoup moins de calculs par rapport aux méthodes de l’état de l’art.

Les chercheurs montrent l’applicabilité de l’approche en l’étendant au problème de la prédiction à tout moment. Dans ce domaine, jusqu’alors inexploré par les programmes NAS, GHN surpasse les modèles existants conçus manuellement.

La recherche d’architecture neuronale (NAS) trouve automatiquement la meilleure topologie de réseau neuronal spécifique à une tâche, surpassant de nombreuses conceptions d’architecture manuelle. Cependant, cela peut être prohibitif car la recherche nécessite la formation de milliers de réseaux différents, alors que chacun peut durer des heures. Dans ce travail, nous proposons le Graph HyperNetwork (GHN) pour amortir le coût de la recherche : étant donné une architecture, il génère directement les poids en exécutant l’inférence sur un réseau de neurones de graphe. Les GHN modélisent la topologie d’une architecture et peuvent donc prédire les performances du réseau avec plus de précision que les hyperréseaux classiques et les arrêts prématurés prématurés. Pour effectuer un NAS, nous échantillonnons au hasard des architectures et utilisons la précision de validation des réseaux avec des poids générés par GHN comme signal de recherche de substitution. Les GHN sont rapides — ils peuvent effectuer des recherches près de 10 fois plus rapidement que les autres méthodes de recherche aléatoire sur CIFAR-10 et ImageNet. Les GHN peuvent être étendus au paramètre de prédiction à tout moment, où ils ont trouvé des réseaux avec un meilleur compromis vitesse-précision que les conceptions manuelles de pointe.

Document de recherche: Zhang, C., Ren, M. et Urtasun, R., « Graph HyperNetworks for Neural Architecture Search », 2021. Lien : https://arxiv.org/abs/1810.05749