Des chercheurs de Google développent une intelligence artificielle pour mieux reconnaître le visage et détecter des objets sur les smartphones

Les applications qui détectent des objets, classent les images et reconnaissent les visages ne sont pas nouvelles dans le monde des smartphones. ils ont été popularisés par des applications comme Google Lens et Snapchat, pour n'en citer que quelques-uns. Mais l'ubiquité ne remplace pas la qualité, et les modèles d'apprentissage machine sous-jacents les plus utilisés – les réseaux neuronaux convolutifs – ont tendance à souffrir de lenteur ou d'inexactitude. C'est un compromis informatique forcé par des contraintes matérielles.

Cependant, il y a de l'espoir à l'horizon. Les chercheurs de Google ont développé une approche de la sélection de modèles d'intelligence artificielle (IA) qui atteint une vitesse et une précision record.

Dans un nouveau document ("MnasNet: recherche sur l'architecture de neurones pour plateformes mobiles") et l'article de blog, l'équipe décrit un système automatisé, MnasNet, qui identifie les architectures neuronales idéales à partir d'une liste de candidats. pour les contraintes de vitesse mobiles. Il exécute différents modèles sur un périphérique particulier – Pixel de Google, dans cette étude – et mesure leur performance réelle, en sélectionnant automatiquement le meilleur du groupe.

«De cette manière, nous pouvons mesurer directement ce qui est réalisable dans la pratique réelle», ont écrit les chercheurs dans le billet de blog, «chaque type de périphérique mobile ayant ses propres idiosyncrasies logicielles et matérielles et pouvant nécessiter des architectures différentes. pour les meilleurs compromis entre précision et rapidité. "

Le système comprend trois parties: (1) un contrôleur alimenté par un réseau neuronal récurrent qui apprend et échantillonne les architectures des modèles, (2) un appareil de formation qui construit et forme les modèles, et (3) un appareil TensorFlow Lite. Moteur d'inférence qui mesure la vitesse des modèles.

Ci-dessus: diagramme illustrant les composants du système de Google.

Crédit d'image: Google

L'équipe a testé ses modèles de premier choix sur ImageNet, une base de données d'images gérée par Stanford et Princeton, et sur l'ensemble de données de reconnaissance d'objets Common Objects in Context (COCO). Les résultats ont montré que les modèles fonctionnaient 1,5 fois plus rapidement que le modèle mobile de pointe MobileNetV2 et 2,4 fois plus rapide que le système de recherche d’architecture neuronale NASNet. Sur COCO, les modèles de Google ont quant à eux atteint une «précision et une vitesse supérieures» sur MobileNet, avec 35 fois moins de coût de calcul que le modèle SSD300, la référence des chercheurs.

LIS  YouTube permet aux créateurs de monétiser via les abonnements aux chaînes, la marchandise et les premières

"Nous sommes ravis de voir que notre approche automatisée peut atteindre des performances de pointe sur plusieurs tâches de vision mobile complexes", a écrit l'équipe. "À l'avenir, nous prévoyons d'intégrer davantage d'opérations et d'optimisations dans notre espace de recherche et de l'appliquer à des tâches de vision plus mobiles telles que la segmentation sémantique."

Les recherches sont avancées et hors ligne (par opposition à hébergées dans le cloud). Au cours de sa conférence 2018 Worldwide Developers en juin, Apple a présenté une version améliorée de ML Core, son environnement d’apprentissage automatique sur appareil pour iOS. Et à Google I / O 2018, Google a annoncé ML Kit, un kit de développement logiciel qui comprend des outils facilitant le déploiement de modèles personnalisés TensorFlow Lite dans les applications.


Lien source

Comments

comments

Laisser un commentaire