Un développeur d'Amazon explique comment fonctionne le mode murmuré d'Alexa

La semaine dernière, lors d'un événement à Seattle, Amazon a dévoilé une foule de fonctionnalités destinées aux haut-parleurs intelligents nouveaux et existants alimentés par sa plate-forme vocale Alexa. L'un d'eux était le «mode chuchoté», qui permet à Alexa de répondre à un discours chuchoté en chuchotant. Dans un article de blog publié aujourd’hui, Zeynab Raeesy, spécialiste de la parole dans le groupe Alexa Speech d’Amazon, a révélé les fondements de l’intelligence artificielle (AI) de cette fonctionnalité.

Une grande partie du travail est détaillée dans un document («Détection de murmures basé sur LSTM») qui sera présenté lors de l'atelier de l'IEEE sur la technologie des langues parlées en décembre.

«Si vous vous trouvez dans une pièce où un enfant vient de s’endormir et où une autre personne entre, vous pourriez commencer à parler à voix basse pour indiquer que vous essayez de garder la pièce silencieuse. L'autre personne commencera probablement à chuchoter aussi », a écrit Raeesy. "Nous aimerions qu'Alexa réagisse aux signaux de conversation d'une manière aussi naturelle et intuitive."

Selon Raeesy, ce qui rend difficile l’interprétation des paroles chuchotées, c’est le fait qu’il n’ya pas de voix, c’est-à-dire qu’il n’ya pas de vibration des cordes vocales. Il a également tendance à avoir moins d'énergie dans les bandes de fréquences inférieures à la parole ordinaire.

Elle et ses collègues ont étudié l’utilisation de deux réseaux neuronaux différents – des couches de fonctions mathématiques modélisées de manière souple après les neurones du cerveau humain – pour distinguer les mots normaux des mots chuchotés.

Les deux réseaux de neurones différaient sur le plan architectural – l'un était un perceptron multicouche (MLP) et le second était un réseau de mémoire longue durée (LSTM), qui traitait les entrées dans un ordre séquentiel, mais était formé sur les mêmes données. Ces données comprenaient (1) des énergies logarithmiques logarithmiques ou des représentations de signaux vocaux qui enregistrent les énergies de signaux dans différentes gammes de fréquences et (2) un ensemble de caractéristiques «exploitant [ed] les différences de signaux entre la parole . ”

LIS  Netlify lève 30 millions de dollars pour moderniser le Web

Lors des tests, ils ont constaté que le LSTM fonctionnait généralement mieux que le MLP, conférant un certain nombre d'avantages. Comme Raeesy l’a expliqué, d’autres composants du moteur de reconnaissance vocale d’Alexa reposent entièrement sur les énergies des banques de filtres log, et la recherche des mêmes données d’entrée pour différents composants rend le système plus compact.

Mais tout n’a pas été facile, du moins au début. Comme Alexa reconnaît la fin d’une commande ou une réponse par une courte période de silence (technique connue sous le nom de «pointage final»), la confiance du LSTM a tendance à diminuer vers la fin des énoncés. Pour résoudre le problème, les chercheurs ont calculé la moyenne des résultats du LSTM pour l’énoncé complet; au bout du compte, le fait de laisser tomber les dernières secondes de 1,25 seconde des données vocales était «crucial» pour maintenir les performances.

Le mode silencieux sera disponible en anglais aux États-Unis en octobre.


Lien source

Comments

comments

Laisser un commentaire