Cette nouvelle IA peut simuler votre voix avec seulement 3 secondes de son

Le nouveau modèle de langage de Microsoft Vall-E On dit qu’il est capable d’imiter n’importe quelle voix en utilisant seulement un échantillon d’enregistrement de trois secondes.

L’outil d’IA récemment publié a été testé sur 60 000 heures de données vocales en anglais. Il peut reproduire les émotions et le ton d’un orateur, ont déclaré des chercheurs dans un article de l’Université Cornell.

Ces résultats semblaient être vrais même lorsqu’un enregistrement de mots jamais prononcés par un locuteur natif était créé.

« Vall-E met en évidence les capacités d’apprentissage en contexte et peut être utilisé pour synthétiser un discours personnalisé et de haute qualité en l’utilisant Enregistrement enregistré pendant seulement 3 secondes Depuis le haut-parleur invisible sous forme d’invite vocale. Les résultats de l’expérience montrent que le Vall-E est nettement supérieur au dernier tir zéro [text to speech] système en termes de naturalité de la parole et de similitude du locuteur », ont écrit les auteurs. De plus, nous constatons que Vall-E peut maintenir l’émotion du haut-parleur et l’environnement acoustique de la table d’harmonie en accord. « 

LE LOGICIEL ESPION ANDROID FRAPPE ENCORE POUR PRENDRE LES INSTITUTIONS FINANCIÈRES ET VOTRE ARGENT

La signalisation du stand de l’entreprise Microsoft est exposée au CES 2023 au Las Vegas Convention Center le 6 janvier 2023 à Las Vegas, Nevada.
((Photo de David Baker/Getty Images))

Échantillons Val-E Partagés sur GitHub sont étrangement similaires aux affirmations des orateurs, bien qu’ils varient en qualité.

Dans l’une des phrases composées de la base de données Emotional Voices, Val-E prononce calmement la phrase : « Nous devons réduire le nombre de sacs en plastique ».

READ  Le compte Twitter officiel de Pokemon a-t-il déclenché le retour des diamants et des perles?

Les personnages de Disney arrivent sur Amazon Alexa avec la commande « Hey Disney »

On dit que le nouveau modèle de langage de Microsoft Vall-E est capable d'imiter n'importe quel son en utilisant seulement un échantillon d'enregistrement de trois secondes.

On dit que le nouveau modèle de langage de Microsoft Vall-E est capable d’imiter n’importe quel son en utilisant seulement un échantillon d’enregistrement de trois secondes.
(Stock)

Cependant, la recherche dans IA de synthèse vocale Il est accompagné d’un avertissement.

« Puisque Vall-E peut synthétiser un discours qui préserve l’identité du locuteur, il pourrait tout aussi bien Risque possible d’utilisation abusive du formulaire, comme usurper l’identité d’une voix ou usurper l’identité d’un locuteur spécifique », expliquent les chercheurs sur cette page Web. Nous menons les expériences en supposant que l’utilisateur accepte d’être le locuteur cible dans la synthèse vocale. Lorsque le modèle est généralisé à des locuteurs invisibles dans le monde réel, il doit inclure un protocole pour s’assurer que le locuteur consent à l’utilisation de sa voix et du modèle de détection de la parole synthétisée. « 

Microsoft Corp. signe au Microsoft India Development Center, à Noida, en Inde, le vendredi 11 novembre 2022.

Microsoft Corp. signe au Microsoft India Development Center, à Noida, en Inde, le vendredi 11 novembre 2022.
(Photographe : Prakash Singh/Bloomberg via Getty Images)

Cliquez ici pour l’application FOX NEWS

Actuellement, Vall-E, que Microsoft appelle un « paradigme de langage de balisage neuronal », n’est pas accessible au public.

LEAVE A REPLY

Please enter your comment!
Please enter your name here