Startseite Wissenswert Speech2Face – Eine KI, die anhand ihrer Stimme erraten kann, wie jemand aussieht

Speech2Face – Eine KI, die anhand ihrer Stimme erraten kann, wie jemand aussieht

durch Unserer Seite
0 Meinung 3 Minuten Lesezeit
Speech2Face – Eine KI, die anhand ihrer Stimme erraten kann, wie jemand aussieht

Speech2Face ist ein fortschrittliches neuronales Netzwerk, das von MIT-Wissenschaftlern entwickelt und darauf trainiert wurde, bestimmte Gesichtszüge zu erkennen und die Gesichter von Menschen zu rekonstruieren, indem man einfach auf den Klang ihrer Stimmen hört.

Sie haben wahrscheinlich schon von KI-gestützten Kameras gehört, die Menschen erkennen können, indem sie einfach ihre Gesichtszüge analysieren, aber was wäre, wenn es eine Möglichkeit für künstliche Intelligenz gäbe, herauszufinden, wie Sie aussehen, nur anhand des Klangs Ihrer Stimme und ohne Ihre zu vergleichen Stimme zu einer Datenbank? Genau daran hat ein Team von Wissenschaftlern am MIT gearbeitet, und die Ergebnisse ihrer Arbeit sind irgendwie beeindruckend. Während ihr neuronales Netzwerk namens Speech2Face die genauen Gesichtszüge eines Menschen nur anhand ihrer Stimme noch nicht erkennen kann, macht es sicherlich viele Details richtig.

„Unser Modell soll statistische Korrelationen aufdecken, die zwischen Gesichtszügen und Stimmen von Sprechern in den Trainingsdaten bestehen“, sagten die Macher von Speech2Face. „Die von uns verwendeten Trainingsdaten sind eine Sammlung von Lehrvideos von YouTube und repräsentieren nicht gleichermaßen die gesamte Weltbevölkerung. Daher ist das Modell – wie jedes maschinelle Lernmodell – von dieser ungleichmäßigen Verteilung der Daten betroffen.“

Sie können viel über eine Person aus der Art sagen, wie sie alleine spricht. Zum Beispiel können Sie höchstwahrscheinlich erkennen, ob jemand männlich oder weiblich ist oder ob er jung oder alt ist, aber Speech2Face geht darüber hinaus. Es kann die Form der Nase, der Wangenknochen oder des Kiefers einer Person allein anhand ihrer Stimme ziemlich genau bestimmen, da die Art und Weise, wie die Nase und andere Knochen in unserem Gesicht strukturiert sind, die Art und Weise bestimmt, wie wir klingen.

Ethnizität ist auch eines der Dinge, die Speech2Face genau lokalisieren kann, indem es nur wenige Millisekunden lang der Stimme einer Person zuhört, da Menschen, die aus denselben Gruppen kommen, tendenziell ähnliche Eigenschaften haben. Die KI berücksichtigt eine Vielzahl von Faktoren und liefert manchmal beeindruckende Ergebnisse, ist aber noch in Arbeit.

In einigen Fällen hatte die KI Schwierigkeiten zu bestimmen, wie der Sprecher aussehen könnte. Faktoren wie Akzent, gesprochene Sprache und Stimmlage verursachten grobe Diskrepanzen zwischen Angesicht und Angesicht, bei denen Geschlecht, Alter oder ethnische Zugehörigkeit völlig falsch waren. Beispielsweise wurden Männer mit einer besonders hohen Stimme oft als weiblich identifiziert, während Frauen mit einer tiefen Stimme als männlich identifiziert wurden. Asiaten, die fließend Englisch sprechen, sahen auch weniger asiatisch aus als in ihrer Muttersprache.

„In gewisser Weise ist das System ein bisschen wie dein rassistischer Onkel. Er hat das Gefühl, dass er die Rasse oder ethnische Zugehörigkeit einer Person immer anhand ihrer Sprechweise erkennen kann, aber er liegt oft falsch“, sagte der Fotograf Thomas Smith über Speech2Face.

Trotz seiner Einschränkungen bietet Speech2Face einen Blick in die Zukunft der Technologie der künstlichen Intelligenz, der die meisten Menschen sowohl beeindruckt als auch erschreckt. Stellen Sie sich eine Zukunft vor, in der nur wenige Millisekunden Sprachzeit für ein neuronales Netzwerk ausreichen, um ein genaues Porträt zu erstellen. Sicher, es könnte helfen, Kriminelle zu identifizieren, aber was hält schlechte Schauspieler davon ab, dieselbe Technologie für schändliche Zwecke zu verwenden?



Aus dem englischem | Quelle: odditycentral.com

Gedanken mitteilen: