Hey Mediasphere! Zeige mir Insekten!

Jens Dobberthin

Von Jens Dobberthin
29.01.2019 | 10 Minuten Lesezeit

Wäre es nicht großartig, wenn unser Rechercheportal aufs Wort gehorchen würde? Unser Praktikant Douglas hat es ausprobiert.

Was braucht es dafür?

Mikrofon

Hier haben wir uns für ReSpeaker Core v2.0 entschieden. Das ist eigentlich mehr als nur ein Mikrofon, denn es handelt sich um einen kleinen Minirechner, der sich gezielt für die Entwicklung von sprachgesteuerten Assistenzsystemen eignet. Auf der Platine (rechts unten im Video zu sehen) sind 6 Mikrofone in einem Ring verbaut. Somit kann die Richtung aus der gesprochen wird erkannt werden. Zusätzlich werkeln im Hintergrund spezielle Algorithmen, um z.B. auch in lauten Umgebungen die Sprache noch gut herausfiltern zu können.

Software für die Spracherkennung

Unsere Kommandos müssen irgendwie verstanden werden. So soll z.B. das Kommando “Zeige Insekten!" dazu führen, dass im Rechercheportal Insekten angezeigt werden. Für die Realisierung nutzen wir Zamia Speech, eine Sammlung von Werkzeugen für die automatische und cloudlose Spracherkennung.

Wie funktioniert das alles?

Die kleine Minirechner wandelt die von den Mikrofonen aufgenommenen Audio-Signale in einen kontinuierlichen Datenstrom um und sendet diese an den Laptop. Dort läuft im Hintergrund die Spracherkennungssoftware, welche den Datenstrom auswertet und in Text übersetzt. Dieser Text kann dann nach Schlüsselphrasen wie “Zeige Insekten” oder “Zeige Schnecken” durchsucht werden. Im Anschluss wird schließlich das Rechercheportal angewiesen Insekten oder Schnecken anzuzeigen.

Der Test

Im folgenden Video testet Douglas seinen Hack. Mit ein wenig Geduld und Hartnäckigkeit (das Laptop für die Sprachverarbeitung ist nicht besonders schnell) werden schließlich Insekten und Schnecken angezeigt.

Douglas testet die Spracherkennung, Lizenz: CC-BY-SA

Wie geht es weiter?

Der kleine Hack zeigt schon eindrucksvoll wohin die Reise gehen kann. Aber noch besser wäre es, wenn wir nach den wissenschaftlichen Namen der einzelnen Arten suchen könnten. “Hey Mediasphere! Zeige Diponthus dispar!" oder “Hey Mediasphere! Zeige Asperitas notabilis" klingt doch großartig.

Dafür bedarf es jedoch zuerst eines speziellen Sprachkorpus, der die einzelnen Bezeichnungen der Arten beinhaltet. Vielleicht könnte dieser ähnlich dem Common Voice-Projekt von Mozilla durch die Community erstellt werden. Aufbauend auf diesen Daten müsste dann ein Sprachmodell trainiert werden, welches die entsprechenden Anfragen erkennen kann. Als frei verfügbares Modell steht es dann schließlich für verschiedenste Anwendungen zur Verfügung, z.B. für die Realisierung einer sprachgesteuerten Augmented-Reality Anwendung.

Also es gibt viel Potential! Und nochmals vielen Dank an Douglas für den kleinen Hack.

P.S. Im Hintergrund summt unser 3D-Drucker und druckt ein passendes Gehäuse für den kleinen Minirechner.