Alexa bekommt Augen Wissenschafter rüsten die intelligenten Lautsprecher auf. Bald beobachten sie uns und lassen sich per Handzeichen steuern – oder besser gesagt: dirigieren. Adrian Lobe

Die richtige Stelle im Rezept muss man nicht mehr suchen – intelligente Lautsprecher wissen, wann sie den nächsten Abschnitt vorlesen müssen. (Bild: Shutterstock)

Die Menschen hören auf Alexa, Siri, Cortana und Google. Jedenfalls in Amerika. Dort besitzen mittlerweile 31 Prozent aller Haushalte einen sogenannten Smart Speaker wie Amazon Echo oder Google Home. Das hat eine Studie der Consumer Technology Association (CTA) ergeben.

Mit diesen intelligenten Lautsprechern kann man kommunizieren, und sie können andere Geräte im Haus steuern. Eine Fernbedienung ist überflüssig. Mit der Sprachsteuerung Alexa beispielsweise kann man die Mikrowelle genauso ansteuern wie die Badewanne, die Jalousien oder die Toilette. Sofern diese Infrastruktur internetfähig ist.

Der laufend mithörende Netzwerklautsprecher hat sehr gute Ohren. So kann das System mit der künstlichen Intelligenz aus der menschlichen Stimme zahlreiche Informationen extrahieren, etwa ob der Sprecher krank oder gut gelaunt ist. Augen haben Smart Speaker aber noch nicht: Sie sehen nicht, welche Gegenstände im Raum sind und wie der Sprecher gestikuliert. Das könnte sich bald ändern.

Wissenschafter der Universität Carnegie Mellon University haben Sensoren entwickelt, mit denen es möglich sein soll, Gesten und Objekte im Raum zu erkennen. In einem Versuch wurden verschiedene internetfähige Geräte mit sogenannten Lidar-Sensoren ausgestattet, einer dem Radar ähnlichen Methode zur optischen Abstands- und Geschwindigkeitsmessung. Das Verfahren funktioniert grob gesagt so: Das System sendet einen Strahl aus, der von einem Objekt – etwa einer Tischkante oder einer Hand – reflektiert wird. Aus der Zeit, die vergeht, bis das Lichtsignal an den Sensor zurückgeworfen wird, errechnet die Software den Abstand und die Koordinaten des Oberflächenpunkts. Lidar ist eine Technik, die vor allem beim autonomen Fahren zum Einsatz kommt, wo auch Sprachsteuerung eine grosse Rolle spielt.

Kochhandlungen werden per Sensor registriert

Die Forscher programmierten für Amazon Alexa eine Koch-App. Wenn die App den nächsten Schritt des Rezepts diktiert, zum Beispiel «12 Gramm Nüsse unter den Teig rühren», scannen die Sensoren nicht nur das Küchengerät (den Rührer oder Mixer), sondern auch die Bewegungen des Anwenders – das KI-System kann dann, wenn der Arbeitsschritt erledigt ist, zum nächsten Punkt übergehen. Theorie und Praxis gehen Hand in Hand.

«Habe ich das verdient?»

Für das Konkurrenzprodukt Google Home entwickelten die Forscher eine Musik-Player-Demo, bei der sich die Musik über Berührungen auf dem Tisch steuern lässt. Wenn der Nutzer auf den Tisch tippt, pausiert die Musik oder läuft weiter. Durch leichtes Streifen nach oben oder unten lässt sich die Lautstärke regulieren. Der Tisch wird zum Touchpad, jeder beliebige Punkt zur Play-Taste.

Die Lidar-Technik ist sogar in der Lage, im Nahbereich von unter drei Metern spezifische Gesten des Nutzers wie etwa eine geballte Faust oder ein mit zwei Händen geformtes Herz zu erkennen. Wenn dem Smart Speaker ein künstliches Auge implantiert würde, müsste man nicht mehr «Stopp!» oder «Wie bitte?» rufen, sondern einfach die Hand heben. Der Hausherr würde im Smart Home wie ein Kaiser regieren – und die digitalen Diener befehligen, indem er einfach den Daumen hebt oder senkt.

Solche Features mögen auf den ersten Blick attraktiv erscheinen. Doch sie bergen erhebliche Risiken für die Privatsphäre. Zwar ist die Reichweite der Sensoren auf wenige Meter begrenzt. Die Technik könnte aber sensible Raumdaten in Privatwohnungen erheben (zum Beispiel, wie viele Möbel jemand im Zimmer stehen hat) und verdächtige Gegenstände wie etwa Messer oder Schusswaffen detektieren.

Amazon hat vor einiger Zeit eine vernetzte Kamera namens Echo Look auf den Markt gebracht, mit der der Netzwerklautsprecher Echo mit Quasi-Sehfähigkeit ausgestattet wurde. Der Kunde kann per Sprachbefehl («Alexa, mach ein Foto von mir!») Fotos zweier verschiedener Outfits machen, die dann über die sogenannte Style-Check-Funktion von einem Computer bewertet werden. Datenschützer befürchten, dass Amazon noch viel mehr aus den Ganzkörperfotos seiner Kunden ablesen kann, etwa ob sie schwanger, übergewichtig oder depressiv sind. Die Frage ist: Was sieht die Technik alles?

Wenn man den Stinkefinger zeigt, sieht das die Maschine

Denkbar ist, dass sich Amazon Echo automatisch abschaltet, wenn man dem Lautsprecher den Stinkefinger zeigt. Schon heute verweigert Siri mit dem pikierten Hinweis «Habe ich das verdient?» den Dienst, wenn man ihr «Halt die Klappe!» zuruft – der Sprachassistent schaltet dann auf den Home-Bildschirm.

Das Leben in der Überwachungsgesellschaft hat zwei Seiten: Virtuelle Assistenten wie Siri und Alexa stehen rund um die Uhr zur Verfügung– der Nutzer aber auch permanent unter Beobachtung.