Wie wir so zwitschern

Linguisten dechiffrieren die Mitteilungen des Kurznachrichtendienstes Twitter – und zeigen auf, was Tweets über unsere Präferenzen aussagen. Mit erstaunlichen Ergebnissen.

Adrian Lobe
Drucken
Teilen
Wer zwitschert, gibt Botschaften weiter – sowohl in der Tierwelt wie in den sozialen Medien. (Bild: ky/Laurent Gillieron)

Wer zwitschert, gibt Botschaften weiter – sowohl in der Tierwelt wie in den sozialen Medien. (Bild: ky/Laurent Gillieron)

Es sind nur 140 Zeichen. Doch in den 500 Millionen Tweets, die täglich über den Mikrobloggingdienst versendet werden, stecken mannigfaltige Wahrheiten. Für Linguisten ist Twitter eine Fundgrube. Um herauszufinden, was sich unter dem Textgewebe verbirgt, müssen die Wissenschafter nicht mehr mühsame Einzel- oder Gruppeninterviews führen oder Probanden zu Laborversuchen einladen – die Tweets bieten eine riesige Datenbasis. Das Internet ist ein einziges Labor.

Regionalismen im Netz

Linguisten der Universität Stanford fanden heraus, dass ältere Nutzer dazu neigen, Emoticons (also Smileys oder Ähnliches) mit einer sogenannten Nase zu senden. Sie schreiben also :-) statt :). Nun könnte man das für banal oder belanglos halten. Doch die Studie zeigt auf, dass gerade solche Nutzer eher einer konventionelleren Sprache verhaftet sind als jüngere Nutzer. Die sogenannten «No Nose»-Nutzer hingegen verwenden öfter Kraftausdrücke. Auch lang gezogene Vokale (z. B. «niiiice») sind häufiger bei Jüngeren. Neben dem Alter offenbaren sich auch signifikante Unterschiede in Herkunft, Einkommen und Ethnie der Nutzer.

Zum Beispiel ist der Begriff «suttin» (ein Slang für «something») eng mit der Region Boston verbunden. Dagegen ist das Akronym «ikr» für «I know it right» häufig in Detroit anzutreffen. Diese Dialekte finden sich auch in Twitter wieder. Der Computerlinguist Jacob Eisenstein interessiert sich für die Frage, wie sich solche Regionalismen in sozialen Medien niederschlagen. Gibt es einen eigenen Twitter-Dialekt? «Nicht nur einen», sagt der Forscher. Experten nennen es «Netspeak», eine genuine Sprachfärbung oder einen Soziolekt des Internets.

Interessant für Marktforschung

Die Sprache hängt dabei auch mit der sozialen Herkunft zusammen. Tweets, die etwa das Wort «awesome» enthalten, werden meist von wohlhabenden Standorten gesendet. Emoticons stammen dagegen häufig von Hispanics. Auf eine Formel gebracht: Du bist, was du twitterst. «Die Sprache ist ein Fenster in die Wahrnehmung der persönlichen Identität», sagt Eisenstein.

Die Erkenntnisse sind natürlich auch für die Marktforschung von Interesse. Durch die Aggregation und Auswertung von Tweets lässt sich quantitativ die Nachfrage nach Produkten ermitteln. Zum Beispiel, wie oft ein neues Automodell oder eine Limonademarke getwittert wird. «Die Häufigkeit der Nennung indiziert die Beliebtheit eines Produktes», sagt Bryan R. Routledge von der Carnegie Mellon University (CMU) in Pittsburgh. «Man kann über die Hashtags statistisch genau erfassen, über was gesprochen wird. Manche Twitter-Themen korrelieren mit dem Kaufverhalten.» Sogenannte «Brand Tweets» können dann gezielt lanciert werden. Studien belegen, dass dadurch die Nachfrage signifikant steigt.

Aber auch qualitative Analysen geben Aufschluss über die Inhalte. Der Computerlinguist Noah A. Smith und sein Team von der School of Computer Science der CMU konnten anhand von Zeitungsartikeln den (kommerziellen) Erfolg von Kinofilmen voraussagen. Smith gilt als Spezialist des Natural Language Processing (NLP), ein Forschungsbereich, bei dem es um die Frage geht, wie intelligente Computerprogramme Texte in ihre kleinsten Sinneinheiten zerlegen. Im NLP verbinden sich Linguistik, Semantik und Statistik. Diese Technik lässt sich auch auf Tweets übertragen. Zum Beispiel könnte man in Echtzeit herausfinden, wie viele Leute demnächst einen Kaffee trinken.

Die automatische Interpretation von Sprache ist kompliziert, selbst wenn es sorgfältig editiert wird. Der Vorteil von sozialen Medien bestehe darin, dass die Sprache «lockerer ist und weniger Konventionen wie in Zeitungsartikeln folgt», so Smith. «Ich denke, wir benötigen gar keine perfekte Interpretation von jedem Tweet, um vernünftige Aussagen über das Verhalten zu treffen.» Der Forscher feilt an Algorithmen, die Tweets nach bestimmten Kriterien filtern. Es sind hochkomplexe Konstrukte aus Stochastik und Algebra.

Eingeschränkte Aussagekraft

Wissenschafter der Universität Vermont entwickelten vor kurzem einen Glücksindex auf der Grundlage von Tweets. Der «Hedonometer» durchforstet täglich 50 Millionen Mitteilungen. Die Forscher codierten Wörter wie «glücklich», «Kirsche», «jail» oder «down» und ordneten sie auf einer Skala von 1 bis 10 an. Auf einer Landkarte für die USA liessen sich Stimmungen und Entwicklungen ortsspezifisch nachzeichnen. Derlei Daten sind für die Werbeindustrie hoch interessant. Wer glücklich ist, wird eher auf Annoncen anspringen, als jemand, der traurig ist.

Der Nachteil von solchen Erhebungen ist jedoch, dass die Twitter-User kein repräsentatives Abbild der Gesellschaft darstellen. Die Nutzer leben meist in Städten und sind überdurchschnittlich jung.

Damit schränkt dies auch die Aussagekraft ein. Gleichwohl erfasst man mit der urbanen Mittelschicht die werberelevante Zielgruppe. Und darum geht es. «Ich denke, Twitter kann am besten das messen und aggregieren, was die Leute gerade tun», sagt Routledge. Der Datensatz ist für Marktforschungsinstitute Gold wert. Mithilfe von Statistiken und ausgefeilter Messinstrumente lassen sich die Präferenzen der Internetnutzer exakt bestimmen – und bisweilen sogar antizipieren. 140 Zeichen sagen manchmal mehr als Worte.