Text-Analytics & Text-Mining
Text-Analytics und Text-Mining im Aufwind: Was versprechen sich Investor:innen, wenn sie ihr Geld dafür einsetzen, geschriebene Texte und gesprochene Redebeiträge zu erfassen, zu kategorisieren und zu imitieren? Eine ganze Branche ist damit beschäftigt, die zahlreichen Textspuren potenzieller Kund:innen im Internet auszuwerten, um die Customer Journey zu rekonstruieren. Doch was geht überhaupt? Was geht (noch) nicht?
Was ist Text-Analytics?
2011 verblüffte Ibm Watson in der Quizshow Jeopardy mit einem Sieg gegen zwei menschliche Kandidaten das Publikum. Sprachverarbeitung auf diesem Level war bis anhin so etwas wie die Königsklasse in der Entwicklung kognitiver Systeme. Fünf Jahre später trainieren neben IBM Watson auch Microsoft Azure oder Googles DeepMind ihre Programme mit Textmaterialien aus literarischen Texten, funktionalen Texten, Kundenbewertungen, Tweets, Facebook-Posts oder ähnlichen unstrukturierten Textdaten. Und Endprodukte wie die Spracheingabeprogramme Siri oder Coltrane haben den Weg in unseren Alltag längst gefunden.
Die Einsatzmöglichkeiten maschineller Sprachverarbeitung und -auswertung (Text-Mining) waren im Sommer das Thema an der ersten Text-Analytics-Konferenz SwissText2016 in Winterthur. Und wer die Bestrebungen Googles verfolgt, ahnt, warum der Suchmaschinenbetreiber im Juni 2016 in Zürich ein großes Forschungszentrum zur Weiterentwicklung der Machine-Learning-Forschung und im Speziellen dem Natural Language Understanding auf den Weg brachte.
Doch woher kommt das Interesse aus der Industrie? Was versprechen sich die Investor:innen, wenn sie ihr Geld dafür einsetzen, unstrukturierte Daten – also geschriebene Texte und gesprochene Redebeiträge – zu erfassen, zu kategorisieren und zu imitieren? Die Intention ist auf den zweiten Blick eindeutig. Wer gut verkaufen will, muss seine Zielgruppe verstehen und daher geht es um das große Ganze: die Rekonstruktion der Customer Journey. Denn die potenziellen Kund:innen hinterlassen immer mehr Textspuren im Internet und in den CRM-Daten, sodass eine ganze Branche damit beschäftigt ist, diese auszuwerten. Doch was geht überhaupt? Was geht nicht? Und was ist eigentlich erlaubt?
Was bisher geschah
Die linguistische Textanalyse identifiziert schon lange sprachliche Elemente, die die Textfunktion eines einzelnen Textes oder einer Textgruppe definieren. Welche substantive werden in einer bestimmten Textsorte – z.B. Beratungstexten – am häufigsten verwendet? Hat die Verwendung von Pronomen oder der Passiv-Form Einfluss auf das Textverständnis? Solche Auswertungen wurden noch vor wenigen Jahren in aufwändigen Analyseverfahren durchgeführt.
Heute kommen der linguistischen Textanalyse maschinelle Verfahren zur Hilfe. Immer leistungsfähigere Prozessoren und leicht zugängliche große Datensätze in Cloud-Systemen machen die Auswertungen auch für Arbeitsbereiche im Online Marketing interessant. Mit Programmiersprachen wie Python oder R sind große Datenmengen mit vergleichsweise geringem Aufwand auswertbar, um ableiten zu können, welche Begriffe am häufigsten enthalten sind.
Simpelstes Beispiel der Textauswertung: die Wortwolke. Neben Wordwatchers haben sich zahlreiche Sprachwissenschaftler:innen am US-amerikanischen Präsidentschaftswahlkampf abgearbeitet. Das Ergebnis mündet meistens im selben Fazit. Während Hillary Clinton viel über ihre politischen Inhalte und Ziele spricht und dabei ihre errungenen Leistungen und Fähigkeiten betont, wählt Donald Trump deutlich weniger Worte, wie die Zusammenfassung zeigt:
Donald Trump fokussiert sich vor allem auf seinen Sieg als Präsident und die Benefits, die die Bevölkerung zu erwarten hat, sollte er Präsident der USA werden. Hier wird nicht nur die inhaltliche Zusammensetzung der Textbeiträge, sondern auch ihr Wortumfang sichtbar. Beides Eigenschaften, die den Text in seiner Aussage und seiner Funktion ausmachen. Die Topics lösen sich so aus den unstrukturierten Textdaten heraus und machen die gesamthafte Bedeutung annähernd erkennbar.
Diese Form der quantitativen Textanalyse wird nicht nur in Wahlkämpfen gerne zur Veranschaulichung verwendet. Gerade Fachbereiche, welche mit sehr formalisierten Texten arbeiten, nutzen häufig maschinelle Verfahren der Textanalyse.
So werden juristische Texte wie Versicherungstexte oder Gesetzestexte häufig maschinell auf inhaltliche Fehler hin untersucht. Mediziner:innen untersuchen medizinische Texte wie Medikament-Beschreibungen oder Fachbeiträge in Publikationen mithilfe von speziellen Suchmaschinen per Freitextsuche nach Symptomen, sodass sie geeignete Medikamente zu bekannten Symptomen schnell finden.
Forensische Linguist:innen untersuchen Erpresserschreiben oder Drohbriefe, um Rückschlüsse auf die Autor:innen ziehen oder Fälle von Korruption aufdecken zu können. Ein bekanntes Beispiel für die Anwendung von Text-Analytics aus den letzten Monaten ist die Auswertung der umfangreichen Daten der Panama Papers, die aufgrund der maschinellen Auswertung der Textmaterialien möglich war.
Auch der Fachbereich Online-Marketing analysiert und verarbeitet bereits große Textmengen mittels quantitativer Verfahren. Häufig um automatisiert Werbung in den richtigen thematischen Kontext zu platzieren. Ein verbreiteter Anwendungsfall ist weiterhin die Sentiment-Analyse, welche Kundenfeedback oder Kundenbewertungen nach negativen oder positiven Aussagen kategorisiert, um schnell mit den Kund:innen in Interaktion treten zu können. Zudem lassen sich die Kommunikationsstrategie von Webseiten mittels quantitativer Textauswertungen rekonstruieren oder Trendthemen identifizieren.
Formen der Suchmaschinenoptimierung nutzen automatisierte Textauswertungen, um eine große Anzahl an Textdokumenten inhaltlich verstehen und miteinander in Bezug – etwa ein Ranking – setzen zu können. Das bezieht sich nicht nur auf die großen weithin zugänglichen Internetsuchmaschinen, sondern auch auf die interne Suche in Webseiten oder elektronisch erfasste Bibliothekssysteme. Welche Anwendungsfälle gibt es?
Kurz gesagt: Text-Analytics ist gut geeignet, um unstrukturierte Textdaten zu kategorisieren und eine inhaltliche Interpretation umfangreicher Textmaterialien vornehmen zu können. Schauen wir uns einige Beispiele an:
Zielgruppe verstehen (R)
Wer sagt was? Und mit welchen Worten? Kaylin Walker veranschaulicht in ihrer Auswertung die Sprachbeiträge der South-Park-Protagonisten. Hier wird schnell ersichtlich, dass gewisse Personen deutlich häufiger fluchen als andere. Eine gute Methode, um einen personenspezifischen Wortschatz identifizieren, um ihn besser verstehen zu können.
Kurze Texte / ähnliches Thema: Thema und Themenverwandtschaften verstehen (Wordsmith Tools)
Wollen wir viele kurze Texte zu einem ähnlichen Thema auswerten, zeigt die Magisterarbeit von Jesse Taina zu Songtexten unterschiedlicher Musikbands des Genres Heavy Metal einen interessanten Weg. Die Auswertung zählt in allen Texten bereits definierte Begriffe aus einem Keyword-Set. So fällt auf, dass der Begriff „life“ offensichtlich ein wichtiges Inhaltselement ist, da es nahezu in jedem Sub-Genre vergleichsweise häufig verwendet wird. Diese Form der Auswertung ist bei der Analyse von kurzen, thematisch ähnlichen Texte gut geeignet.
Lange Texte / unterschiedliche Themen: Unterschiede in der Themengestaltung erkennen (Python)
Dimitris Spathis veranschaulicht in seiner Auswertung, wie sich das Hauptthema von jeweils vier Jugendromanen zusammensetzt. Anders als bei den Songtexten, umfasst das Textmaterial einen variantenreicheren Wortschatz und es lohnt sich daher, nicht nur einzelne Begriffe, sondern ganze Phrasen auszuwerten. In dieser Visualisierung wird sichtbar, ob ein Text in der Erzählerform (Hunger Games = „I“) oder durch ein Dritte person, die nicht in Erscheinung tritt, erzählt wird. Diese Form der Auswertung lohnt sich immer dann, wenn umfangreiches Textmaterial zur Verfügung steht, wie das auch bei redaktionell geführten Textinhalten wie bei Publisher-Seiten oder einem Blog der Fall ist. Es lässt sich ableiten, wie in den Texten der Leser angesprochen wird und welches Thema im Fokus steht.
Anwendungsbeispiel – Wiki vs. Trump
Nach allen Auswertungen bleibt nun die Frage nach dem Nutzen und den Ergebnissen. Nehmen wir an, ein definierter Referenztext erzielt gewünschte Zielsetzungen (z.B. viele organische Suchergebnisse, gute Klickraten, hohe Besucherzahlen, hohe Interaktion via Social Media). Wünsche ich diese guten Ergebnisse auch für meinen Text, liegt es nahe, die Eigenschaften dieses Textes genauer zu untersuchen.
Nehmen wir an, dass der „Trump-Stil“ – bei allen seinen Schwächen – die Fähigkeit besitzt, kurz und provokativ Aussagen auf den Punkt zu bringen, die – auch mittels ungewollter Komik – im Gedächtnis haften bleiben. Stellen wir uns weiterhin vor, der zu Anfangs identifizierte „Trump-Stil“ soll verwendet werden, um den Plot des Romans „Lord of the Rings“ zu formulieren. Hierzu benötigen wir zunächst die Quintessenz des Romaninhalts – also den Plot. Diesen finden wir knapp und sachlich bei Wikipedia formuliert:
Diese inhaltliche Essenz des Romans überführen wir in eine Wortwolke. Somit bleiben uns als Topics folgende Elemente:
Wir sehen, dass einzelne Personen, aber ganz besonders der „Ring“ im Vordergrund stehen. Über die Handlung selbst wissen wir jedoch nicht viel, was die manuelle Auswertung – jemand muss zudem den Plot exzerpieren – nötig macht. Diese Situation vermittelt einen guten Eindruck davon, welche Einsatzgebiete dem Bereich „Text-Analytics“ Schwierigkeiten bereiten: die Häufigkeitsanalyse löst die verwendeten Topics maschinell heraus, die inhaltlichen Zusammenhänge bleiben jedoch verborgen. Besonders auffällig wird dies bei kontextueller und indirekter Bedeutung wie Ironie oder Sarkasmus. Außerdem bleiben bei Auswertungen wie diesen jegliche Formen der negativen oder positiven Bewertung außen vor.
In unserem Anwendungsfall verwenden wir nun den Stil und die Bewertungselemente Donald Trumps und die inhaltliche Grundlage aus dem Wikipedia-Plot. Der Text würde in wenigen Worten und stark übertrieben die Verdienste Donald Trumps in den Vordergrund stellen und folglich ungefähr in der Art gestaltet sein, wie es auf Twitter Trev Don unter dem Hashtag #trumpexplainsmovieplots auf den Punkt brachte:
Fazit
Anwendungsbereiche der Textanalyse oder Text-Analytics helfen dabei, aus unstrukturierten Textdaten die inhaltliche Quintessenz zu generieren, aus welcher ein neuer Text im neuen Stil entstehen kann. Schwierigkeiten hat die maschinelle Textauswertung nach wie vor mit bewertenden Formulierungen, ganz besonders mit Ironie oder Sarkasmus.
Bedeutungen, die ein Mensch aufgrund jahrelanger Spracherfahrung und einem umfangreichen Kontext (z.B. Gesichtsausdruck, Kenntnis der Person, Kenntnis von ironischen Kontexten) intuitiv entschlüsseln kann, stellen Maschinen aktuell noch vor Schwierigkeiten. Allerdings ist anzunehmen, dass es nur eine Frage der Zeit und eine Frage der Datenmenge ist, bis Maschinen auch diese sprachlichen Kniffe korrekt verarbeiten können.
Es lohnt sich also, jegliche sprachliche Elemente innerhalb der eigenen Webseite auf diese Situation vorzubereiten. Text-Analytics bzw. die linguistische Textanalyse helfen uns im Online-Marketing in drei Arbeitsschritten:
1. Auswertung (IST-Zustand –
Referenztexte & eigene Texte)
- Texte einer Webseite erfassen (& aus Quelltext herauslösen)
- Texte nach Themen kategorisieren
- Texte bereinigen (z.B. Stoppwörter entfernt)
- Wörter markieren (z.B. Verben, Substantive, Pronomen, etc.)
- Wörter zählen
- Häufigste Phrasen zählen
- Wichtigste Begriffe als Set definieren (auch für späteres Monitoring)
2. Interpretation
- Sprachliche Muster ableiten
- Inhaltliche & strukturelle Interpretation erstellen
3. Handlungsanweisung (Soll-Zustand)
- Z.B. Sitemap einer Webseite erstellen
- Themen für Webseite definieren
- Handlungsanweisungen (Briefing) für Texterstellung erstellen
- Text-Review auf Basis der Recherche durchführen (fundierte Qualitätssicherung)
4. Monitoring
- Interaktionen (z.B. Social Media) mit dem Text auswerten
- Organische Suchergebnisse erfassen
- Ggfs. Optimierungsmaßnahmen ableiten und bei Punkt 1 wieder beginnen
Epilog
Natürlich ist die Einhaltung von Datenschutzrichtlinien beim Thema Text-Analytics eine Voraussetzung. Besondere Sorgfalt gilt gegenüber allen Kundendaten, die erfasst werden. Und wie in allen Bereichen der Statistik, leben auch die Ergebnisse aus der Textanalyse von der Qualität der Daten. Hier kommt das Aufwand-Nutzen-Verhältnis zum tragen. Werden alle Textmaterialien der eigenen Webseite den Textmaterialien beispielsweise der Mittbewerber:innen gegenübergestellt, müssen die Daten vorab bereinigt und kategorisiert werden. Ein Aufwand, der sich nur durch eine klare und einhaltbare Zielsetzung rechtfertigen lässt.
Zur Unterstützung sind zahlreiche Tools verfügbar, die von sich behaupten, optimal Textdaten auswerten zu können. Doch auch hier ist der erste Schritt – die Texterfassung – der schwierigste. Gerade dann, wenn Textmaterialien in verschachtelten Templates einer Webseite eingebaut sind. Zudem sind die größten Tools im Kontext der (weil größerer Sprachraum) englischen Sprache entwickelt worden. Das heißt nicht immer, dass diese auch optimale Ergebnisse für anders sprachige Textdaten liefern. Das ist kein Problem, da das Tool-Setup oft eine manuelle Nachbearbeitung ermöglicht. Doch dieser Mehraufwand ist immer im Projekt einzukalkulieren.
Auswahl: Hilfreiche Tools
– Antconc – Konkordanz-Programm für Korpusanalysen
– Monkey learn – Machine Learnng API für die automatisierte Text Klassifikation
– Voyant Tools – Web-basiertes Lese- und Analyse-Tool für digitale Texte
– Import.io – Web-basiertes Tool, um Texte aus Webseiten zu extrahieren
Darüber hinaus natürlich:
Selbstgebaute Auswertungsverfahren mit dem Natural Language Toolkit mit Python oder mit R.