‚Redaktionen kann man nicht automatisieren‘

In den USA launcht Wolfram Alpha, Google revolutioniert seine Suchergebnisse, alle Welt wartet auf eine smartere Internetsuche. Der Linguist Manfred Stede arbeitet an einer Maschine, die Texte für den Nutzer auswählt und zusammenfasst. Wie effizient das bereits funktioniert, lässt sich bei Nandoo.net ausprobieren, in das seine Arbeit einfließt. Von einem echten Verständnis, sagt der Professor der Universität Potsdam, seien Maschinen noch weit entfernt. Trotzdem könnten sie uns besser mit Informationen versorgen. Sein Tipp: Crowdsourcing

Anzeige

Wie lange wird es dauern, bis eine Maschine uns morgens beim Frühstück unsere individuelle Zeitung vorliest?

Das Vorlesen geht schon ziemlich gut, das Problem von Text-to-Speech ist  unter Kontrolle. Auch von einer Maschine, die Texte auswählt, sind wir nicht mehr sehr weit entfernt. Man kann mit probaten Verfahren Feedback von Usern einholen und daraus schließen, welche Artikel relevant sind und dann das Nutzerprofil immer weiter verfeinern.

Wie funktioniert eine Maschine wie Ihr SUMMaR?

Wir nehmen zum Beispiel Film-Rezensionen und fassen diese zusammen. Für einen Film wie „Matrix“ etwa findet man zahlreiche Rezensionen im Internet. Wir wollen daraus ein Dokument mit dem Fazit erstellen, wieviele Rezensenten den Film gut, schlecht oder neutral bewerteten und aus welchen Gründen. Wir hoffen, das ohne inhaltliches Wissen leisten zu können. Denn wir verfügen über Wissen über den Aufbau von Textsorten – wie etwa einer Rezension. Damit können wir gezielt nach Titel, Darstellerlisten oder Meinung suchen und dann mehrere Texte zu einem einzigen zusammenfassen. Dabei extrahieren wir im Prinzip die typischsten Sätze aus Dokumenten.

Ist das ein erster Schritt zu einer Maschine, die tiefer in den Sinn von Sprache eindringt und schließlich natürliche Sprache – menschliche Umgangssprache – „verstehen“ kann?

Das würde ich nicht behaupten. Wenngleich das System die Funktionen einzelner Wörter auswerten kann, heißt das noch nicht, dass es versteht, wovon der Text handelt, was daraus folgt und wie das zu bewerten wäre. Wesentliche Eigenschaften von Sprachverstehen – die Fähigkeit, sich in Inhalte hineinzudenken und eine Einstellung zu diesen Inhalten zu entwickeln – sind nicht unser Thema. Maschinen können heute zwar Ergebnisse berechnen, denen scheinbar ein Verstehen zugrunde liegt – aber dem ist nicht so. Die alte Idee der Künstlichen Intelligenz hat man als Illusion erkannt. Stattdessen gibt es effektive Ansätze, die über sehr große Datenmengen Ähnlichkeiten und Muster suchen.

Sie arbeiten an einer „Textversteh-Maschine“, in den USA launcht gerade die „Wissensmaschine“ Wolfram Alpha, Google hat gerade smartere Suchergebnisse angekündigt. – Werden Maschinen zumindest schlauer?

Das sind verschiedene Dinge. Bei Summar verwenden zur Textzusammenfassung eher oberflächliche Methoden. Wir suchen in verschiedenen Texten, über deren Sorten man etwas weiß, nach Ähnlichkeiten, um dann einzuschätzen, ob auch die enthaltenen Informationen gleich sind. Wir wollen nicht das Wissen dieser Welt modellieren, um Texte inhaltlich zu verstehen. Die Idee von Wolfram Alpha hingegen ist es, eine Frage zu stellen und eine Antwort zu erhalten, die so nicht in dem Text steht. Ähnliche Verfahren werden schon seit geraumer Zeit in der Forschung zur Künstlichen Intelligenz untersucht, jedoch mit begrenztem Erfolg. Die Zukunft von Wolfram Alpha ist zur Zeit noch nicht abschätzbar.

Alle warten auf eine Technik, die den Menschen hilft, die ozeanische Menge von Daten im Internet, besser verfügbar zu machen. Ist die semantische Maschine ein sinnvoller Schritt, über Google hinauszugelangen?

Mir erscheint ein anderer Schritt sinnvoller: Crowdsourcing. Statt Information selber zusamenzusuchen und zu modellieren, lassen immer mehr Services die Informationen von den Usern da draußen generieren. Wikipedia ist da nur ein Beispiel. Das gleiche kann man mit Frage-Antwort-Pärchen tun: Man sammelt nicht Informationen über ein Thema, sondern eine sehr große Menge Frequently Asked Questions. Diese Fragen mit den dazugehörigen Antworten zu systematisieren, zu abstrahieren und zu analysieren, scheint mir vielversprechender. Ich glaube, mit einem solchen datengetriebenen Ansatz kommt man schneller zum Ziel als mit dem reinen Erlernen der Zusammenhänge in der Welt.

Halten Sie es für möglich, dass etwa journalistische Textsorten auch von einem Automaten „geschrieben“ werden?
Journalismus sollte über Wichtigkeit entscheiden. Ich lese eine Tageszeitung, weil ich unterstelle, dass da immer noch eine Redaktion arbeitet. Die darüber entscheidet, was berichtenswert ist und mir das Auswahlproblem abnimmt. Diesen Schritt wird man nicht automatisieren können.

Kann man als Leser zweifelsfrei erkennen, ob ein Text von einem Menschen oder einer Maschine stammt?

Nein, das glaube ich nicht. Manche der Texte, die wir mit dem SUMMaR-Verfahren generieren, sind gut lesbar. Wenn die Sätze nicht völlig aus dem Zusammenhang gerissen sind, ist das nicht unterscheidbar. Und ein schlechter Text kommt auch in der besten Zeitung vor.

Was bedeuten diese neuen Verfahren in der nächsten Zeit für die Medien?

Vor allem, dass man sich als Leser Unterstützung holen kann. Zum Beispiel wenn ich das Gefühl habe, dass meine Tageszeitung etwas einseitig darstellt. Dann könnte ich der Maschine auftragen: „Gib mir zu diesem Thema, was die Konkurrenten schreiben“. Wenn ich das dann in einem Aufguss erhalte, ist das natürlich praktischer, als sechs andere Zeitungen zu lesen. Das wäre eine schöne Ergänzung, um ein Thema zielgenau zu bearbeiten oder zu vertiefen. Bei der Zusammenstellung und Bewertung von Information hilft das nicht. Denn es gibt keinen völlig neutralen Journalismus. Ohne Autorentexte geht es nicht.

Anzeige
Anzeige

Dein Kommentar

Deine E-Mailadresse wird nicht veröffentlicht.

*

Anzeige