10.2.2 Markow-Ketten


Wir Menschen haben gelernt, Sprache mit Hilfe von Buchstaben und Zeichen in Büchern zu notieren. Eine Sprache zeichnet sich dadurch aus, dass Worte und Zeichen in einer bestimmten Form und Reihenfolge aufeinanderfolgen, so dass sie für uns Menschen einen Sinn macht.

Ein Computer kann einen Text in einzelne Bestandteile zerlegen und daraus einen Zustandsgraphen bauen, in welchem die gefundenen Reihenfolgen der Sprachbestandteile abgebildet wird.

Beispiel:

Der Text "eine eintagsfliege ist ein insekt." wird zerlegt und aufeinanderfolgende Sprachbestandteile werden mit Pfeilen verbunden dargestellt.

Dabei kann der Grad der Zerlegung festgelegt werden, indem man die Länge zusammengehörender Sprachbestandteile festlegt:

  • Grad 1: 1 Zeichen oder Buchstabe
  • Grad 2: 2 Zeichen oder Buchstaben
  • ...
  • Grad 6: 6 Zeichen oder Buchstaben

Dabei entstehen Zustandsgraphen:

Markow-Zustandsgraphen


Stochastische Erzeugung von Sprache

Auf der Basis erzeugter Zustandsgraphen kann ein Computer mit Hilfe eines Zufallgenerators neue Sprachketten erzeugen, indem Übergänge zufällig aneinander gereiht werden.

Solche zufällig erzeugten Zeichen-Ketten werden auch Markow-Ketten genannt (nach dem russischen Mathematiker Andrei Markow).

Übung:

  • Öffne folgende App: Markow-Ketten

  • Lade den Trainingstext "text_kurz".

  • Analysiere diesen Text mit einem Grad deiner Wahl und erzeuge verschiedene Zufallstexte mit unterschiedlichen Längen.

  • Überlege dir, welchen Zusammenhang es zwischen der Länge des Trainingstextes, dem Grad der Analyse und der Qualität des erzeugten Zufallstextes gibt.


Syntax und Semantik

Der Begriff "Syntax" bezeichnet die in einer Sprache übliche Verbindung von Wörtern zu Wortgruppen und Sätzen. Wenn die sprachlichen Einheiten in einem Satz korrekt verknüpft sind, dann sagt man, dass der Satz syntaktisch korrekt ist.

Der Begriff "Semantik" bezeichnet die Bedeutung der Zeichen und Zeichenfolgen in einer Sprache.

Ein von einem Markow-Generator erzeugter Satz kann so aussehen, als ob er sytaktisch korrekt wäre, hat aber semantisch keine sinnvoll erkennbare Bedeutung.

Goethe-Markow-Kette (Zauberlehrling, Grad 6)

hat der alte besen, nimm die schlechten lumpenhüllen! auf zwei beinen willen! bist schon lange knecht gewesen! besen, steh doch einmal wegbegeben! und sie laufen! naß und nun sollen sei ein kopf, eile nun und gehe mit dem scharfen beile schon als geister! herr und mit blitzesschnell herein, ach, er läuft zum ufer nieder; krachend trifft die geistesstärke tu ich wunder auch.


Balzac-Markow-Kette (Balzac Biographie, Grad 6)

balzac, il fait dix ou douze fois;—aussi une pièces de passait franchir le fils d'albion, drapée de tours, sur l'escalier au sortir d'un œil de plainte; ce sont alors, entre le perse, à fenêtre festonnée de poésie, de votre serviteur.


Dickens-Markow-Kette (Weihnachtsgeschichte, Grad 6)

marley's funeral, and was so dense without, that, although the crowded paths of life, warning out afterwards, above the palpable brown air. the mention of marley was dead? of course he did. nobody ever struck out generous fire; secret, and was bitterer than therefore, permit me to have though they often came down hands upon a time—of all the grindstone, scrooge! a squeezing up and didn't know where to him.

Die Markow-Ketten haben einen akzeptablen Grad von syntaktischer Korrektheit, machen semantisch aber keinen Sinn.

Auf diese Weise kann der Computer keine sinnvollen Texte erzeugen. Man ist noch weit entfernt von einer Sprach-KI.


Übung

  • Öffne folgende App: Markow-Ketten

  • Experimentiere mit möglichen Parametern zu den gegebenen Texten.

  • Lade eigene Texte als Textdatei in die App und experimentiere damit.

Hinweis: Bei den langen Texten (Goethe, Balzac und Dickens) sollte der Graph ausgeschaltet werden, da die Verarbeitung sonst zu lange dauert.