Unicode


Sprachen der Welt

Weltweit gibt es mehrere tausend Sprachen. Viele dieser Sprachen sind eng miteinander verwandt. Man hat miteinander verwandte Sprachen in etwa 200 Sprachfamilien zusammengefasst und zusätzlich etwa 100 einzelne von anderen unabhängige Sprachen gefunden. Die hundert meistgesprochenen Sprachen sind in folgender Grafik aufgeführt:

Viele Kulturen haben Schriftzeichen entwickelt, um die gesprochene Sprache aufschreiben zu können. Im folgenden ist eine Auswahl von Schriftzeichen aufgelistet.


Lateinische Schriftzeichen
  • Nordamerika
  • Südamerika
  • Westeuropa
  • Mittel- und Südafrika
  • Ozeanien


Arabische Schriftzeichen
  • Nordafrika
  • naher Osten


Kyrillische Schriftzeichen
  • Russland und benachbarte Länder
  • Balkan


Griechische Schriftzeichen
  • Griechenland


Chinesische Schriftzeichen
  • China


Japanische Schriftzeichen
  • Japan


Hebräische Schriftzeichen
  • Israel


Koreanische Schriftzeichen
  • Korea


Tibetische Schriftzeichen
  • Tibet


Singhalesische Schriftzeichen
  • Sri Lanka


Bengalische Schriftzeichen
  • Indien
  • Bangladesch


Emoji Symbole

In aktuellen Kommunikationsapps werden Symbole, sogenannte Emojis, als Schriftzeichen in der digitalen Kommunikation verwendet:


UNICODE

Seit den 1990er Jahren des letzten Jahrhunderts wurden immer mehr Länder an das Internet angeschlossen. Dadurch wuchs der Wunsch, dass die Internet-Browser nicht nur die dominierenden lateinischen Schriftzeichen, sondern auch die jeweilige Landessprache mit den landestypischen Schriftzeichen darstellen können. Die Vielzahl der Sprachen und die Vielfalt der verwendeten Schriftzeichen machten die Verwirklichung dieses Wunsches schwierig.

Parallel zur Entwicklung des Internets begann eine gemeinnützige Organisation die vorhandenen Schriftzeichen und die von Menschen verwendeten Symbole zu sammeln und in einer Datenbank zu dokumentieren: Das Unicode Consortium.

  • Im Jahr 1991 wurde die Version 1 von Unicode als Idee veröffentlicht, eine solche Datenbank aufzubauen und es wurde überlegt, wie eine solche Datenbank aussehen könnte: Unicode Version 1.0.0.

  • Im Sommer 2021 ist die aktuelle Version von Unicode die Version 13 aus dem Jahr 2020: Unicode Version 13.0.0.

  • Die in die Datenbank aufgenommenen Schriftzeichen und Symbole sind öffentlich einsehbar: Unicode Code Charts.

  • Eine werbefinanzierte Übersicht der verfügbaren Unicode-Schriftzeichen bietet die Seite unicode-table.com


UTF-8

Einem Schriftzeichen in der Unicode-Datenbank ist eine eindeutige Unicode-Nummer zugeordnet. Dieser Unicodenummer wird mit einem geeigneten Verfahren ein Binärcode zugeordnet, damit einem Computer der Wunsch mitgeteilt werden kann, dieses Schriftzeichen darzustellen.

Das dazu heutzutage meistverwendetste Verfahren ist das UTF-8-Verfahren, das inzwischen von mehr als 90% aller Internetseiten verwendet wird: UTF-8. Im RFC-3629 wird der Standard für das UTF-8-Verfahren festgelegt.

Nachdem einem Unicode-Schriftzeichen durch das UTF-8-Verfahren ein Binärcode zugeordnet wurde, soll der Computer das angeforderte Schriftzeichen darstellen. Dazu benötigt der Computer DesignerInnen, welche die Schriftzeichen zeichnerisch entworfen haben. Der grafische Entwurf eines Schriftzeichens wird in einer Schriftart (Font) gespeichert.

  • Wenn eine Schriftart verfügbar ist und diese Schriftart ein Symbol für einen bestimmten Unicode bereithält, dann kann das entsprechende Schriftzeichen dargestellt werden.
  • Wenn in einer verfügbaren Schriftart kein Symbol für einen bestimmten Unicode bereitgestellt wurde, dann wird nur ein leeres Rechteck oder einfach nichts angezeigt.

Der Zusammenhang zwischen den drei Bausteinen zur Darstellung beliebiger Schriftzeichen wird in der folgenden Grafik dargestellt:


Anbieter von Schriftarten

Es gibt kostenfreie Schriftarten, die jeder in seinen Dokumenten und auf Webseiten verwenden kann. Auf vielen Webseiten werden die kostenfreien Schriftarten von Google verwendet: Google Fonts.

Google bietet auch Schriftarten für sehr selten verwendete Schriftzeichen aus der Unicode-Datenbank an: Google Noto.

Ein werbefinanzierter Anbieter von kostenlosen und kostenpflichtigen Schriftarten mit einer Suchfunktion für Unicode-Schriftzeichen ist: FontSpace.


Encodierung und Decodierung von Unicode-Schriftzeichen

Unicode-Schriftzeichen können in einer geeigneten Software verwendet werden (z.B. Textverarbeitungsprogramm) oder auf einer dafür vorbereiteten Webseite dargestellt werden. Für exotische Unicode-Symbole muss eine Schriftart gefunden werden, welche das Symbol darstellen kann.

In der folgenden App kann für eine Unicode-Nummer das zugeordnete Schriftzeichen dargestellt werden (Decodierung) oder es kann ein Symbol eingegeben werden und es wird der zugehörige Unicode ausgegeben (Encodierung).

In einem neuen Fenster starten: Cryptii


Übung 1: Schach

  • Ergänzen Sie das Schachbrett, so dass ein vollständiges und richtig positioniertes Schachspiel aufgestellt wird.

  • Öffnen Sie dazu den p5.js-Blockly-Editor durch einen Klick auf den angegebenen Internet-Link: Schachbrett.
  • Ignorieren Sie den Programmteil, welcher das Schachbrett erzeugt.
  • Kopieren Sie einen Block für eine Spielfigur, fügen diese wieder ein und ändern den Unicode und die Koordinaten, solange bis ein vollständiges Schachbrett mit korrekter Aufstellung entstanden ist.

  • Suchen Sie im Internet nach den Unicodes für die Schachfiguren und nach der korrekten Aufstellung eines Schachspiels.

Übung 2: Chinesische Poesie

Im achten Jahrhundert nach Christus galt Li Bai als einer der bedeutendsten Dichter der Tang-Zeit. Eines seiner bekanntesten Gedichte ist das Gedicht "Nachtgedanken", das auf der Wikipediaseite zu "Li Bai" abgedruckt ist: Wikipedia: Li Bai.

In der folgenden Darstellung des Gedichts sind die auf Wikipedia angegebenen Zeilen von oben nach unten geschrieben:

  • Öffnen Sie den p5.js-Blockly-Editor durch einen Klick auf den angegebenen Internet-Link: Nachtgedanken. Von dem Gedicht sind nur die ersten beiden Schriftzeichen notiert. Vervollständigen Sie das Gedicht.
  • Kopieren Sie die Schriftzeichen einer Zeile des Gedichts von Wikipedia in die App "Cryptii": Cryptii starten.
  • Decodieren Sie die chinesischen Schriftzeichen mit Cryptii:

  • Kopieren Sie einen Schriftzeichenblock und fügen Sie die decodierte Unicode-Zahl ein.

  • Verändern Sie die Koordinaten der Schriftzeichen so, dass das Gedicht von oben nach unten notiert wird.

Übung 3: Textverarbeitungsprogramm

Inhalte werden heute zunehmend in Internet-Browsern oder in Apps dargestellt. Wenn Dokumente gedruckt oder wie gedruckt als PDF-Dokument veröffentlicht werden sollen, benutzt man zur Vorbereitung der Druckvorlage ein Textverarbeitungsprogramm wie Word oder Libre-Office.

Unicode-Schriftzeichen können in Textverarbeitungsprogrammen dargestellt werden, indem man das sichtbare Schriftzeichen auf z.B. einer Internetseite mit Hilfe der Maus oder der Tastatur kopiert und in das Textverarbeitungsprogramm einfügt (copy/paste).

  • Erstellen Sie ein Dokument mit drei Seiten in einem Textverarbeitungsprogramm ihrer Wahl:
    • Seite 1: Das Schachbrett mit vollständiger Aufstellung
    • Seite 2: Das chinesische Gedicht "Nachtgedanken" in chinesischer Schreibweise
    • Seite 3: Eine von Ihnen frei gestaltete Seite mit Unicode-Schriftzeichen

Hinweise:

  • Sie sollen keine Bildschirmkopie des Schachbretts oder des Gedichts einfügen, sondern die Seiten mit den Möglichkeiten des entsprechenden Programms mit Unicode-Schriftzeichen setzen.
  • Das Schachbrett können Sie mit Hilfe der Tabellenfunktion bauen. Suchen Sie nach Anleitungen dazu im Internet.
  • Das Gedicht können Sie mit Hilfe von Tabulatoren bauen. Suchen Sie nach Anleitungen dazu im Internet.
  • Wenn Sie ein Unicode-Schriftzeichen aus dem Internet einfügen, dann klicken sie mit der rechten Maustaste auf das Dokument und wählen "nur den Text übernehmen", damit das Schriftzeichen ohne Hintergrundfarbe übernommen wird.