Zeichen codieren

1 Der ASCII-Code

Es gibt internationale Standards, die die Binärkodierung von Zeichen genau festlegen. Neben dem Unicode ist der ASCII-Code (Abkürzung für American Standard Code for Information Interchange) der bekannteste und wurde vom American National Standards Institute (ANSI) festgelegt. Er sieht (in der ursprünglichen Version) 7 Bits zur Kodierung vor - es lassen sich also 2^7 = 128 Zeichen darstellen. Der reine ASCII-Code sieht keine Kodierung für sprachspezifische Sonderzeichen (wie Umlaute in der Deutschen Sprache) vor und eignet sich daher nur bedingt für die Kodierung deutscher Texte. Um sprachspezifischen Besonderheiten gerecht zu werden, wurden eine Reihe von Erweiterungen des 7-Bit-ASCII-Codes zu einem 256 Zeichen umfassenden 8-Bit-Code vorgenommen. Alle diese Erweiterungen stimmen in den ersten 128 Zeichen mit dem ASCII-Code überein und legen die Kodierung der restlichen 128 Zeichen sprachspezifisch fest. Zu diesen Erweiterungen gehören die sogenannte ANSI-Kodierung und die Kodierungen der "ISO 8859"-Normenfamilie.

Eine Übersicht der ersten 128 Symbole im ASCII-Code finden Sie hier

Lernziel: ASCII-Code

Sie sind in der Lage:

  • anzugeben, wie viele Zeichen der ASCII-8-Bit-Code maximal codieren kann.
  • die Verbindung zwischen Zeichen - Binär - Dezimal in der Tabelle (Link) zu erläutern
  • für ein Wort anzugeben, wie viele Bits zur Codierung benötigt werden (ausgehend vom ASCII-Code mit 8 Bits).

Quest: Gespeichert

Auf der Speichereinheit ihres Handys wurde in ASCII-Code folgende Information gespeichert. Geben Sie an, welche Information sich dahinter verbirgt.

0100 1101 0100 1111 0100 1001 0100 1110

(5XP)

Noch ein kleiner, allgemeiner Tipp: Bevor Sie sich dumm und dämlich scrollen, nutzen Sie die Suche-Funktion ihres Browsers. Sie starten sie mit Str + F. Unten links öffnet sich dann ein kleines Fenster.


2 Der Unicode

Die Zeichenanzahl ist mit dem ASCII-Code deutlich begrenzt. Die Zeichen z.B. der nicht-lateinischer Sprachen werden bzw. können nicht erfasst werden. Hierfür wurde der Unicode entwickelt.

Lernziel

Überlegen Sie sich, warum dennoch heute an einigen Stellen der ASCII- und nicht der Unicode verwendet wird.

Hier finden Sie eine Liste aller Zeichen im Unicode: Unicode

Die umfassende, kreative Verwendung dieser Symbole in z.B. E-Mails oder Text-Dokumenten ist jedoch nicht ganz einfach, weil nicht alle Schriftarten alle Zeichen unterstützen. Unsere "normalen" Schriftarten enthalten z.B. nicht die Zeichen aus dem Tibetanischen, Laotischen, Thai oder Telugu.

Wenn ihnen unter den Unicodes also ein Zeichen gefällt, dann müssen Sie es (je nach Textverarbeitungsprogramm) zunächst unter den Schriftarten finden oder ggf. sogar erst die Schriftart auf ihren PC laden (Achtung: ggf. Copyright der Schriftart beachten). Denn um die Darstellung des Zeichens zu gewährleisten, muss für den entsprechenden Code eine Glyphe - also die graphische Darstellung eines Schriftzeichens - in der Schriftdatei vorhanden sein. Sonst weiß der Computer nicht, wie das Zeichen in der gewünschten Schrift aussehen soll. Immer wenn ein Zeichen in einer Schrift nicht vorhanden ist, wird stattdessen ein Kästchen dargestellt.

Quest: Schwarzer Springer

  1. Suchen Sie in der Unicode-Tabelle dieses Zeichen. Denken Sie erst und vermeiden Sie Minuten langes Scrollen.

  2. Finde Sie über diese Seite heraus, welche Schriftarten dieses Symbol unterstützen: www.fontspace.com

  3. Finden Sie in LibreOffice eine Möglichkeit heraus, dieses Schriftzeichen in einem Dokument anzuzeigen (Tipp: Nutzen Sie ggf. die Suche im Netz)

Questgegenstand zur Questabgabe ist ein sinnvoll beschriftetes odt-Dokument mit dem Symbol (nicht Bild) des schwarzen Springers sowie die Angabe der Schriftarten, die dieses Zeichen verwenden in der vereinbarten Weise. (10XP)


3 ANSI, UTF-8 und Co.

Arbeitet man intensiver mit Browsern bzw. E-Mails, so kann die Einstellung der Zeichenkodierung wichtig sein. Das musste auch der Bundesfinanzhof feststellen, bei dem ein Fehler im Umgang mit der Codierung der Zeichen zu wirklichen Problem führte.

Lesen Sie selbst:

Besonderes elektronisches Anwaltspostfach kann kein Deutsch (www.golem.de)

Die in diesen Programmen (u.a.) verwendeten Codierungen sind jedoch Erweiterungen des ASCII-Codes bzw. des Unicodes.

ANSI: ANSI (American National-Standards Institute) ist eine Erweiterung des ASCII-Codes und hat sich als Standard auf den Windows- und Macintosh-Betriebssystemen durchgesetzt und wurde anfangs für Windowssysteme entwickelt.

UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch).

Aufgabe: Zeichencodierung in Notepad++

Sehr schön lässt sich die Problematik z.B. in dem freien Texteditor Notepad++ beobachten. Öffnen Sie das Programm und kopieren Sie einen längeren Teil des Artikels in das Textfeld. Spielen Sie nun etwas mit den möglichen Kodierungen herum und beobachten Sie, was passiert.