Zeichensätze (iso-8859-Familie und andere) |
|
Die iso-8859-Zeichensätze |
|
Die iso-8859-Familie wurde vom European Computer Manufacturer's Association (ECMA) entwickelt. Es handelt sich um ein Set von standardisierten Zeichensätzen für alphabetische Schriften. Dazu gehören die lateinischen Schriften, auf denen die meisten Sprachen Westeuropas und Amerikas beruhen, oder etwa die kyrillischen Schriften.
Alle Zeichensätze dieser Familie basieren auf der 1-Byte-Abbildung eines Zeichens. Das heißt, alle Zeichensätze enthalten 256 mögliche Zeichen. Bei allen Zeichensätzen sind die ersten 128 Zeichen, also die Zeichen mit den Werten 0 bis 127, identisch mit dem ASCII-Zeichensatz. Das hat den Vorteil, daß die üblichen lateinischen Groß- und Kleinbuchstaben, die arabischen Ziffern und die üblichen Sonderzeichen wie Satzzeichen oder kaufmännische Zeichen in all diesen Zeichensätzen immer zur Verfügung stehen.
Oberhalb ist der ASCII-Zeichensatz abgebildet. Die darstellbaren Zeichen dieses Zeichensatzes haben die Werte zwischen 32 und 127. Wert 32 ist das Leerzeichen. Alle iso-8859-Zeichensätze enthalten diesen Zeichensatz.
Zur Lesart dieser und der folgenden Zeichensatz-Tabellen:
Den Wert eines Zeichens ermitteln Sie, indem Sie die Werte aus Spalten- und Zeilenüberschrift des Zeichens addieren. Ein großes K hat in dieser Tabelle beispielsweise den Zeilenwert 70 und den Spaltenwert 5. Daraus ergibt sich der Wert 75 für dieses Zeichen. Zeichenwerte können bei der Verwendung von Zeichensätzen und Unicodes in HTML eine Rolle spielen.
So wie im ASCII-Zeichensatz die ersten 32 Zeichen (Zeichenwerte 0 bis 31) für Steuerzeichen reserviert sind, sparen auch die erweiterten Zeichensätze der iso-Familie einen Bereich von Zeichen aus. Es handelt sich um die ersten 32 Zeichen oberhalb des ASCII-Bereichs, also um die Zeichenwerte 128 bis 159. Die Tabellen zu den einzelnen Zeichensätzen weiter unten bilden daher die verbleibenden Zweichenwerte 160 bis 255 ab. Das Zeichen mit dem Wert 160 ist in all diesen Zeichensätzen ein erzwungenes Leerzeichen.
Viele der Zeichensätze der iso-8859-Familie überlappen sich. Das ist Absicht. Die Zeichensätze sind so optimiert, daß sich mit je einem Zeichensatz möglichst viele Schriften möglichst vollständig abdecken lassen. Zeichen, die in mehreren Zeichensätzen der iso-8859-Familie vorkommen, haben in der Regel immer den gleichen Wert, d.h. sie befinden sich in den unterschiedlichen Zeichensätzen an der gleichen Stelle.
Sechs der iso-8859-Zeichensätze beziehen sich auf Schriften, die im Kern auf der lateinischen Schrift basieren. Diese Zeichensätze haben daher noch die Beinamen Latin-1 bis Latin-6.
Die folgenden Tabellen zeigen die einzelnen Zeichensätze der iso-8859-Familie. Wie Sie diese Zeichensätze in HTML einsetzen können, wird im Abschnitt Zeichensatzangabe als Meta-Angabe beschrieben.
Dieser Zeichensatz enthält die schriftspezifischen Zeichen für westeuropäische und amerikanische Sprachen. Der Zeichensatz deckt die Sprachen Albanisch, Dänisch, Deutsch, Englisch, Farörisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch ab. Lediglich einzelne Zeichen wie das niederländische "ij" oder die deutschen Anführungszeichen unten fehlen.
Dieser Zeichensatz enthält die schriftspezifischen Zeichen für die meisten mitteleuropäischen und slawischen Sprachen. Der Zeichensatz deckt die Sprachen Kroatisch, Polnisch, Rumänisch, Slowakisch, Slowenisch, Tschechisch und Ungarisch ab.
Dieser Zeichensatz deckt die Sprachen Esperanto, Galizisch, Maltesisch und Türkisch ab.
Dieser Zeichensatz enthält einige Zeichen der Sprachen Estnisch, Lettisch und Litauisch. Vergleichen Sie diesen Zeichensatz auch mit iso 8559-10, der sehr ähnlich ist.
Dieser Zeichensatz enthält kyrillische Zeichen. Er deckt weitgehend die Sprachen Bulgarisch, Mazedonisch, Russisch, Serbisch und Ukrainisch ab.
Dieser Zeichensatz enthält Zeichen arabischer Schrift. Die Darstellung der Zeichen in der folgenden Tabelle ist jedoch "abstrakt", da die Zeichen in der Schriftpraxis variieren, je nachdem, ob sie am Anfang, in der Mitte oder am Ende eines Wortes oder einzeln stehen. Arabisch benötigt spezielle Computer-Software zur Darstellung, da die Schriftrichtung (von rechts nach links) auf heutigen Rechnern normalerweise nicht abbildbar ist.
Dieser Zeichensatz enthält die Zeichen der neugriechischen Schrift.
Dieser Zeichensatz enthält die Zeichen der hebräischen Schrift. Wie bei der arabischen Schrift ist zur Darstellung dieser Schrift zusätzliche Computer-Software erfoderlich, da die Schriftrichtung (von rechts nach links) auf heutigen Rechnern normalerweise nicht abbildbar ist.
Dieser Zeichensatz ist speziell für Türkisch gedacht. Er basiert auf iso 8859-1, enthält jedoch anstelle der isländischen Sonderzeichen türkische Zeichen.
Dieser Zeichensatz enthält speziell Zeichen für die Sprachen Grönländisch (Inuit) und Lappisch (Sami).
Es gibt etliche andere, zum Teil schon ältere Zeichensätze, die Konventionen für einzelne Schriften oder Schriftfamilien definieren, häufig landesspezifisch. Einige davon benutzen auch 2 Byte breite, also numerische Zeichenwerte. Hier eine kleine Auswahl:
ISO-2022-JP - Japanischer Zeichensatz
greek7-old - altgriechischer Zeichensatz
DIN_66003 - deutscher Zeichensatz
DS_2089 - dänischer Zeichensatz
KOI8-R - kyrillischer Zeichensatz (vor allem für Russisch)
GB2312 - chinesischer Zeichensatz
Aus Sicht von HTML ist wichtig, welche Zeichensätze darin offiziell verwendet werden dürfen. Ein Liste erlaubter Zeichensatzangaben finden Sie im Abschnitt Zeichensatzangabe als Meta-Angabe.
weiter: | Das Unicode-System |
zurück: | Computer und geschriebene Sprache |