Zeichensätze und Unicodes in HTML verwenden |
|
Wenn Sie innerhalb einer HTML-Datei eine Schriftsprache benutzen, bei der viele Zeichen nicht zum ASCII-Zeichensatz gehören, genügt es ab Version 4.0 des HTML-Sprachstandards, dazu einen einzigen Befehl im Dateikopf zu notieren. Wenn Sie die HTML-Datei mit einem Editor erstellen, der ebenfalls diesen Zeichensatz benutzt, können Sie dann also beispielsweise kyrillisch oder isländisch direkt über eine entsprechend belegte Tastatur eingeben, ohne Unicodes oder benannte Zeichen für jedes sprachspezifische Zeichen benutzen zu müssen.
<head> <title>Titel der Datei</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> |
Der entsprechende Befehl wird in HTML mit Hilfe einer Meta-Angabe (<meta...>) im Dateikopf angegeben. Notieren Sie die Angabe mit allen Anführungszeichen und Semikolon genau so wie im obigen Beispiel. Setzen Sie lediglich hinter charset= den Namen des gewünschten Zeichensatzes ein. Eine Übersicht gültiger Zeichensatznamen finden Sie im WWW: die Liste registrierter Zeichensätze, herausgegeben von IANA. Zeichensatznamen dürfen dieser Liste zufolge aus bis zu 40 druckbaren ASCII-Zeichen bestehen. Groß- und Kleinschreibung werden nicht unterschieden.
Besonders wichtig ist die Zeichensatz-Familie iso 8859 geworden. Mit der Angabe des Zeichensatzes iso-8859-1 etwa bestimmen Sie den Zeichensatz Western Latin-1, der auch die deutschen Umlaute und das scharfe S enthält. Wenn Sie diesen Zeichensatz angeben, spricht nach HTML 4.0 nichts dagegen, Text in eine HTML-Datei einzugeben, ohne darin etwa die Umlaute mit Entities umschreiben zu müssen. Vorausgesetzt, die Software zum Editieren benutzt ebenfalls diesen Zeichensatz.
Die Bestimmung eines Zeichensatzes im Dateikopf hilft einem HTML4.0-fähigen WWW-Browser zwar zu erkennen, nach welchem Zeichensatz er die in der Datei enthaltenen Zeichenwerte behandeln soll. Eine korrekte Anzeige der Datei beim Anwender ist jedoch nur möglich, wenn dieser eine Schriftart geladen hat, die den entsprechenden Zeichensatz unterstützt. Ferner muß der Anwender die entprechende Schriftart in den Einstellungen seines WWW-Browsers dem entsprechenden Zeichensatz zugeordnet haben.
Ältere WWW-Browser, auch Netscape bis Version 3.x oder MS Internet Explorer bis V3.x, interpretieren die Meta-Information zur Bestimmung des Zeichensatzes noch nicht.
Ab der Sprachversion 4.0 benutzt HTML das Universal Character Set (UCS) nach Standard ISO 10646. Dieser Standard basiert seinerseits auf der Version 2.0 des Unicode-Systems.
Sie können ab dem HTML-Standard 4.0 innerhalb einer HTML-Datei beliebige Zeichen aus dem UCS bzw. dem Unicode-System mit einer entsprechenden numerischen Angabe notieren.
ü <!-- Buchstabe "ü" dezimal --> ü <!-- Buchstabe "ü" hexadezimal --> |
Alle numerischen Notationen einzelner Zeichen beginnen mit einem kaufmännischen &, gefolgt von einem Gatterzeichen #. Dahinter können Sie die Zahl des gewünschten Zeichens notieren. Die Angabe kann entweder dezimal oder hexadezimal erfolgen. Dezimale Zahlen werden normal notiert, bei hexadezimalen Zahlen muß hinter dem Gatterzeichen noch ein x folgen. Hexadezimale Ziffern bestehen aus den dezimalen Ziffern 0 bis 9 und den "künstlichen" Ziffern A für 10, B für 11, C für 12, D für 13, E für 14 und F für 15.
Grafische Darstellungen und numerische Zuordnung von allen im Unicode-System enthaltenen Zeichen können Sie über den Abschnitt Die Unicode-Zeichen aufrufen.
Zum Umrechnen zwischen dezimalen und hexadezimalen Werten können Sie den SELFHTML Dezimal/Hexadezimal-Umrechner benutzen.
weiter: | Benannte Zeichen in HTML |
zurück: | Das Unicode-System |