HTML5-Handbuch - die neuen Features von HTML5
Die folgende Angabe, die in Anführungszeichen steht, ist wie folgt zu verstehen:
W3C ist der Herausgeber der DTD, also das W3-Konsortium. Eine Angabe wie
DTD HTML 4.01 Transitional
bedeutet, dass Sie den Dokumenttyp »HTML« verwenden wollen, und zwar in der SprachVersion 4.01 und deren Transitional-Variante. Das
EN
ist ein Sprachenkürzel und steht für die Sprache, in diesem Fall Englisch. Die Angabe bezieht sich darauf, in welcher natürlichen Sprache die Element- und Attributnamen von HTML definiert wurden, nicht auf den Inhalt Ihres Dokuments. Benutzen Sie also immer
EN
.
Ferner enthält die Dokumenttyp-Deklaration die Web-Adresse der Dokumenttyp-Definition (DTD).
2.3.2 XHTML-Dokumenttypen
Wenn Sie XHTML5 als XML ausliefern wollen, ist eine Dokumenttyp-Angabe nicht erforderlich. Der Grund ist, dass es gar keine offizielle und öffentlich verfügbare XHTML5-DTD gibt, gegen die ein XHTML5-Dokument validiert werden könnte. XHTML 1.0 entspricht dem Sprachstandard HTML 4.01. Verwenden Sie diesen Sprachstandard nur noch, wenn Sie konkrete Gründe dafür haben (zum Beispiel die Möglichkeit, das XHTML-Dokument gegen eine XML-DTD zu validieren). In diesem Fall stehen für XHTML 1.0 folgende Dokumenttypen zur Verfügung:
Dokumenttyp für XHTML 1.0 strict
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
Dokumenttyp für XHTML 1.0 transitional
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
Dokumenttyp für XHTML 1.0 frameset
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">
Für XHTML 1.0 gibt es ebenso wie für HTML 4.01 die drei Varianten strict, transitional und frameset. Am Beginn der Dokumenttyp-Deklaration wird
html
klein geschrieben. Im Mittelteil muss bei Version 1.0 von XHTML
XHTML 1.0
notiert werden. Auch die Web-Adressen der DTDs sind andere als bei HTML.
Dokumenttyp für XHTML 1.1
"http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
Verwenden Sie XHTML 1.1 jedoch nur, wenn Sie konkrete Gründe dafür haben.
2.4 Backgrounds
2.4.1 Computer und Zeichenkodierung
Zum Verständnis von Zeichensätzen, Unicode, UTF-8 und verwandten Themen ist es hilfreich, sich die Stationen bewusst zu machen, die ein Schriftzeichen von seiner Repräsentation auf einem Datenträger bis hin zum Ausgabegerät durchläuft.
Bits, Bytes und Zeichen
Die beiden Grundeinheiten in jedem heutigen Computer sind die Einheiten Bit und Byte . Ein Byte ist als Folge von 8 Bit definiert (man spricht auch von Octets ). Da jedes Bit zwei Zustände haben kann, nämlich 0 oder 1, lassen sich mit einer Folge von 8 Bit genau 256 (= 2 8 ) unterschiedliche Zustände realisieren. Ein Byte kann also 256 unterschiedliche Werte haben. Da im Computer immer auch die 0 dazugehört, können in einem Byte dezimal ausgedrückt Werte zwischen 0 und 255 stehen.
Wenn ein laufendes Programm im Computer eine Datei in den Arbeitsspeicher einliest, stehen im Arbeitsspeicher anschließend nur Byte-Werte. Von Zeichen unseres Alphabets ist auf dieser Ebene noch keine Rede. Damit aus den Byte-Werten lesbare Zeichen werden, die sich am Bildschirm darstellen lassen, braucht es eine Konvention, welches Zeichen mit welchem oder welchen Byte-Werten gespeichert wird. Diese Aufgabe haben die sogenannten Zeichenkodierungen . Eine solche Zeichenkodierung greift auf eine Übersetzungstabelle ( Codetabelle ) zurück, die zunächst jedem Zeichen, das verwendet werden kann, eine fortlaufende Nummer (einen Code) zuweist. Die Menge der Zeichen in einer solchen Tabelle wird Zeichenvorrat genannt.
Die Kodierungen sowie ihre Codetabellen sind EDV-historisch gewachsene Gebilde. Bis zum Aufkommen der Personal Computer benutzten viele Rechner noch 7 Bit lange Grundeinheiten, mit denen sich nur 128 unterschiedliche Zustände darstellen lassen. Noch früher waren es auch mal 6 und 5 Bit lange Grundeinheiten. Auf der 7 Bit langen Grundeinheit beruhten die ersten Kodierungen, die historisch den Durchbruch schafften: die ASCII-Kodierung (American Standard Code for Information Interchange) und die EBCDIC-Kodierung (Extended Binary Coded Decimal Interchange Code). Dabei setzte sich vor allem die ASCII-Kodierung durch, weil sie im erfolgreichen Unix-Betriebssystem und in den aufkommenden Personal Computern zum
Weitere Kostenlose Bücher