kennen.
Whitespace
Unter Whitespace wird Leerraum verstanden, der in der Regel zur optisch besseren Lesbarkeit des Quelltextes eingefügt wird. Whitespace besteht aus einfachen Leerzeichen, Tabulatorzeichen und den Zeichen zum Zeilenumbruch. Ein typisches Quelltextbeispiel von HTML:
Überschrift
Hier ein Absatz mit Text
- Ein Listenpunkt
- Noch einer
Das alles könnte man auch so notieren:
Überschrift
Hier ein Absatz mit Text
- Ein Listenpunkt
- Noch einer
Bild 2.2: Das Beispiel im Browser
Im Web-Browser sehen beide Arten, den Quelltext zu notieren, gleich aus. Die erste Variante ist jedoch für Menschen besser les- und editierbar. Die zweite spart dafür ein paar Bytes. Gewöhnen Sie sich beim manuellen Bearbeiten von HTML aber unbedingt die lesbare Variante an. Zum Einsparen von Bytes gibt es andere, effizientere Verfahren, etwa das gezippte Übertragen von Daten vom Webserver an den Web-Browser.
Die Grundregel für HTML-Parser lautet: Fasse mehrere Whitespace-Zeichen in Folge zu einem Leerzeichen zusammen. Wenn Sie also zwischen zwei Wörtern drei Leerzeichen und drei Absatzschaltungen eingeben, stehen die Wörter bei der Ausgabe im Browser durch ein Leerzeichen getrennt nebeneinander. Absatzschaltungen und Tabulatoren werden in HTML per Default nicht umgesetzt.
Eine Absatzschaltung oder ein Tabulator wird beim Parsen in ein Leerzeichen umgewandelt. Deshalb müssen Sie, um in HTML einen Zeilenumbruch zu erzwingen oder einen neuen Absatz zu beginnen, entsprechende Elemente notieren. Um Absätze im Text zu trennen, notieren Sie sogenannte Block-Elemente (Elemente, die eine neue Zeile im Textfluss erzeugen) wie z. B.
…
oder
…
. Um einen einzelnen Zeilenumbruch an einer bestimmten Stelle zu erzwingen, steht das Standalone-Element
zur Verfügung.
Whitespace-Zeichen am Anfang eines Elementinhalts werden vom HTML-Parser entfernt. Beispiel
dieser Text fängt im Browser genauso weit vorne an wie…
dieser Text
Das Leerzeichen, das am Beginn des zweiten Textabsatzes notiert ist, wird vom HTML-Parser ignoriert. Diese Default-Verhaltensweisen von HTML-Parsern sind für die meisten Fälle praktisch, manchmal jedoch unerwünscht. Für diese Fälle gibt es Lösungen. Um etwa ein Leerzeichen zu erzwingen, wo der HTML-Parser normalerweise Leerzeichen ignoriert oder zusammenfasst, können Sie geschützte Leerzeichen notieren. Eine Möglichkeit, dies zu tun, ist die Verwendung der entsprechenden HTML-Entity. Notieren Sie im Quelltext an der gewünschten Stelle einfach die Zeichenfolge
– dadurch wird in jedem Fall ein Leerzeichen gesetzt.
Beispiel
dieser Text fängt im Browser weiter vorne an als…
dieser Text
Durch mehrere
in Folge können Sie auch mehrere Leerzeichen hintereinander erzwingen.
Um Text so wie im Editor eingegeben im Web-Browser wiederzugeben, stellt HTML ein spezielles Element zur Verfügung – das Element für präformatierten Text (»Text wie zuvor formatiert«). Beispiel
Kanon nonaK
Kanon nonaK
Kanon nonaK
Kanon nonak
In dem Beispiel sorgt das Einschließen in
…
dafür, dass der Elementinhalt im Browser so ausgegeben wird, wie im Editor eingegeben. Allerdings verwenden die Browser dabei üblicherweise eine dicktengleiche (d. h. nichtproportionale) Schrift, wie z. B. Courier. Mit Hilfe von CSS können Sie auch andere Schriften erzwingen. Ferner können Sie mit Hilfe von CSS die Eigenschaft »präformatiert« auch anderen HTML-Elementen zuweisen.
Interpretierte Bereiche
Zunächst einmal werden alle Zeichen, die in einem HTML-Dokument notiert sind, vom HTML-Parser analysiert – man spricht dabei von interpretierten Zeichendaten (englisch: parsed character data oder abgekürzt: PCDATA). Es gibt jedoch Elemente, deren Inhalt vom HTML-Parser nicht analysiert wird. Dazu gehören beispielsweise Bereiche mit JavaScripts oder CSS-Stylesheets. Beispiel
Dieser Inhalt wird vom HTML-Parser analysiert, weshalb
das hier hervorgehoben wird.
Der Inhalt des
script
-Elements besteht aus Sicht von HTML aus reinen Zeichendaten (englisch: character data oder abgekürzt: CDATA), die nicht weiter interpretiert werden. Im Fall von
script
- und
style
-Elementen