Dateiformate

 

Kompressionsverfahren

LZW

LZW ist ein verlustfreies Komprimierungsverfahren. Es eignet sich aber für jede Form von Daten, da das eingesetzte Wörterbuch erst zur Laufzeit generiert wird und so unabhängig vom Format ist. LZW komprimiert mittels Wörterbüchern, in denen die am häufigsten vorkommenden Zeichenketten, wie z. B. „ist“, „die“ und „ein“, gespeichert werden und nun nur noch unter einer Abkürzung angesprochen werden müssen. Der Vorteil bei diesem Algorithmus liegt darin, dass das Wörterbuch nicht zusätzlich abgelegt werden muss. Dieses wird implizit mit in die Datei geschrieben. Der Decoder ist in der Lage, es aus dem Datenstrom zu rekonstruieren. Einträge im Wörterbuch werden üblicherweise über einen 12 Bit langen Index angesprochen. Es sind also maximal 212 = 4096 Einträge möglich. Die Einträge mit dem Index 0 bis 255 werden mit den entsprechenden Bytes gefüllt, also Eintrag 0 mit 00hex, Eintrag 2 mit 02hex, … , Eintrag 255 mit FFhex (Hexadezimalsystem). Nachfolgende Einträge, die zur Laufzeit eingefügt werden, müssen also zwangsweise mit dem Index 256 beginnen. Neue Einträge werden generiert, indem der gefundene Eintrag plus dem nächsten Zeichen gespeichert wird. Wenn die gefundene Zeichenkette nur 1 Zeichen lang ist, wird meistens nur dieses Zeichen gespeichert, da ein Verweis auf das entsprechende Element 12 Bit, das Zeichen selber aber nur 8 Bit belegt. Die Unterscheidung, ob jetzt ein Verweis oder ein Symbol im Bitstrom kommt, kann per Flag gesetzt werden.

Huffmann (CCITT)

Der vom Shannon-Fano-Algorithmus erzeugte Baum ist nicht immer optimal. David A. Huffman gab 1952 einen anderen Algorithmus an, der beweisbar immer einen optimalen Baum für gegebene Wahrscheinlichkeiten liefert. Während der Shannon-Fano-Baum von der Wurzel zu den Blättern erstellt wird, arbeitet dieser Algorithmus zur Konstruktion des Huffman-Baums in entgegengesetzter Richtung.
Erstelle einen Wald mit einem Baum für jedes Zeichen. Jeder dieser Bäume enthält nur einen einzigen Knoten: das Zeichen. Schreibe die Häufigkeit an die Kante.
Suche die beiden Bäume, die die geringste Häufigkeit haben. Fasse beide Bäume zusammen, indem sie die Teilbäume einer neuen Wurzel werden. Benutze die Summe der Häufigkeiten dieses neuen Baumes zur weiteren Analyse. Wiederhole Schritt 2 so oft, bis nur noch ein Baum übrig ist.

JPEG

Die JPEG-Norm definiert 41 verschiedene Unterdateiformate, von denen aber meist nur eines unterstützt wird (und welches auch fast alle Anwendungsfälle abdeckt).
Die Kompression erfolgt durch das Anwenden mehrerer Verarbeitungsschritte, von denen vier verlustbehaftet sind.
– Farbraumumrechnung vom (meist) RGB-Farbraum ins YCbCr-Farbmodell (nach CCIR 601). (verlustbehaftet)
– Tiefpassfilterung und Unterabtastung der Farbabweichungssignale Cb und Cr (verlustbehaftet).
– Einteilung in 8×8-Blöcke und diskrete Kosinustransformation dieser Blöcke (theoretisch verlustfrei, durch Rundungsfehler aber verlustbehaftet).
– Quantisierung (verlustbehaftet).
– Umsortierung.
– Entropiekodierung.
Die Datenreduktion erfolgt durch die verlustbehafteten Verarbeitungschritte in Zusammenwirken mit der Entropiekodierung.
Kompressionen bis etwa 1,5…2 Bit/Pixel sind visuell verlustfrei, bei 0,7…1 Bit/Pixel sind noch gute Ergebnisse erzielbar, unter 0,3 Bit/Pixel wird JPEG praktisch unbrauchbar, das Bild wird zunehmend von unübersehbaren Kompressionsartefakten (Blockbildung, stufige Übergänge, Farbeffekte an Graukeilen) überdeckt. Der Nachfolger JPEG 2000 ist wesentlich weniger für diese Art von Artefakten anfällig.
Sieht man als Quellformat 24-Bit-RGB-Dateien an, erhält man Kompressionsraten von 12 bis 15 für visuell verlustfreie Bilder und bis zu 35 für noch gute Bilder. Die Qualität hängt aber neben der Kompressionrate noch von der Art der Bilder ab. Rauschen und regelmäßige feine Strukturen im Bild verringern die maximal mögliche Kompressionsrate. Der JPEG Lossless Mode zur verlustfreien Kompression verwendet ein anderes Verfahren (prädiktiver Koder und Entropiekodierung).

JPEG 2000

JPEG 2000 ist ein Grafikformat für Rastergrafiken mit Bildkompression, wie z. B. auch PNG oder GIF (ISO-Standard 15444), das auf der diskreten Wavelet-Transformation (DWT) beruht. Wie das bekannte JPEG ist es von der Joint Photographic Experts Group herausgegeben. JPEG 2000 beherrscht sowohl verlustfreie als auch verlustbehaftete Kompression. Mit dem Standard lassen sich sehr gute Komprimierungsraten für verlustbehaftet zu speichernde, fotoähnliche Bilder erreichen. Das Format kann eine Reihe von Metadaten aufnehmen, die das Verwalten und Auffinden von Bildern im Internet erleichtern.
Stufen der Kompression:
– Aufteilung des Bildes in Teilbilder
– Transformation des Farbraumes (wenn Farbbild)
– Diskrete Wavelet-Transformation der Teilbilder
– Quantisierung
– A-Posteriori (Post-Compression) Rate-Verzerrung
– Entropiekodierung
Im Falle der verlustbehafteten Komprimierung wird die biorthogonale Daubechies-9/7-Wavelettransformation verwendet. Die verlustfreie Kompression verwendet die biorthogonale LeGall-5/3-Wavelettransformation. Die Dekomprimierung erfolgt entsprechend in umgekehrter Reihenfolge ohne Rate-Verzerrung.

ZIP

ZIP wurde basierend auf dem LZ77-Kompressionsverfahren weiterentwickelt. Zusätzlich zum LZ77-Verfahren wurde noch das Shannon Farm Coding angewandt, wodurch im wesentlichen drei Dinge verbessert wurden:
1. Daten, in denen sich kein Muster wiederholt, werden nicht mehr komprimiert. Dieser Zustand hat bei LZW dazu geführt, dass LZW-komprimierte Daten auch größer als die Originaldaten sein können. Bei ZIPwird dies ausgeschlossen.
2. Jedes Zeichen besitzt in der Bibliothek ein eindeutiges Muster, wodurch für häufig vorkommende Zeichen wie „e“ kleinere Einheiten als ein Byte zur Kodierung herangezogen werden.
3. Die Musterlänge ist abhängig von der Zeichenhäufigkeit. Dieser Zustand führt zu weniger Einträgen in der Bibliothek und reduziert dadurch wiederum Speicherkapazität.
LZW wie auch ZIP zählen zu den asymmetrischen Kompressionen. Das Decoding (Entkomprimieren) – es wird kein eigenes Dictionary benötigt – funktioniert viel schneller als das Encoding (=Komprimieren). ZIP genießt alle Vorteile von LZW und darüber hinaus noch bessere Kompressionsraten. ZIP eignet sich als Komprimierungsalgorithmus hervorragend für Strichvorlagen und künstliche Bilder wie Screenshots.

LauflängencodierungLLC (RLE)

Bei der Abtastung von Strichvorlagen, die nur aus 2 Tonwerten bestehen, ist zur Kennzeichnung pro Pixel die Datentiefe 1 Bit Bit erforderlich (o und 1). Je nach Abtastsignal, Auflösung und Hintergrund entsteht eine beliebige Folge von Nullen und Einsen. Die Kompression der Abtastzeile geschieht derart, daß die Anzahl aufeinanderfolgender Nullen und Einsen festgehalten wird. Für die Übertragung bzw. Speicherung von 8 Einsern wären 8 Bit erforderlich. Die Ziffer 8 ist jedoch mit 3 bit codierbar. Der Empfänger erkennt die Ziffer 8 und setzt bei der Dekompression wieder 8 einzelne Bildpunkte. Da bei der Dekompression keine Informationsverluste auftreten spricht man von einem verlustfreien Verfahren (loss less compression). Für Farbvorlagen wird jeder Ziffer (Lauflänge) eine Farbnummer zugeordnet. In einer Tabelle wird dann jeder Nummer ein Farbwert mit den entsprechenden Prozentwerten für C, M, Y und K zugeordnet.
Speicherbedarf 26 Byte 4 Byte Kompressionsfaktor: 26/4=6,5 Das JFIF wird im allgemeinen als JPEG (JointPhotographers Expert Group) bezeichnet! Die Lauflängencodierung eignet sich gut für Strichvorlagen!
Die LLC ist eine verlustfreie Datenkomprimierung! Auch Strich-Farbvorlagen eignen sich für die LLC!

Zahlensysteme

7 Fragen zum Thema Kompression
1. Nennen Sie drei mögliche Kompressionsverfahren!
2. Welche Kompressionverfahren sind am geläufigsten?
3. Welche Verfahren sind verlustfrei?
4. Welche Verfahren sind verlustbehaftet?
5. Kann man mit der JPEG-Kompression auch verlustfrei komprimieren?
6. Welches Verfahren eignet sich besonders für S/W-Bilder?
7. Wenden Sie die LZW-Kodierung am Beispiel des Wortes „Hottentotten“ an.

Textformate

RTF

RTF (Rich Text Format) Das von Microsoft entwickelte Austauschformat beschränkt sich auf einen 7-bit-ASCII-Code. Die Formatierungen bleiben erhalten. Leider können nicht alle Programme das Format lesen.

ANSI

Dieser Zeichensatz enthält 256 fortlaufend (von 0 bis 255) durchnummerierte Zeichen. Der ANSI-Zeichensatz stimmt in den Zeichen Nummer 32 bis 127 mit dem ASCII überein, ist also sozusagen abwärtskompatibel. Der ANSI-Zeichensatz geht jedoch über den ASCII hinaus; er enthält auch Sonderzeichen, etwa die Umlaute. Der ANSI-Zeichensatz wird daher auch als „extended ASCII“ (Dt.: „erweiterter ASCII“) bezeichnet.

ASCII

ASCII ist eine 7-Bit-Zeichenkodierung. Die druckbaren Zeichen umfassen das lateinische Alphabet in Groß- und Kleinschreibung, die zehn arabischen Ziffern sowie einige Satzzeichen. Der Zeichenvorrat entspricht weitgehend dem einer Tastatur oder Schreibmaschine für die englische Sprache. In Computern und anderen elektronischen Geräten, die Text darstellen, wird dieser in der Regel gemäß ASCII gespeichert.
Die ersten 32 Zeichen des ASCII werden als Kontrollzeichen benutzt, etwa für die Steuerung von Druckern. Diese Zeichen sind nicht anzeig- oder druckbar.
Die deutschen Sonderzeichen (wie Umlaute und das ß) sind nicht Teil des ASCII. Auch die Sonderzeichen anderer europäischer Länder sind nicht im ASCII enthalten.

Unicode

Stellt alle gebräuchlichen Schriftsysteme in einem Zeichensatz dar. Unicode (Dt. etwa: „Einheitsschlüssel“) ist ein alphanumerischer Zeichensatz (CES), der weltweit alle bekannten Textzeichen (Buchstaben, Silbenzeichen, Piktogramme, Ideogramme, Satzzeichen, Sonderzeichen) darstellen kann.

Bildformate

Bitmap

Bitmaps sind Bilder, die aus einem rechteckigen Gitter aus Bildelementen (Pixeln) aufgebaut sind. Jedem Pixel ist eine bestimmte Position und ein Farbwert zugewiesen. Bitmaps werden für Halbtonbilder wie Fotos verwendet, da sie Schattierungen und Farben in feinen Abstufungen wiedergeben können.
Bitmaps sind auflösungsabhängig. Werden sie vergrößert oder mit einer niedrigeren Auflösung als der ursprünglich festgelegten gedruckt, gehen Details verloren oder die Bilder werden “pixelig”. Ein weiterer Nachteil von Bitmapdateien in Vergleich zu Vektordateien sind die größere Dateigröße.

Vektorgrafiken

Vektorgrafiken bestehen aus Linien und Kurven, die durch mathematische Objekte definiert sind (so genannte Vektoren). Diese beschreiben ein Bild gemäß seinen geometrischen Eigenschaften.
Vektorgrafiken können beliebig, ohne Qualitätsverlust, skalliert werden, da sie auflösungsunabhängig sind.
Anwendung: Logos, technische Zeichnungen, Grafiken…

EPS-Dateiformat

Um welchen Typ Dateiformat handelt es sich?
Das EPS-Format kann sowohl Bitmap- als auch Vektorgrafiken enthalten. Es ist somit ein sogenanntes Metafile-Format.

Was lässt sich über die Struktur des Dateiformates sagen?
Im Wesentlichen ist eine EPS-Datei eine Textdatei, die allerdings auch Binär kodiert werden kann. Binär kodiert braucht verbraucht sie nur halb so viel Speicherplatz.
Die EPS-Datei besteht aus drei Teilen:
* Vorspann
* Verfahrensdefinitionen
* Script
Vorspann und Verfahrensdefinitionen ergeben zusammen den Prolog.
Das Script besteht aus Voreinstellungen, den einzelnen Seiten und dem Nachspann.
Das eigentliche Dokument ist also zwischen Vorspann und Nachspann eingekapselt.
EPS-Dateien beginnen immer mit folgender Zeile:
%!PSAdobe-3.0 EPSF-3.0
Außerdem zeichnen sich EPS-Dateien dadurch aus, dass sie eine BoundingBox enthalten. Diese beschreibt das kleinste Rechteck, das um den Dateiinhalt gezogen werden kann. Das ist eine Besonderheit dieses Formates und erlaubt somit die einfache Einbettung vor allem in Layoutprogramme.

Was ist der Unterschied zwischen EPS und PS?
PostScript ist im allgemeinen eine Seitenbeschreibungssprache, eine Programmiersprache und eine Kontrollsprache für Ausgabegeräte. Eine PostScript-Datei kann in einem Texteditor geöffnet werden.
Außerdem können PostScript-Dateien mithilfe eines Downloader-Programmes direkt an den Drucker geschickt werden, aber nicht in ein Layoutprogramm positionieren und sichtbar machen. Das EPS-Dateiformat füllt diese Lücke. Mit ihr wird es möglich, das Bild in ein Layoutprogramm zu importieren. Das ist deshalb möglich, weil EPS-Dateien zusätzliche Informationen beinhalten, wie beispielsweise ein Vorschaubild oder die vorher beschriebene BoundingBox. Das Einbetten bzw. Einkapseln wird durch den englischen Begriff Encapsuled ausgedrückt.

Was versteht man unter OPI und DCS?
DCS steht für Desktop Color Separation. Hierbei separiert man die Bilddaten bereits vor dem Import in das Layoutprogramm. Es entstehen hierbei 5 einzelne Dateien. Für jede Farbe eine Datei plus ein Grobdatenbild, das niedrig aufgelöst wird. Dieses Grobdatenbild wird benutzt um im Layoutprogramm mit dem DCS zu arbeiten.
Durch das Open Prepress Interface OPI kann man diese DCS Dateien an die Arbeitsplatzrechner mit den Layoutprogrammen verteilen und verwalten. Das hat den Vorteil, dass nicht mehr große Datenmengen über das Netzwerk geschickt werden müssen, weil nur mit dem Großdatenbild zur Vorschau gearbeitet wird. Die separierten Daten können dann direkt zum Drucker geschickt werden. Wird das Bild jedoch an einem Arbeitsplatz verändert, werden diese Veränderungen von der OPI-Software (z. B. EtherShare) berücksichtigt und verwaltet.
OPI ermöglicht somit einen schnellen Datentransfer zwischen File Server und Layoutprogramm, sowie Belichter und Drucker.

Wodurch unterscheiden sich Kanal, Pfad und Beschneidungspfad?
Ein Kanal enthält die Farbinformation für eine Farbe des verwendeten Farbmodells, zb RGB (3 Kanäle) oder CMYK (4 Kanäle). Allerdings kann auch eine Auswahl als Alpha-Kanal gespeichert werden.
Ein Pfad beschreibt eine weitere Möglichkeit, eine komplexe Auswahl im Bildbearbeitungsprogramm zu erstellen. Diese kann jedoch nur im Bildbearbeitungsprogramm gespeichert werden, also z. B. in der PSD-Datei.
Ein Beschneidungspfad ist im Wesentlichen ein normaler Pfad mit einer Besonderheit: Alles außerhalb des Pfades erscheint transparent. So kann ein Objekt vom Hintergrund freigestellt abgespeichert werden. Das ist eine Besonderheit des EPS-Formates und ist hier einzigartig.

Plattformübergreifend?
Eine EPS-Datei ist zwar für alle Betriebssysteme lesbar, allerdings gibt es hier Unterschiede. Beim Mac wird das Vorschaubild nicht innerhalb der EPS-Datei abgespeichert, sondern in einem sogenannten Ressource-Fork im Dateisystem. So etwas gibt es auf Windows-Systemen nicht. Windows-Systeme speichern das Vorschaubild als Image Header im Prolog der EPS-Datei im TIF-Format ab. Streng genommen ist eine EPS-Datei also nicht plattformübergreifend, weil nicht für alle Plattformen die selben Bedingungen gelten.

Einsatzgebiete / Print- oder/und Nonprint-tauglich?
EPS-Dateien werden ausschließlich im Print-Bereich verwendet. EPS-Dateien lassen sich nicht im Webbrowser darstellen. Sie werden daher vor allem für Layoutprogramme verwendet. In der Regel sind EPS-Dateien auch sehr groß, weil Daten hochaufgelöst vorliegen.

Werden Informationen zur Bildherkunft und Copyright gesichert?
EPS-Dateien können nativ einige Metadaten enthalten, wie den Autor des Dokuments, das Datum der Erzeugung der Datei und so weiter. Allerdings gibt es keine speziellen Felder für die Bildherkunft oder das Copyright. Photoshop bettet allerdings beim Speichern auch XMP-Metadaten mit ein. Somit lassen sich also auch solche Informationen speichern.

7 Fragen
1. Was ist ein Beschneidungspfad?
2. Was ist der Unterschied zwischen einer PS und einer EPS-Datei?
3. Warum braucht die EPS-Datei nur halb so viel Speicher, wenn man sie binär abspeichert?
4. Was versteht man unter Desktop Color Separation?
5. Was beschreibt das Open Prepress Interface?
6. Aus welchen drei Teilen besteht eine EPS-Datei?
7. Was ist die BoundingBox?