Zeichensatz

Unter einem Zeichensatz versteht man einen Vorrat an Elementen, Zeichen genannt, aus denen sich Zeichenketten zusammenstellen lassen. Solche Elemente können unter anderem die Buchstaben eines Alphabetes, Ziffern, aber auch andere Symbole sein, etwa die Sonderzeichen, die Zeichen der Lautumschrift des IPA-Codes oder der Brailleschrift, Piktogramme verschiedener Art oder Steuerzeichen. Ein Zeichensatz ist weniger als ein Zeichencode, der zusätzlich noch eine definierte Nummerierung der Zeichen des Zeichensatzes enthalten muss. Insoweit sind die unten aufgeführten Beispiele wie ASCII streng genommen schon ein Zeichencode. In der Informationstechnik benötigt man neben dem definierten Zeichensatz auch die Nummerierung der Schriftzeichen und damit einen Zeichencode. In Zeiten des Internets müssen die verwendeten Zeichencodes international genormt sein, um reibungslosen Datenaustausch zu gewährleisten. Dieser Druck reduziert die frühere Vielfalt der Zeichencodes enorm.

Die grafische Ausgestaltung eines Zeichens heißt Schriftzeichen oder Glyph, die des ganzen Zeichensatzes Schriftart bzw. Satz (englisch Font), die Regeln der Zeichensetzung Interpunktionsregeln.

Zeichensätze in wissenschaftlichen Formalismen

Typische Zeichensätze sind etwa:

Einheitenzeichen der Einheiten von physikalischen Größen
Formelzeichen und mathematische Symbole

Zeichensätze für Computersysteme

Traditionell in der Informatik bekannte Zeichenkodierungen sind der ASCII- und der EBCDIC-Code. Letzterer hat allerdings stark an Bedeutung verloren. Zunehmend in den Vordergrund getreten sind Zeichensätze mit international notwendigen Zeichen, die über das Englische hinausgehen, z. B. diesbezügliche Zeichensätze gemäß ANSI und insbesondere der international anerkannte Standard Unicode.

Name	Einführung	Bit	Codepoints	darstellbare Zeichen	Normen	erster Einsatz
ASCII	1963	7	128	95	ANSI X3.4-1968	Fernschreiber Teletype ASR-33
EBCDIC	1964	8	256	93 bis 192		IBM-Großrechner
Unicode	1991	21	1.114.112	120.737 (Unicode 8.0)	ISO 10646	Xerox, Apple

Ein Teil der Zeichen eines Zeichensatzes sind die darstellbaren Zeichen. Ihre Anzahl ist geringer als die Zahl der insgesamt im Zeichensatz vorgesehenen Zeichen, da ein Teil des Zeichenvorrates für andere Zwecke, zum Beispiel als nicht-druckbare Steuerzeichen verwendet wird.

Den Teil der Computerhardware, der die Zeichen auf einem Bildschirm oder auch einem Plotter sichtbar werden lässt, nennt man Zeichengenerator.

Internationale Zeichensätze

ASCII – Einer der ältesten Computer-Zeichensätze (1963)
ISO 646 – Definiert nationale ASCII-Varianten in 7-Bit-Kodierung (1972)
ISO/IEC 8859-Familie – Mit 15 verschiedenen Zeichenkodierungen zur Abdeckung aller europäischen Sprachen sowie arabisch, hebräisch, thailändisch und türkisch (1986)
Unicode und ISO/IEC 10646 – Der internationale Standard, auf dem fast alle modernen Computer basieren (1991)
DIN 91379 – Teilmenge von Unicode für die elektronische Verarbeitung von Namen und den Datenaustausch in Europa (2022)

Zeichensätze von Computerfirmen

EBCDIC, von IBM entwickelter Zeichensatz (1964)
Macintosh Roman, MacCyrillic und andere proprietäre Zeichensätze für Apple-Mac-Computer vor Mac OS X, welches Unicode verwendet
PETSCII, der Zeichensatz der 8-Bit-Commodore-Computer
Commodore Amiga, von ISO-8859-1 abgeleiteter Zeichensatz der 16-Bit-Commodore-Computer („Amiga“)
Windows- und DOS-Codepages, z. B. Windows-1252 und MS-DOS Codepage 437, Codepage 850
Windows Glyph List 4

Nationale Varianten

ARMSCII – Armenisch
Big5 – Zeichensatz für traditionelle chinesische Schriftzeichen (Taiwan, Auslandschinesen)
DIN 66003 – Deutsch, nationale Variante von ISO 646 (1974)
EUC (Extended UNIX Coding) – Mehrere ostasiatische Sprachen
GEOSTD – Georgisch
Guojia Biaozhun (GB) – Zeichensatz für vereinfachte chinesische Schriftzeichen
HKSCS – Ein Standard aus Hongkong für kantonesisch (1999)
ISCII – Alle indischen Sprachen
KOI8-R – Russisch
KOI8-U – Ukrainisch
Shift-JIS, auch SJIS – Japanisch, entworfen von Microsoft
TIS-620 – Thailändisch, ähnlich ISO 8859-11 (1990)
TSCII – Tamil
VISCII – Vietnamesisch

Siehe auch

Teletext-Zeichensätze (ETSI EN 300 706)
Mojibake

Literatur

The Unicode Standard, Version 6.0.0. The Unicode Consortium, Mountain View CA 2011, ISBN 978-1-936213-01-6
Johannes Bergerhausen, Siri Poarangan: decodeunicode: Die Schriftzeichen der Welt. Hermann Schmidt, Mainz 2011, ISBN 978-3-87439-813-8
Richard Gillam: Unicode Demystified, a practical programmer’s guide to the encoding standard. Addison-Wesley, Boston MA 2003, ISBN 0-201-70052-2

Weblinks

Commons: Zeichensätze – Sammlung von Bildern, Videos und Audiodateien

Wiktionary: Zeichensatz – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Joel Spolsky: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!). 8. Oktober 2003
schoenitzer.de – Grundwissen und Umgang mit Encodings

Navigation