Zahlzeichen in Unicode

Neben Buchstaben und anderen Schriftzeichen kodiert Unicode auch eine Reihe von Zahlzeichen für verschiedene Zahlschriften. Neben verschiedenen Formen der Dezimalziffern sind auch chinesische Zahlen und historische Zahlzeichen wie römische Zahlen kodiert. Weiter gibt es auch Brüche und verschiedene aus Zahlen abgeleitete Symbole.

Allgemeines

Um mit Zahlzeichen zu arbeiten, stellt der Unicode-Standard zwei Eigenschaften zur Verfügung: Numeric_Type gibt an, um was für eine Art von Zahlzeichen es sich handelt. Der Wert decimal kennzeichnet ein Zeichen dabei als Dezimalziffer, sodass Programme leicht den numerischen Wert einer Folge solcher Zahlzeichen bestimmen können. Bei anderen Zahlzeichen können komplexere Umrechnungen notwendig sein, etwa bei römischen Zahlen. Den numerischen Wert eines Zeichens kann man an der Eigenschaft Numeric_Value ablesen. Die kodierten Zahlzeichen umfassen einen Wertebereich von −½ (༳, U+0F33, Tibetisch) bis 1.000.000.000.000 (兆, U+5146, Chinesisch und 𖭡, U+16B61, Pahawh Hmong).[1]

Nicht als Zahlzeichen betrachtet werden Zeichen, die nur manchmal zur Darstellung von Zahlen genutzt werden. So haben in einer Aufzählung, die Buchstaben verwendet (a) … b) … c) …) die Buchstaben die Werte 1 bis 3, da dies aber nicht die Hauptverwendung darstellt, werden sie von Unicode als Buchstaben, nicht als Zahlen behandelt.

Kodierte Zeichen

Dezimalziffern

Die indischen Dezimalziffern werden in vielen verschiedenen Schriften in abweichenden Formen verwendet. Unicode kodiert daher die Ziffern für die einzelnen Schriftsysteme jeweils extra. Als „europäisch“ werden dabei die Ziffernformen bezeichnet, die sich ursprünglich in Europa entwickelten, heute aber weltweit in Gebrauch sind. Daneben gibt es die Ziffern im Arabischen und verschiedenen indischen Schriften. N’Ko fällt aus dem Rahmen, da hier Zahlen von rechts nach links geschrieben werden.

FormZiffernBlock
Europäisch0123456789Basis-Lateinisch
Arabisch٠١٢٣٤٥٦٧٨٩Arabisch
Arabisch
(Iran, Pakistan, Afghanistan)
۰۱۲۳۴۵۶۷۸۹
Devanagari०१२३४५६७८९Devanagari
Bengalisch০১২৩৪৫৬৭৮৯Bengalisch
Gurmukhi੦੧੨੩੪੫੬੭੮੯Gurmukhi
Gujarati૦૧૨૩૪૫૬૭૮૯Gujarati
Oriya୦୧୨୩୪୫୬୭୮୯Oriya
Tamilisch௦௧௨௩௪௫௬௭௮௯Tamilisch
Telugu౦౧౨౩౪౫౬౭౮౯Telugu
Kannada೦೧೨೩೪೫೬೭೮೯Kannada
Malayalam൦൧൨൩൪൫൬൭൮൯Malayalam
Tibetisch༠༡༢༣༤༥༦༧༨༩Tibetisch
Lepcha᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉Lepcha
Limbu᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏Limbu
Saurashtra꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙Saurashtra
Sharada𑇐𑇑𑇒𑇓𑇔𑇕𑇖𑇗𑇘𑇙Sharada
Takri𑛀𑛁𑛂𑛃𑛄𑛅𑛆𑛇𑛈𑛉Takri
Chakma𑄶𑄷𑄸𑄹𑄺𑄻𑄼𑄽𑄾𑄿Chakma
Meitei-Mayek꯰꯱꯲꯳꯴꯵꯶꯷꯸꯹Meitei-Mayek
Ol Chiki᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙Ol Chiki
Sorang-Sompeng𑃰𑃱𑃲𑃳𑃴𑃵𑃶𑃷𑃸𑃹Sorang-Sompeng
Brahmi𑁦𑁧𑁨𑁩𑁪𑁫𑁬𑁭𑁮𑁯Brahmi
Thailändisch๐๑๒๓๔๕๖๗๘๙Thailändisch
Laotisch໐໑໒໓໔໕໖໗໘໙Laotisch
Birmanisch၀၁၂၃၄၅၆၇၈၉Birmanisch
Birmanisch
(Shan)
႐႑႒႓႔႕႖႗႘႙
Khmer០១២៣៤៥៦៧៨៩Khmer
Neu-Tai-Lue᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙Neu-Tai-Lue
Lanna (säkular)᪀᪁᪂᪃᪄᪅᪆᪇᪈᪉Lanna
Lanna (sakral)᪐᪑᪒᪓᪔᪕᪖᪗᪘᪙
Kayah Li꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉Kayah Li
Cham꩐꩑꩒꩓꩔꩕꩖꩗꩘꩙Cham
Balinesisch᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙Balinesisch
Javanisch꧐꧑꧒꧓꧔꧕꧖꧗꧘꧙Javanisch
Sundanesisch᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹Sundanesisch
Mongolisch᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙Mongolisch
Osmaniya𐒠𐒡𐒢𐒣𐒤𐒥𐒦𐒧𐒨𐒩Osmaniya
N’Ko߀߁߂߃߄߅߆߇߈߉N’Ko
Vai꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩Vai

Daneben gibt es weitere Blöcke, die aus den europäischen Ziffern abgeleitete Symbole enthalten, etwa eingekreiste Zahlen.

Buchstabenbasierte Zahlzeichen

Viele Zahlensysteme verwenden die gewöhnlichen Buchstaben der Schrift, um Zahlen darzustellen. Solche Buchstaben werden in Unicode nicht als Zahlzeichen angesehen, auch werden sie in den meisten Fällen nicht doppelt kodiert. Es gibt aber auch einige Zahlensysteme, deren Zahlzeichen zwar auf den Buchstaben aufbauen, sich aber von diesen unterscheiden. So enthält der Unicodeblock Altgriechische Zahlzeichen eine Reihe von altgriechischen akrophonischen Zahlzeichen für die griechische Zahlschrift.

Ein besonderer Fall sind die römischen Zahlen. Hier sind die Zahlen von 1 bis 12, sowie 50 (L), 100 (C), 500 (D) und 1000 (M) im Unicodeblock Zahlzeichen zusammen mit den Zeichen für 5000 und 10.000 extra kodiert. Diese sind vor allem zur Verwendung mit den Zeichen ostasiatischer Schriften in Unicode gedacht, da sie im Spaltenlayout nicht wie normale Buchstaben um 90° gedreht dargestellt werden. In anderen Fällen aber sollten römische Zahlen aus den gewöhnlichen lateinischen Buchstaben zusammengesetzt werden.

Chinesische Zahlzeichen

Die Zeichen für die chinesische Zahlschrift sind zusammen mit den anderen CJK-Zeichen im Unicodeblock Vereinheitlichte CJK-Ideogramme kodiert. Ebenfalls kodiert sind wie für die europäischen Dezimalziffern auch eingekreiste Formen. Auch die älteren Stabziffern haben mit dem Unicodeblock Zählstabziffern einen eigenen Block.

Weitere Zahlzeichen

Weitere Zahlzeichen sind meist zusammen mit den Buchstaben einer Schrift im selben Block kodiert. Weitere Blöcke, die speziell Zahlzeichen gewidmet sind, sind die Blöcke Ägäische Zahlzeichen, Keilschrift-Zahlzeichen und -Interpunktion, Koptische Zahlzeichen und Singhalesische Zahlzeichen.

Brüche

Neben Zeichen für ganze Zahlen beinhaltet Unicode auch eine Reihe von Brüchen aus verschiedenen Zahlschriften. Für die europäischen Zahlen liegen diese hauptsächlich im Unicodeblock Zahlzeichen. Nordindische Brüche liegen im Unicodeblock Allgemeine indische Ziffern, altgriechische bei den anderen altgriechischen Zahlzeichen. Auch hier gibt es eine Reihe weiterer Zahlzeichen, die mit den Buchstaben einer Schrift zusammen in einem Block liegen.

Quellen

  • Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 15.3: Numerals. (online, PDF)

Einzelnachweise

  1. DerivedNumericValues.txt, Unicode 7.0

Auf dieser Seite verwendete Medien

New Unicode logo.svg
Unicode logo used on the Unicode Consortium website launched on 17 July 2019 (https://home.unicode.org/). Replaces the red Unicode logo.svg with different typeface for the word "Unicode" that was used on the old website.