masahif: Unicode ‒ tanwīn

Freitag, 28. Dezember 2018

Unicode ‒ tanwīn

Unicode ist ein Consortium von Microsoft, Xerox, Apple, Adobe und anderen. Es gibt einen Standard für alle möglichen Zeichen in der elektronischen Datenverarbeitung heraus.
Der Standard wird mit der International Standard Organisation in Genf abgestimmt.
Von Anfang an waren nicht nur die arabischen Zeichen, die für Zeitungen und gewöhnliche Bücher nötig waren, sondern auch die meisten für den Gizeh-Koran erforderlichen kodiert.
Auf Betreiben von Pakistanis und Iranern sind inzwischen ein paar Zeichen dazugekommen.
Obwohl die ägyptische Firma Harf 1996 und seither mehrere türkische Firmen Fonts herstellen, welche die in der Türkei erforderlichen Zeichen enthalten, sind diese nicht in Unicode kodiert, von in Afrika verwendeten Zeichen zu schweigen.
Türkische, marokkanische, mauretanische, senegalesische Firmen bedienen sich deshalb mit Bildern oder mit eigenmächtig belegten Zeichen (propriätere Lösungen).
Doch als erstes will ich mich nicht mit den fehlenden afrikanischen und türkischen Zeichen befassen (die teils auch sonst verwendet werden),
sondern mit den tanwīn-Zeichen, die irgendwie da sind.

Zwei Vorbemerkungen:
Zu unterscheiden ist die Eingabe (über Tastatur), die Kodierung (im Datenstrom) und die Ausgabe (vom Drucker).
Genau genommen kümmert sich Unicode nur um die Zeichenkodierung.
In der Praxis wirkt das jedoch sowohl auf die Eingabe, wie auf das Rendering.
Es gilt festzustellen, dass Unicode Zeichen grundsätzlich nach ihrem semantischen Wert – nicht nach ihrer Gestalt – definiert:
also ARABIC SIGN TAKHALLUS nicht „Small Initial-Sīn above“, ARABIC LETTER KASHMIRI YEH nicht „Yeh with small 5 below“.
Entsprechend gab es von Anfang an ARABIC FATHATAN, DAMMATAN bzw. KASRATAN und nicht „Two Fatha-Strokes above“, „Two Damma above“ bzw. „Two Kasra-Strokes below“.
Nun gibt es aber in Mag und Q24 jedes der drei Zeichen (die fatḥa+nūn, ḍamma+nūn, kasra+nūn, also /an/, /un/, /in/ sind) in drei Varianten, je nachdem vor welchen Buchstaben sie stehen. Da hier strenge Regeln gelten, muss man die Varianten nicht graphisch differenzieren (und Türken, Perser, Inder und Indonesier tun dies auch nicht), aber Maghrebiner und moderne Araber tun es.

Obwohl Unicode im allgemeinen Q52 wiedergibt, gab es anfangs nur die „normale“ Variante, später kamen OPEN FATHATAN, OPEN DAMMATAN und OPEN KASRATAN hinzu, womit, immer noch die dritte graphische Variante fehlt: Iqlāb (Austausch von nūn durch mīm); der Unicode work around, dass man fatḥa + small mīm, ḍamma + small mīm bzw. kasra + small mīm below nimmt, ist unlogisch, da es sich um fatḥatain plus Iqlāb (und nicht um fatḥa plus Iqlāb) handelt.
Übrigens hatte sich der King Fahd Glorius Quran Printing Complex (dt. KFK) mindestens zweimal an Unicode gewandt mit der Bitte, den saublöden Namen OPEN durch "Successive" zu ersetzen, weil sie auf Arabisch تتابع heißen und DER eindeutige Unterschied zum normalen (gestapelten, über-ein-andere-en) das Nach-Einander ist. Ohne je einen Grund zu geben, blieben die Herren bei ihrem verrückten Namen. Dass die Saʿudis auch noch eine graphische Änderung wollten ‒ dass bei SUCCESSIVE FATHATAN der zweite (linke) Strich über dem ersten ansetzt ‒, haben sie nicht angenommen, was kein Problem ist, da das Bild in Unicode offiziell nur ein Beispiel, nur eine mögliche Realisation des Zeichens/char ist. (Dass manche Fontgestalter das nicht recht wissen und das von Unicode veröffentliche Bild treu-doof nachahmen, braucht sie nicht zu bekümmern.)

Oben so wie der KFK es all die Jahre FALSCH geschrieben hat. Unten wie es heute allein richtig ist.
Nochmals ganz langsam, für fatḥatan stellvertretend auch für die andern beiden gesagt:
anders als fatḥa und gerades/langes fatḥa ist fatḥatan kein reines Lautzeichen (a, ā), sondern ein Kasus- und Unbestimmt-Zeichen
in DEN DREI Gestalten gleichermaßen.

Bei Indern Türken Persern wird es immer gleich geschrieben, obwohl es anders klingt

und in Bombay, Delhi, China und Indonesien gab es die Möglichkeit, das vor آ ع ح خ ه zu hörende nūn extra zu markieren
‒ was zusammen mit dem "normalen" fatḥatan dem Übereinander-fatḥatan in Afrika entspricht,
‒ wie NUR fatḥtan dem Nach-einander-Tanwīn in Afrika entspricht.
Es ist also falsch, wenn Unicode dekretiert, dass es nur zwei fatḥatain gebe, dass das dritte (das fatḥatain vor bāʾ) ein fatḥa plus klein-mīm sei.

Zwar hätte man auf die Kodierung von fatḥatain ganz verzichten können und bei der Eingabe und bei der Datenspeicherung
a) fatḥa + klein-nūn für das normale, bei der Ausgabe gestapelte Zwei-Fathas und gestapelte fatḥatain + klein-nūn anbieten können (je nach Tradition oder Gusto)
b) fatḥa + fatḥa für das offene, bei der Ausgabe versetzt aufeinanderfolgende und
c) fatḥa + klein-mīm (oben) für tamwim (das in Indien als fatḥatain plus klein-mīm ausgegeben wird) nehmen können.
Zwei Varianten mit extra Kodierungen und die dritte völlig falsch in den Datenspeicher schreiben zu müssen ‒ so, dass man in Texten nicht einfach nach Fathatain suchen kann und bei der Suche nach Fatha falsche Treffer hat ‒ das geht nicht. Übrigens gab es seit 2005 eine Gruppe von IT-Spezialisten, die man hätte zu Rate ziehen können.
Leider blieb man unter sich
Und jemand, der sowohl was von Arabisch versteht als von arabischer Kalligraphie, Thomas Milo, konnte nichts bewirken.
Vermutlich redete man zu oft aneinander vorbei. Vermutlich (!) hätte Milo lieber eine Tiefenstruktur enkodiert, die die Unicodistas gar nicht verstanden.

Bei Chinesisch, Japanisch, Koranisch hat man prinzi‒piel gleiche, gleich bedeutende Zeichen EINmal kodiert und die unterschiedlichen Ausgabe erfolgt über "locale".
So hätte man auch EIN "feh"/fāʾ definieren können, das normalerweise einen Punkte OBEN hat, beim "locale" "maghreb" einen Punkt darunter,
ein "noon"/nūn, das normalerweise immer einen Punkt darüber hat, bei "maghreb" aber in Iso- und End-Position keinen (weil dann die Form aussagekräftig genug ist).
Man hat aber die Zeichen nach der Form uni-kodiert ‒ leider mit grotesken Auswüchsen, wie ich in "Kein Standard" dargelegt habe, und wohl auch irgendwann hier ausführen werden.

masahif

blogs

Seiten

Freitag, 28. Dezember 2018

Unicode ‒ tanwīn

Keine Kommentare:

Kommentar veröffentlichen

iẓhār nūn ii

schreib mir!

Missbrauch melden