Posts mit dem Label Unicode werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Unicode werden angezeigt. Alle Posts anzeigen

Donnerstag, 16. Mai 2019

Unicode – graphisch oder logisch (small meems)

Bei den Zeichen der arabischen Schrift ist Unicode prag­matisch, nicht syste­matisch. Man benennt die Zeichen zwar nach ihrer Funktion bzw. ihrer Abstam­mung (also ein Zeichen als Modi­fikation eines anderen Zeichen, das aber nicht nach seiner Gestalt, sondern nach seinem Laut-Wert oder seiner Funk­tion benannt ist),
nimmt aber Zeichen nicht nach ihrer gramma­tischen Funk­tion auf,
sondern nach ihrer Gestalt;
man arbeitet gewisser­maßen für Setzer, nicht für Sprach­wissen­schaftler.
Ich will das an einer Kritik Tom Milos an Unicode klarmachen.
Thomas Milo ist Setzer und Arabist; seine Kritik ist die des Arabisten.
Vier Zeilen aus seiner Unicode-Form des Nach­wort des Gizeh-Drucks von 1924:


Es geht hier um das kleine Mīm, das es – wie man in der letzten Zeile deut­lich sehen kann – in drei Höhen gibt.
(Ich habe am rechten Rand diese drei Zeichen wieder­holt.)
Milo kritisiert Unicode aber nicht dafür. dass sie das mitt­lere über­sehen haben, sondern dafür dass sie es zweifach kodiert haben, obwohl beide identisch seien.
Milo meint, da beide "nûn wird mîm gesprochen (iqlāb)" bedeuten, seien sie identisch und dürften nur einen Code-Wert haben.
Ich sehe es anders. Und auch ich setze dabei den Setzer-Hut und den Arabisten-Hut auf.
Ich fordere vier Zeichen,
Und nur eines der kodierten Zeichen ist richtig.
Die beiden letzten Zeichen in der letzten Zeile sind hohes kleines mīm über nûn sâkin (einmal am Wort­ende, einmal im Wort):
Dies ist das eigentliche iqlāb-Zeichen, es ist immer über dem nûn, ob ein bisschen höher oder tiefer, ist ohne Belang.
Die anderen drei Zeichen sind tanwīn-Zeichen und müssen des­halb – anlog zu dem gesta­pelten und den auf­einander­folgenden tan­wīn – dreifach kodiert werden: -am, -um, -im!
Wie alle tanwīns sitzen -am und -um über dem Buch­staben, -im darunter. Und wenn ein Buch­stabe tiefer endet (wie das Grund­linien-Hamza in der letzten Zeile), dann kann -am bzw. -um tiefer sitzen als über ṭā, ẓā, lām.
Die Annahme von Unicode, dass man fatḥa+iqlāb ver­wenden soll statt -am, führt dazu, dass ein elektro­nischer muṣḥaf zuviele fatḥas ent­hält und zu­wenig tanwīns.
Auch ich argumentiere pragmatisch.
Möglichst soll alles graphisch stimmen und grammatisch.
n → m , -am, -um, -im sehen unter­schiedlich aus und haben unter­schiedliche Funktion,
wandeln aber alle vokal­loses nûn vor bāʾ in mîm, sei es ein nûn im Wort, sei es in einer Kasus­endung.
Davon zu unter­scheiden ist das ebenfalls oben sitzende isolierte Mîm (das Unicode "Initial Meem" nennt), das eine obliga­torische Pause anzeigt (lāzim).
Und jetzt will ich, dass Sie noch mal genau hinsehen:
Am linken Rand gibt es zwei Mal (fast) das gleiche: ḍamma und Klein-Mīm,
aber die zwei Zeichen stehen in der dritten Zeile näher zusammen, sie sind EIN Zeichen, nämlich -um (iqlāb-ḍamma­tain).
Die zwei Zeichen in der letzten Zeile stehen weiter aus­einan­der, sie gehören nicht zusam­men,
sondern das ḍamma gehört zu dem Kon­sonanten über dem es steht, dem mīm,
und das Klein-mīm gehört zu dem Kon­sonanten über dem es geht, dem vokal­zeichen­losen nûn.

Freitag, 28. Dezember 2018

Unicode ‒ tanwīn

Unicode ist ein Consor­tium von Micro­soft, Xerox, Apple, Adobe und anderen. Es gibt einen Standard für alle möglichen Zeichen in der elek­troni­schen Daten­ver­arbei­tung heraus.
Der Standard wird mit der Interna­tional Standard Organi­sation in Genf ab­gestimmt.
Von Anfang an waren nicht nur die arabi­schen Zeichen, die für Zeitungen und gewöhn­liche Bücher nötig waren, sondern auch die meisten für den Gizeh-Koran er­forder­lichen kodiert.
Auf Betreiben von Pakistanis und Iranern sind inzwischen ein paar Zeichen dazu­gekommen.
Obwohl die ägyptische Firma Harf 1996 und seit­her mehrere tür­kische Firmen Fonts her­stel­len, welche die in der Türkei erforder­lichen Zeichen ent­hal­ten, sind diese nicht in Uni­code kodiert, von in Afrika verwen­deten Zeichen zu schwei­gen.
Türkische, marokkanische, maureta­nische, senega­lesische Firmen bedienen sich des­halb mit Bil­dern oder mit eigen­mächtig beleg­ten Zeichen (propriätere Lösungen).
Doch als erstes will ich mich nicht mit den fehlen­den afrika­nischen und türki­schen Zeichen be­fassen (die teils auch sonst ver­wendet werden),
sondern mit den tanwīn-Zeichen, die irgendwie da sind.

Zwei Vorbemerkungen:
Zu unterscheiden ist die Eingabe (über Tastatur), die Kodie­rung (im Daten­strom) und die Aus­gabe (vom Drucker).
Genau genommen kümmert sich Uni­code nur um die Zeichen­kodie­rung.
In der Praxis wirkt das jedoch sowohl auf die Ein­gabe, wie auf das Rendering.
Es gilt festzu­stellen, dass Unicode Zeichen grund­sätz­lich nach ihrem seman­ti­schen Wert – nicht nach ihrer Ge­stalt – definiert:
also ARABIC SIGN TAKHAL­LUS nicht „Small Initial-Sīn above“, ARABIC LET­TER KASHMIRI YEH nicht „Yeh with small 5 be­low“.
Entsprechend gab es von Anfang an ARABIC FATHATAN, DAMMATAN bzw. KASRATAN und nicht „Two Fatha-Strokes above“, „Two Damma above“ bzw. „Two Kasra-Strokes below“.
Nun gibt es aber in Mag und Q24 jedes der drei Zeichen (die fatḥa+nūn, ḍamma+nūn, kasra+nūn, also /an/, /un/, /in/ sind) in drei Varian­ten, je nach­dem vor welchen Buch­staben sie stehen. Da hier strenge Regeln gelten, muss man die Varian­ten nicht gra­phisch dif­feren­zieren (und Türken, Perser, Inder und Indo­nesier tun dies auch nicht), aber Magh­rebiner und moderne Araber tun es.

Obwohl Unicode im allgemeinen Q52 wieder­gibt, gab es anfangs nur die „normale“ Variante, später kamen OPEN FATHA­TAN, OPEN DAMMA­TAN und OPEN KASRA­TAN hinzu, womit, immer noch die dritte graphi­sche Vari­ante fehlt: Iqlāb (Austausch von nūn durch mīm); der Uni­code work around, dass man fatḥa + small mīm, ḍamma + small mīm bzw. kasra + small mīm below nimmt, ist un­logisch, da es sich um fatḥa­tain plus Iqlāb (und nicht um fatḥa plus Iqlāb) han­delt.
Übrigens hatte sich der King Fahd Glorius Quran Printing Complex (dt. KFK) mindestens zweimal an Unicode gewandt mit der Bitte, den sau­blöden Namen OPEN durch "Successive" zu ersetzen, weil sie auf Arabisch تتابع heißen und DER ein­deutige Unter­schied zum normalen (ge­stapel­ten, über-ein-andere-en) das Nach-Einander ist. Ohne je einen Grund zu geben, blieben die Herren bei ihrem ver­rückten Namen. Dass die Saʿudis auch noch eine gra­phi­sche Änderung woll­ten ‒ dass bei SUC­CES­SIVE FATHA­TAN der zweite (linke) Strich über dem ersten ansetzt ‒, haben sie nicht an­ge­nommen, was kein Problem ist, da das Bild in Uni­code offi­ziell nur ein Bei­spiel, nur eine mögliche Reali­sation des Zei­chens/char ist. (Dass manche Font­ge­stalter das nicht recht wissen und das von Uni­code ver­öffent­liche Bild treu-doof nach­ahmen, braucht sie nicht zu bekümmern.)
Oben so wie der KFK es all die Jahre FALSCH ge­schrieben hat. Unten wie es heute allein richtig ist.
Nochmals ganz langsam, für fatḥa­tan stell­ver­tretend auch für die andern bei­den gesagt:
anders als fatḥa und ge­rades/lan­ges fatḥa ist fatḥatan kein reines Laut­zeichen (a, ā), sondern ein Kasus- und Unbe­stimmt-Zeichen
in DEN DREI Gestalten gleicher­maßen.

Bei Indern Türken Persern wird es immer gleich geschrie­ben, obwohl es anders klingt
und in Bombay, Delhi, China und Indo­nesien gab es die Möglichkeit, das vor آ ع ح خ ه zu hörende nūn   extra zu markieren
‒ was zusammen mit dem "normalen" fatḥatan   dem Übereinander-fatḥatan in Afrika entspricht,
‒ wie NUR fatḥtan dem Nach-einander-Tanwīn in Afrika entspricht.
Es ist also falsch, wenn Unicode dekre­tiert, dass es nur zwei fatḥatain gebe, dass das dritte (das fatḥatain vor bāʾ) ein fatḥa plus klein-mīm sei.


Zwar hätte man auf die Kodierung von fatḥa­tain ganz ver­zich­ten können und bei der Eingabe und bei der Daten­speiche­rung
a) fatḥa + klein-nūn für das normale, bei der Aus­gabe ge­stapelte Zwei-Fathas und gestapelte fatḥa­tain + klein-nūn anbie­ten können (je nach Tradition oder Gusto)
b) fatḥa + fatḥa für das offene, bei der Aus­gabe versetzt auf­einander­folgende und
c) fatḥa + klein-mīm (oben) für tamwim (das in Indien als fatḥa­tain plus klein-mīm ausge­geben wird) nehmen können.
Zwei Varian­ten mit extra Kodie­rungen und die dritte völlig falsch in den Daten­speicher schrei­ben zu müssen ‒ so, dass man in Texten nicht einfach nach Fatha­tain suchen kann und bei der Suche nach Fatha falsche Treffer hat ‒ das geht nicht. Übrigens gab es seit 2005 eine Gruppe von IT-Spezia­listen, die man hätte zu Rate ziehen können.
Leider blieb man unter sich
Und jemand, der sowohl was von Arabisch versteht als von ara­bi­scher Kalli­gra­phie, Thomas Milo, konnte nichts bewirken.
Vermutlich redete man zu oft anein­ander vorbei. Vermutlich (!) hätte Milo lieber eine Tiefen­struktur enkodiert, die die Unicodistas gar nicht verstanden.

Bei Chinesisch, Japanisch, Koranisch hat man prinzi‒piel gleiche, gleich bedeutende Zeichen EINmal kodiert und die unterschied­lichen Ausgabe erfolgt über "locale".
So hätte man auch EIN "feh"/fāʾ definieren können, das normaler­weise einen Punkte OBEN hat, beim "locale" "maghreb" einen Punkt darunter,
ein "noon"/nūn, das normalerweise immer einen Punkt darüber hat, bei "maghreb" aber in Iso- und End-Position keinen (weil dann die Form aussage­kräftig genug ist).
Man hat aber die Zeichen nach der Form uni-kodiert ‒ leider mit grotesken Auswüchsen, wie ich in "Kein Standard" dargelegt habe, und wohl auch irgendwann hier ausführen werden.

Afrika vs. Asien (Maġrib oder IPak)

Es gibt viele verschiedene Arten, den Koran zu schreiben. Man kann sie in zwei Grup­pen einteilen: Afrika, Andalusien, (seit 1924 bzw. 198...