masahif: Unicode

Posts mit dem Label Unicode werden angezeigt. Alle Posts anzeigen

Donnerstag, 16. Mai 2019

Unicode – graphisch oder logisch (small meems)

Bei den Zeichen der arabischen Schrift ist Unicode pragmatisch, nicht systematisch. Man benennt die Zeichen zwar nach ihrer Funktion bzw. ihrer Abstammung (also ein Zeichen als Modifikation eines anderen Zeichen, das aber nicht nach seiner Gestalt, sondern nach seinem Laut-Wert oder seiner Funktion benannt ist),
nimmt aber Zeichen nicht nach ihrer grammatischen Funktion auf,
sondern nach ihrer Gestalt;
man arbeitet gewissermaßen für Setzer, nicht für Sprachwissenschaftler.
Ich will das an einer Kritik Tom Milos an Unicode klarmachen.
Thomas Milo ist Setzer und Arabist; seine Kritik ist die des Arabisten.
Vier Zeilen aus seiner Unicode-Form des Nachwort des Gizeh-Drucks von 1924:

Es geht hier um das kleine Mīm, das es – wie man in der letzten Zeile deutlich sehen kann – in drei Höhen gibt.
(Ich habe am rechten Rand diese drei Zeichen wiederholt.)
Milo kritisiert Unicode aber nicht dafür. dass sie das mittlere übersehen haben, sondern dafür dass sie es zweifach kodiert haben, obwohl beide identisch seien.
Milo meint, da beide "nûn wird mîm gesprochen (iqlāb)" bedeuten, seien sie identisch und dürften nur einen Code-Wert haben.
Ich sehe es anders. Und auch ich setze dabei den Setzer-Hut und den Arabisten-Hut auf.
Ich fordere vier Zeichen,
Und nur eines der kodierten Zeichen ist richtig.
Die beiden letzten Zeichen in der letzten Zeile sind hohes kleines mīm über nûn sâkin (einmal am Wortende, einmal im Wort):
Dies ist das eigentliche iqlāb-Zeichen, es ist immer über dem nûn, ob ein bisschen höher oder tiefer, ist ohne Belang.
Die anderen drei Zeichen sind tanwīn-Zeichen und müssen deshalb – anlog zu dem gestapelten und den aufeinanderfolgenden tanwīn – dreifach kodiert werden: -am, -um, -im!
Wie alle tanwīns sitzen -am und -um über dem Buchstaben, -im darunter. Und wenn ein Buchstabe tiefer endet (wie das Grundlinien-Hamza in der letzten Zeile), dann kann -am bzw. -um tiefer sitzen als über ṭā, ẓā, lām.
Die Annahme von Unicode, dass man fatḥa+iqlāb verwenden soll statt -am, führt dazu, dass ein elektronischer muṣḥaf zuviele fatḥas enthält und zuwenig tanwīns.
Auch ich argumentiere pragmatisch.
Möglichst soll alles graphisch stimmen und grammatisch.
n → m , -am, -um, -im sehen unterschiedlich aus und haben unterschiedliche Funktion,
wandeln aber alle vokalloses nûn vor bāʾ in mîm, sei es ein nûn im Wort, sei es in einer Kasusendung.
Davon zu unterscheiden ist das ebenfalls oben sitzende isolierte Mîm (das Unicode "Initial Meem" nennt), das eine obligatorische Pause anzeigt (lāzim).
Und jetzt will ich, dass Sie noch mal genau hinsehen:
Am linken Rand gibt es zwei Mal (fast) das gleiche: ḍamma und Klein-Mīm,
aber die zwei Zeichen stehen in der dritten Zeile näher zusammen, sie sind EIN Zeichen, nämlich -um (iqlāb-ḍammatain).
Die zwei Zeichen in der letzten Zeile stehen weiter auseinander, sie gehören nicht zusammen,
sondern das ḍamma gehört zu dem Konsonanten über dem es steht, dem mīm,
und das Klein-mīm gehört zu dem Konsonanten über dem es geht, dem vokalzeichenlosen nûn.

Freitag, 28. Dezember 2018

Unicode ‒ tanwīn

Unicode ist ein Consortium von Microsoft, Xerox, Apple, Adobe und anderen. Es gibt einen Standard für alle möglichen Zeichen in der elektronischen Datenverarbeitung heraus.
Der Standard wird mit der International Standard Organisation in Genf abgestimmt.
Von Anfang an waren nicht nur die arabischen Zeichen, die für Zeitungen und gewöhnliche Bücher nötig waren, sondern auch die meisten für den Gizeh-Koran erforderlichen kodiert.
Auf Betreiben von Pakistanis und Iranern sind inzwischen ein paar Zeichen dazugekommen.
Obwohl die ägyptische Firma Harf 1996 und seither mehrere türkische Firmen Fonts herstellen, welche die in der Türkei erforderlichen Zeichen enthalten, sind diese nicht in Unicode kodiert, von in Afrika verwendeten Zeichen zu schweigen.
Türkische, marokkanische, mauretanische, senegalesische Firmen bedienen sich deshalb mit Bildern oder mit eigenmächtig belegten Zeichen (propriätere Lösungen).
Doch als erstes will ich mich nicht mit den fehlenden afrikanischen und türkischen Zeichen befassen (die teils auch sonst verwendet werden),
sondern mit den tanwīn-Zeichen, die irgendwie da sind.

Zwei Vorbemerkungen:
Zu unterscheiden ist die Eingabe (über Tastatur), die Kodierung (im Datenstrom) und die Ausgabe (vom Drucker).
Genau genommen kümmert sich Unicode nur um die Zeichenkodierung.
In der Praxis wirkt das jedoch sowohl auf die Eingabe, wie auf das Rendering.
Es gilt festzustellen, dass Unicode Zeichen grundsätzlich nach ihrem semantischen Wert – nicht nach ihrer Gestalt – definiert:
also ARABIC SIGN TAKHALLUS nicht „Small Initial-Sīn above“, ARABIC LETTER KASHMIRI YEH nicht „Yeh with small 5 below“.
Entsprechend gab es von Anfang an ARABIC FATHATAN, DAMMATAN bzw. KASRATAN und nicht „Two Fatha-Strokes above“, „Two Damma above“ bzw. „Two Kasra-Strokes below“.
Nun gibt es aber in Mag und Q24 jedes der drei Zeichen (die fatḥa+nūn, ḍamma+nūn, kasra+nūn, also /an/, /un/, /in/ sind) in drei Varianten, je nachdem vor welchen Buchstaben sie stehen. Da hier strenge Regeln gelten, muss man die Varianten nicht graphisch differenzieren (und Türken, Perser, Inder und Indonesier tun dies auch nicht), aber Maghrebiner und moderne Araber tun es.

Obwohl Unicode im allgemeinen Q52 wiedergibt, gab es anfangs nur die „normale“ Variante, später kamen OPEN FATHATAN, OPEN DAMMATAN und OPEN KASRATAN hinzu, womit, immer noch die dritte graphische Variante fehlt: Iqlāb (Austausch von nūn durch mīm); der Unicode work around, dass man fatḥa + small mīm, ḍamma + small mīm bzw. kasra + small mīm below nimmt, ist unlogisch, da es sich um fatḥatain plus Iqlāb (und nicht um fatḥa plus Iqlāb) handelt.
Übrigens hatte sich der King Fahd Glorius Quran Printing Complex (dt. KFK) mindestens zweimal an Unicode gewandt mit der Bitte, den saublöden Namen OPEN durch "Successive" zu ersetzen, weil sie auf Arabisch تتابع heißen und DER eindeutige Unterschied zum normalen (gestapelten, über-ein-andere-en) das Nach-Einander ist. Ohne je einen Grund zu geben, blieben die Herren bei ihrem verrückten Namen. Dass die Saʿudis auch noch eine graphische Änderung wollten ‒ dass bei SUCCESSIVE FATHATAN der zweite (linke) Strich über dem ersten ansetzt ‒, haben sie nicht angenommen, was kein Problem ist, da das Bild in Unicode offiziell nur ein Beispiel, nur eine mögliche Realisation des Zeichens/char ist. (Dass manche Fontgestalter das nicht recht wissen und das von Unicode veröffentliche Bild treu-doof nachahmen, braucht sie nicht zu bekümmern.)

Oben so wie der KFK es all die Jahre FALSCH geschrieben hat. Unten wie es heute allein richtig ist.
Nochmals ganz langsam, für fatḥatan stellvertretend auch für die andern beiden gesagt:
anders als fatḥa und gerades/langes fatḥa ist fatḥatan kein reines Lautzeichen (a, ā), sondern ein Kasus- und Unbestimmt-Zeichen
in DEN DREI Gestalten gleichermaßen.

Bei Indern Türken Persern wird es immer gleich geschrieben, obwohl es anders klingt

und in Bombay, Delhi, China und Indonesien gab es die Möglichkeit, das vor آ ع ح خ ه zu hörende nūn extra zu markieren
‒ was zusammen mit dem "normalen" fatḥatan dem Übereinander-fatḥatan in Afrika entspricht,
‒ wie NUR fatḥtan dem Nach-einander-Tanwīn in Afrika entspricht.
Es ist also falsch, wenn Unicode dekretiert, dass es nur zwei fatḥatain gebe, dass das dritte (das fatḥatain vor bāʾ) ein fatḥa plus klein-mīm sei.

Zwar hätte man auf die Kodierung von fatḥatain ganz verzichten können und bei der Eingabe und bei der Datenspeicherung
a) fatḥa + klein-nūn für das normale, bei der Ausgabe gestapelte Zwei-Fathas und gestapelte fatḥatain + klein-nūn anbieten können (je nach Tradition oder Gusto)
b) fatḥa + fatḥa für das offene, bei der Ausgabe versetzt aufeinanderfolgende und
c) fatḥa + klein-mīm (oben) für tamwim (das in Indien als fatḥatain plus klein-mīm ausgegeben wird) nehmen können.
Zwei Varianten mit extra Kodierungen und die dritte völlig falsch in den Datenspeicher schreiben zu müssen ‒ so, dass man in Texten nicht einfach nach Fathatain suchen kann und bei der Suche nach Fatha falsche Treffer hat ‒ das geht nicht. Übrigens gab es seit 2005 eine Gruppe von IT-Spezialisten, die man hätte zu Rate ziehen können.
Leider blieb man unter sich
Und jemand, der sowohl was von Arabisch versteht als von arabischer Kalligraphie, Thomas Milo, konnte nichts bewirken.
Vermutlich redete man zu oft aneinander vorbei. Vermutlich (!) hätte Milo lieber eine Tiefenstruktur enkodiert, die die Unicodistas gar nicht verstanden.

Bei Chinesisch, Japanisch, Koranisch hat man prinzi‒piel gleiche, gleich bedeutende Zeichen EINmal kodiert und die unterschiedlichen Ausgabe erfolgt über "locale".
So hätte man auch EIN "feh"/fāʾ definieren können, das normalerweise einen Punkte OBEN hat, beim "locale" "maghreb" einen Punkt darunter,
ein "noon"/nūn, das normalerweise immer einen Punkt darüber hat, bei "maghreb" aber in Iso- und End-Position keinen (weil dann die Form aussagekräftig genug ist).
Man hat aber die Zeichen nach der Form uni-kodiert ‒ leider mit grotesken Auswüchsen, wie ich in "Kein Standard" dargelegt habe, und wohl auch irgendwann hier ausführen werden.

masahif

blogs

Donnerstag, 16. Mai 2019

Unicode – graphisch oder logisch (small meems)

Freitag, 28. Dezember 2018

Unicode ‒ tanwīn

Afrika vs. Asien (Maġrib oder IPak)

schreib mir!

Missbrauch melden