Cldr, Unicode, i caratteri ausiliari e altro
Unicode è il consorzio che ha assegnato a qualunque lettera di qualunque alfabeto esistente o esistito un numero ben preciso. Ha fatto lo stesso con tutti gli altri caratteri tipografici riconosciuti: punteggiatura, simboli matematici, numeri, eccetera. E ha l'ultima parola in merito alle emoji che vengono proposte di anno in anno. Le sue decisioni vengono riconosciute dalle princpiali aziende di software mondiali. Dopo che Unicode ha approvato l'uso di un'emoji, piano piano questa inizia a comparire nei menù di tutti i messenger.
Tuttavia Unicode non si occupa soltanto di questo, ma prende decisioni che riguardano la formattazione di testi in tutte le lingue, date, orari e tante altre cose pressoché incomprensibili per gran parte della gente. Gli sviluppatori software delle varie aziende però devono tenerne conto, specie se i loro programmi informatici sono diffusi in tutto il mondo o devono gestire testi provenienti da tutto il mondo.
L'ultimo aggiornamento sul blog di Unicode risale all'inizio di questo mese, e annuncia la nuova versione del CLDR.
CLDR significa Common Locale Data Repository, e contiene appunto istruzioni su come trattare informazioni particolari in varie lingue. Apple, Google, Ibm, Meta e Microsoft adattano i loro software a queste istruzioni, così come tante altre aziende meno famose.
Tra le tante cose che vengono catalogate da Unicode ci sono le lettere dell'alfabeto o comunque i caratteri di base di una scrittura, che in alcune lingue possono comprendere anche sillabe o ideogrammi.
Ogni scrittura si basa su caratteri esemplari e ausiliari.
"Per una data lingua, ci sono alcuni fattori che aiutano a determinare se un carattere appartiene al set ausiliario anziché a quello principale: - Il carattere non è disponibile su tutte le normali tastiere; - è accettabile usare spelling che evitano quel carattere".
Il sito di Unicode fa l'esempio della lingua inglese: il set esemplare contiene sono le lettre dell'alfabeto. Non contiene le lettere accentate, dato che parole come "résumé" possono essere scritte senza gli accenti.
In francese invece il set esemplare deve contenere alcune vocali con gli accenti grave, acuto, circonflesso e con la dieresi, le legature ae e oe, la c con la cedille.
Mi chiedo se si può consultare da qualche parte il set previsto per la lingua italiana.
Trovo una pagina intitolata Locale Data Summary For Italian, che in effetti oggi si carica con un po' di difficoltà.
Lo schema è valido per Italia, San Marino, Svizzera e Città del Vaticano.
La tabella è lunga e lascia un po' disorientati. Comunque nella prima riga si trovano i caratteri in uso. Ci sono due caselle: una col set inglese, che comprende solo le lettere dell'alfabeto, una col set nativo italiano. Dove vediamo le stesse lettere dell'alfabeto inglese con l'aggiunta di due e e due o accentate, e più una à, una ì e una ù accentata.
Prevedibile? Beh sì, perché sono appunto le lettere accentate che compaiono sulle tastiere, anche se a dire la verità sulla mia tastiera c'è soltanto una delle due o accentate.
Nella casella sottostante vediamo i caratteri ausiliari in uso. Ci sono le altre vocali accentate non presenti sulla tastiera, la a col circonflesso, con l'anello, con la dieresi e con la tilde, la legatura ae, la c con cediglia, la e col circonflesso e con la dieresi, la i con la tilde e la dieresi, la o col circonflesso, con la dieresi e con la tilde, la legatura oe, la doppia s tedesca, la u col circonflesso e con la dieresi, la y con la dieresi. In più ci sono la a e la o in apice, che si usano per i numero ordinali.
Nella casella sottostante troviamo le maiuscole, e qui c'è solo l'alfabeto. In effetti le maiuscole accentate non sono inseribili da tastiera, tuttavia la terza persona del verbo essere, è, viene accentata anche in versione maiuscola nell'uso comune, anche se qui non risulta.
Ci sono altre due caselle dedicate ai caratteri in uso: numeri, che comprende le dieci cifre, il più e il meno, il simbolo della percentuale e del per mille, il punto e la virgola; e punteggiatura, che comprende trattini vari, virgola, punto e virgola, due punti, esclamativo, interrogativo, puntini sospensivi, virgolette alte e basse, parentesi tonde quadre e graffe, e la chiocciola.
Il resto della tabella contiene la traduzione dall'inglese all'italiano dei nomi delle varie lingue, degli Stati del mondo, dei sistemi di numerazione, delle parole che indicano giorni e ore, mesi, periodi di tempo in genere e così via.
Ci sono perfino i nomi delle ere giapponesi, e la traduzione eventuale dei nomi di decine di città: Paris-Parigi, Prague-Praga...
Seguono i nomi di tutte le valute, delle unità (di durata, grafiche, di lunghezza, di volume, velocità, massa, energia, elettricità, meteorologia, digitali...).
Troviamo poi i nomi e le parole collegate a ciascuna emoji: quella che in inglese si chiama "rolling on the floor laughing" (rotolarsi a terra dal ridere) in italiano si chiama "ridere a crepapelle".
Quella che in inglese si chiama "woozy face" in italiano si chiama "faccina stordita" ed è collegata alle parole "faccina con occhi semiaperti / faccina stordita / frastornato /vertigini".
Alcune delle parole tradotte riguardano gli stili tipografici: "narrow" si traduce "stretto", "expanded" è "espanso", "extended"="esteso", "wide"="largo", "thin"="sottile".




Commenti
Posta un commento