Filtri lingua indesiderati, codifica url, traslitterazioni dal cirillico

Ho cercato su Duckduckgo la parola “Ferrari” scritta in cirillico, per vedere cosa veniva fuori.

Tra i risultati generici ce n’erano moltissimi scritti in lettere latine, a partire dal sito ufficiale.

Nella sezione Notizie invece non veniva fuori niente, anche se l’interruttore che isola soltanto i siti web italiani era disattivato. Possibile che nessun sito al mondo abbia riportato di recente notizie sulla Ferrari in cirillico?

In realtà il sito dà la possibilità di impostare un filtro. Quindi basta scorrere la lista dei Paesi disponibili e sceglierne uno per ottenere tanti risultati che a prima botta erano stati nascosti.

Selezionando Russia il primo risultato è la notizia di Sainz che parla del suo probabile addio alla Ferrari, mentre il secondo è attinto dal sito Champion.com.ua.

Ua, per chi non lo sapesse, è il suffisso dei siti ucraini. Anche in Ucraina si usa l’alfabeto cirillico, con poche varianti. Evidentemente il filtro non è troppo accurato nel seguire i confini dei Paesi.

Ovviamente l’Ucraina compare nella lista. La seleziono e... non trovo niente.

“Nessun notizie trovato”, dice il sito.

Ma lo sappiamo che la notizia c’era, su un sito con dominio ucraino, e scritta in cirillico. E come è possibile che non viene trovata?

Provo a cercare la parola “Ferrari” in lettere latine.

Col filtro impostato sull’Ucraina, niente. Col filtro impostato sulla Russia, vengono fuori tanti risultati in cui l’articolo è scritto in cirillico, ma la parola Ferrari viene lasciata in lettere latine, così come tutte le parole occidentali.

Solo scorrendo le anteprime che si vedono sul motore di ricerca, riconosco in mezzo al testo russo le parole Christie’s, Pinin Farina, The Exceptional Sale, Car Scoops, Williams Racing, AirPods, Apple.

Insomma,a quanto pare molti siti passano da un alfabeto all’altro con naturalezza quando parlano di prodotti occidentali.

Il testo della query finisce nell’indirizzo della pagina. Che mi sembra strano: non si è detto che negli indirizzi web ci possono essere soltanto i caratteri Ascii?

Infatti è così: se copio il testo presente nella barra degli indirizzi e lo incollo dentro Blocco Note trovo che tutte le lettere cirilliche sono convertite nella notazione col simbolo della percentuale.

Una F cirillica maiuscola diventa %D0%A4, mentre la minuscola è %D1%84. In Unicode sarebbero rispettivamente i caratteri U+0424 e U+0444.

Evidentemente il browser (Firefox) effettua una conversione istantanea: per connettersi usa la notazione con la percentuale, ma per visualizzare il testo usa le lettere cirilliche.

Per sperimentare un po’ su questa cosa delle conversioni si può andare sul sito url-encode-decode.

Wikipedia in italiano non ha una voce dedicata, ma quella in inglese sì, ed è intitolata Percent-encoding.

E Google come si comporta con i filtri?

Cercando la parola “Ferrari” scritta in cirillico, il sito si comporta come se l’avessimo cercata in italiano, e restituisce solo risultati in lingua italiana tratti da siti web italiani. E non c’è neanche la bandierina per cambiare Paese.

Il pulsante Strumenti contiene solo la possibilità di cercare specificamente le parole in italiano, o solo quelle dell’ultimo giorno-settimana-mese-anno, e di ordinarle per data o per pertinenza.

C’è un pulsante di Ricerca Avanzata, che apparentemente non porta a nessuna opzione particolarmente interessante, sicuramente a nessuna bandierina.

Ma nella pagina a cui si arriva cliccandoci c’è un piccolo pulsante Impostazioni che neanche si nota (quello col disegno dell’ingranaggio), che permette di selezionare la Lingua E Regione Di Interesse.

Scrivendo la parola “Russo” vengono fuori due risultati in cirillico (senza bandiere): “Russo (Russia)” e “Russo (Ucraina)”.

Cliccando sul secondo e ripetendo la ricerca, ecco di nuovo tutti i risultati desiderati.

L’alfabeto cirillico non si usa soltanto nei paesi di lingua russa, ma anche in Bulgaria, nella ex Yugoslavia, e anche per molte lingue non slave che si parlano in alcune rrepubbliche ex sovietiche (turkmeno, tagico, kazaco, uzbeco, kirghiso...).

Provo ad impostare la lingua bulgara, ed ecco uscire tanti siti di notizie con dominio .bg.

A prima vista il risultato mi lascia un po’ spiazzato, perché tutti i titoli sono in una sorta di upright-italic: le lettere hanno l’asse verticale, ma la forma è quella del corsivo. La t minuscola cirillica è uguale alla nostra T maiuscola, ma in corsivo è uguale alla nostra m minuscola.

Lo strumento di Analisi di Firefox non riesce ad identificare il font.

Ma noto un’altra cosa strana: mentre io ho cercato la parola “феррари”, nei risultati, oltre a quelli dove la parola è scritta in lettere latine, il nome è sempre scritto “ферари” con una r sola.

Evidentemente la traslitterazione bulgara è diversa rispetto a quella russa.

Il fatto che le forme siano corsive complica il tutto, perché la i cirillica, che nella sua versione normale somiglia a una N ribaltata, nella versione corsiva verticale ha la forma della nostra u.

Commenti

Post più popolari