Home > Informatica e tecnologia > Rassegna software n. 4: le voci per la sintesi vocale


Rassegna software n. 4: le voci per la sintesi vocale

Pubblicato da

Nella precedente rassegna ho esaminato i programmi più validi per la lettura del testo tramite sintesi vocale. Ma, tecnicamente parlando, come fa il computer a “leggere ad alta voce” un testo scritto? Senza scendere in dettagli informatici poco utili al nostro scopo e restando su un piano di semplice curiosità, affinché il computer possa “leggere” sono necessari tre componenti:

  1. un motore di sintesi vocale;
  2. un software TTS per inviare il testo scritto al motore di sintesi;
  3. una o più voci che restituiscano all’utente il parlato.

Sul primo elemento mi soffermo rapidamente. I motori di sintesi sono dei software che si occupano di trasformare il testo scritto in una sequenza di suoni riproducibile sotto forma di audio; in pratica, è il “cervello” del sistema text-to-speech, in assenza del quale la funzione di lettura sarebbe impossibile. Sono esempi di motori di sintesi: Microsoft Speech Platform (MSP), SAPI5, Pico, Google TTS. I primi due sono messi a disposizione gratuitamente da Microsoft: SAPI5 è quello normalmente integrato in Windows; MSP è scaricabile dal sito di Microsoft e serve a far funzionare le voci gratuite che si trovano nel medesimo sito. Gli altri motori si possono installare per esigenze specifiche, come Pico, disponibile per Windows e anche per Linux, dove al momento rappresenta la scelta qualitativamente più valida.
Dei software TTS ho detto appunto nella precedente rassegna. Oggi parleremo delle voci.
Per districarsi nel complesso panorama delle tante esistenti, va subito fatta una prima distinzione: le voci sono realizzate per funzionare con uno specifico motore di sintesi. Questo significa che non è possibile, ad esempio, utilizzare una voce commerciale SAPI5 – approfondirò più avanti questo argomento – con il motore MSP, e viceversa. Poiché, tuttavia, in un computer si possono installare contemporaneamente più motori di sintesi, l’utente potrà installare diverse voci, ciascuna delle quali si “appoggerà” per funzionare al motore corrispondente.
La seconda distinzione, fondamentale ai fini pratici, è tra voci gratuite e commerciali: da qui parte la mia rassegna vera e propria.

Le voci gratuite

La voce installata di default su Windows 10 per la lingua italiana si chiama Elsa: si tratta di una voce femminile giovanile che, ben lontana dalle sonorità metalliche e robotiche che penalizzavano le voci anche solo pochi anni fa, è comunque caratterizzata da un ritmo di lettura non molto naturale e piuttosto ripetitivo, anche se offre un abbozzo di intonazione, peraltro non sempre corretta. Eccone un esempio.

Sul medesimo sistema operativo è possibile utilizzare la voce italiana maschile, chiamata Cosimo, notevolmente più brutta di quella femminile e della quale pertanto sconsiglio vivamente l’uso.

Sia Elsa che Cosimo – così come le voci in altre lingue, liberamente scaricabili – si basano sulla tecnologia SAPI5, che come ho detto è presente di default su Windows 10.
 
Per far funzionare LeggiXme e FacilitOffice, nonché tutti i programmi didattici sviluppati da Ivana Sacchi che io uso regolarmente in studio, occorre installare le voci gratuite di Microsoft basate sulla piattaforma MSP, che era lo standard delle versioni di Windows fino alla 7 e che è comunque utilizzabile anche sulle versioni successive, compresa la 10. Come mi ha riferito la stessa Ivana, quella di usare una tecnologia ormai superata è una precisa scelta, dovuta al fatto che sui computer della maggior parte delle scuole italiane – alle quali soprattutto sono destinati i suoi programmi – gira ancora Windows 7, se non addirittura il vecchio e glorioso XP, che hanno appunto la MSP di serie.
Una volta scaricato e installato il motore MSP è possibile aggiungere le relative voci (l’installazione di LeggiXme lo fa in automatico). Quella italiana è Lucia, voce di donna matura con pronuncia molto delicata; il ritmo di lettura è poco naturale e l’intonazione praticamente assente. Eccola in azione.

Come spesso succede in campo informatico, le voci nelle altre lingue sono decisamente migliori, per cui almeno i nostri ragazzi con DSA potranno godere di una buona lettura in inglese e francese.
 
Termino la rassegna delle voci gratuite con un cenno a quelle basate sul motore di sintesi Pico. Installando tale piattaforma – su Linux e su Windows – si hanno subito a disposizione sei voci: italiano, francese, inglese britannico, inglese americano, tedesco e spagnolo. Quella italiana ha una qualità solo discreta, con ritmo un po’ robotico e nessuna intonazione; va però detto che, per gli utenti del Pinguino, è l’unica soluzione di buona qualità attualmente esistente, ed è ovviamente open source. Ecco il solito esempio di lettura.

Le voci commerciali

Poiché sono già installate di default oppure sono scaricabili facilmente, le voci gratuite rappresentano senz’altro una notevole comodità per chi, come i miei utenti con DSA, si serve della sintesi vocale; in più – motivo non certo di poco conto – sono appunto gratuite, dunque non impongono un esborso di denaro e si possono utilizzare liberamente al pari dei software che io stesso uso, recensisco qui sul sito e installo sui computer dei miei clienti.
Tuttavia, come quasi sempre accade, la comodità e la gratuità impongono inevitabilmente un compromesso in fatto di qualità: le voci gratuite funzionano bene, hanno una qualità decisamente buona – specie le più recenti – e sono quindi certamente “usabili”; ma non sono il meglio di quanto la tecnologia sia in grado di offrire. Prendiamo il caso di un bambino con una dislessia grave, tanto da dover ricorrere necessariamente alla lettura al computer tramite sintesi vocale: alla lunga, ma neppure troppo, le voci gratuite stancano, stufano. La loro relativa mancanza di naturalezza ne rende faticoso l’ascolto per tempi lunghi. Ci vuole altro: ci vuole una voce quanto più simile a quella umana, in grado di rendere intonazione e ritmo come un vero lettore. Oggi questo non è più fantascienza, la tecnologia della sintesi vocale ha fatto enormi passi avanti e voci così esistono davvero. Ma hanno un costo, ed è giusto che sia così, dal momento che vengono sviluppate da aziende che si occupano soltanto di questo e che lavorano costantemente per migliorare una tecnologia di indubbia utilità pratica. Il costo è comunque sostenibile, e al dislessico grave dell’esempio di poco fa io consiglio senza ombra di dubbio l’acquisto di una voce commerciale.
Ne esistono tantissime, con prezzi anche molto diversi. Io reputo davvero ottime quelle di Ivona: per l’italiano ne esistono due, una femminile (Carla) ed una maschile (Giorgio). Tra le due, preferisco Carla: voce calda, altamente espressiva, eccezionalmente naturale, adatta anche a lunghe sessioni di lettura.

Le voci di Ivona non si possono acquistare direttamente, ma sono distribuite attraverso aziende partner che le integrano nei loro software: in pratica, l’utente acquista un programma di sintesi vocale e vi trova la voce Ivona scelta al momento dell’ordine.
 
Di eccellente qualità sono anche le voci Loquendo di Nuance, attualmente disponibili in due versioni che differiscono per la tecnologia utilizzata. Considerando unicamente le voci italiane, Federica, Alice, Paola e Luca sfruttano la tecnologia Nuance Vocalizer e sono decisamente migliori, difficilmente distinguibili da una voce umana; Silvia e Paolo sono invece basate sulla tecnologia Nuance Realspeak, che offre una qualità leggermente inferiore ma ancora molto elevata. Le voci sono facilmente acquistabili sul sito ByteWay, azienda milanese che si occupa di tecnologie assistive, al prezzo di 32,00 euro ciascuna; per i soci AID in regola con l’iscrizione il prezzo scende a 29,50 euro, un vantaggio economico forse piccolo, ma che trova un suo perché nel momento in cui si acquistino magari tre voci per altrettante lingue. Lo sconto è però limitato alle voci di qualità meno elevata, per cui, con buona pace dei 2 euro in più, io consiglio comunque l’acquisto di una tra quelle migliori, in particolare Alice (ma è questione di gusti…).

Infine, cito la voce Laura di CereProc: anche questa è calda ed espressiva, ma la qualità è leggermente inferiore a quella delle voci Loquendo. Si può acquistare per 25,99 sterline, poco meno di 30 euro: il prezzo superiore e la qualità inferiore non giustificano quindi la preferenza di questa voce rispetto alle precedenti.

Tutte le voci commerciali di cui ho parlato sono basate sulla tecnologia SAPI5, per cui sono immediatamente utilizzabili con Balabolka e PDF-XChange Editor (di cui dirò nella prossima rassegna); l’ultima versione di LeggiXme non le riconosce, occorre quindi installare la precedente 2.1.14; per FacilitOffice e per i software didattici di Ivana Sacchi, invece, nulla da fare: le voci commerciali non possono essere usate. Così come non possono essere usate dagli utenti di Linux, poiché questo sistema operativo non supporta – almeno al momento – il motore SAPI5.
 
Nella prossima puntata: i programmi per elaborare documenti in formato PDF.

Scrivi un commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.