Condividi:          Era l’unica “spina nel fianco”, l’unico punto debole che ancora costringeva Linux – ovviamente secondo il mio punto di vista – al secondo posto dietro a Windows nella lotta per il sistema operativo ideale per i ragazzi con DSA. Sto parlando della sintesi vocale. In questo panorama la casa di Redmond ha sempre offerto buoni […]

Era l’unica “spina nel fianco”, l’unico punto debole che ancora costringeva Linux – ovviamente secondo il mio punto di vista – al secondo posto dietro a Windows nella lotta per il sistema operativo ideale per i ragazzi con DSA. Sto parlando della sintesi vocale.
In questo panorama la casa di Redmond ha sempre offerto buoni prodotti gratuiti, a partire dai motori di sintesi SAPI 4 e poi 5 (la voce Lucia, per intenderci), per arrivare all’attuale MSP 11 (con la voce Elsa, di default su Windows 10); tutti i software di lettura del testo a video (TTS, text-to-speech), quindi, funzionano perfettamente senza necessità di interventi particolari da parte dell’utente: tra questi, numerosi sono gratuiti – come LeggiXme e Balabolka, solo per citare i due più diffusi – e gli altrettanto numerosi a pagamento aggiungono voci di qualità eccellente, ormai tranquillamente paragonabili a quella umana (tra tutte, le voci Loquendo di Nuance: ascoltare per credere!).
Su Linux, invece, la situazione è ben diversa. I progetti Festival e Mbrola sono ormai datati e le voci disponibili assolutamente inadeguate ad un uso costante della sintesi vocale; inoltre, sono molto complessi da installare e configurare e funzionano a riga di comando, con la possibilità di ricorrere a interfacce grafiche tuttavia non paragonabili neppure da lontano a LeggiXme (che necessariamente prendo a riferimento come software di lettura in ambiente Windows). Fortunatamente, le cose sono cambiate. Tornando nelle settimane scorse a “smanettare” un po’, mi sono imbattuto in ben due progetti usabili che offrono voci di buona qualità, almeno al livello di Lucia o Elsa della Casa di Redmond: MaryTTS e Svox Pico TTS.

MaryTTS è una piattaforma di text-to-speech scritta in Java, composta da un server che gira in background, al quale ci si può connettere tramite interfaccia web; e da un client grafico, che offre numerose funzioni (la maggior parte delle quali inutili per i nostri scopi) e la possibilità di applicare diversi effetti alle voci. È possibile scaricare direttamente dal programma voci in numerose lingue, tra le quali però una soltanto (femminile) per l’italiano, che guarda caso si chiama Lucia. Il programma funziona bene, tuttavia ha alcuni difetti che secondo me lo allontanano un po’ dall’utente medio:

  • gira sotto Java, per cui è necessario che tale ambiente sia installato sul computer in uso;
  • funziona con un sistema server-client, dunque occorre che in background giri un servizio per poter usare il client grafico;
  • l’installazione delle voci, ancorché semplice, non è immediata;
  • il programma non è in grado di leggere del testo selezionato in un file esterno (ad esempio un PDF), che quindi occorre copiare e incollare nella finestra dell’interfaccia, caratteristica che lo rende scomodo e molto poco immediato per i bambini.

La voce, poi, sebbene di qualità discreta, non è così piacevole all’ascolto e sicuramente diventa fastidiosa se usata in lunghe sessioni di lettura.
 
Il progetto Svox Pico TTS è nato come sistema di sintesi vocale destinato alla navigazione sulle automobili e successivamente è stato esportato anche in campo informatico. Io l’ho scoperto in quanto usato da un’eccellente estensione per Open/LibreOffice (ne parlerò prossimamente in una rassegna dedicata alla videoscrittura; intanto potete leggere questo post in francese), che consente di leggere il testo nei programmi della suite esattamente come fa FacilitOffice, il cui progetto per Linux però è stato abbandonato. Svox Pico TTS lavora a riga di comando, ma è stata creata un’ottima interfaccia grafica: gSpeech.

gSpeech è un programma scritto in Python, leggero, che ricorda veramente molto LeggiXme quanto alle funzioni di base. Una volta lanciato, compare un’icona nell’area di notifica, dalla quale è possibile richiamare le azioni più comuni, nonché aprire la finestra principale raffigurata nell’immagine qui sopra. Da questa è possibile far leggere al motore di sintesi il testo selezionato (in un documento o qualunque altro file, in una pagina web, in una finestra di programma e così via) e il contenuto degli appunti di sistema; è anche possibile salvare la selezione in un file audio WAV, che si può poi riascoltare in qualunque momento e su qualunque dispositivo, compresi i cellulari. Infine, molto rapidamente, è possibile selezionare una delle sei lingue disponibili (italiano, francese, inglese britannico, inglese americano, tedesco e spagnolo): le lingue sono quelle della sintesi di Svox Pico, di qualità veramente elevata anche se prive di una reale intonazione.
Secondo me, questo software merita un encomio e va senza dubbio inserito nel novero dei programmi “veri” di sintesi vocale, direi il primo davvero ottimo su Linux; non è un caso se è stato inserito in due distribuzioni chiaramente orientate al mondo della scuola e all’uso didattico del computer: WiildOS e So.Di.Linux, delle quali intendo occuparmi in questo blog prossimamente. Inutile dire, infine, che Svox Pico TTS e gSpeech troveranno un posto in prima fila nella mia distribuzione Linux per DSA.

Ancora nessun commento

Lascia un commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.