Voyant Tools è un insieme di strumenti per l’analisi computazionale di corpora testuali sviluppato da Stéfan Sinclair e Geoffrey Rockwell e lanciato, nella sua prima versione, nel 2003. Si tratta di una suite web-based, disponibile in dieci lingue e interamente open source. Tra i vari strumenti disponibili su Voyant (che, per lo più, sono orientati al calcolo degli indici di frequenza di termini o sintagmi, sebbene non manchino strumenti più complessi come ad esempio quello dedicato al topic modeling), si sono selezionati quelli che – a nostro avviso – si distinguono per particolare efficacia nel presentare le informazioni statistiche estratte dai testi.Nelle finestre di sinistra si presentano gli output derivanti dalle analisi del romanzo comprensivo della lista di stop words, un insieme di parole semanticamente vuote (articoli, preposizioni, congiunzioni...) e di nomi propri, che, ai fini della lettura dei risultati, costituiscono spesso un elemento di disturbo. Nelle finestre di destra, invece, si propongono gli output delle analisi del romanzo dopo averlo pre-processato, eliminando le stop words. La lista delle stopwords è scaricabile da qui. Per informazioni su come realizzare una lista di stopwords ottimizzata per l’analisi di uno specifico corpus, cfr. la sezione dedicata nella Guida.Per ulteriori informazioni, cfr. la sezione della Guida dedicata all’analisi delle frequenze.
Si tratta della versione Voyant di un Wordcloud, ossia una rappresentazione “pesata” – utilizzando cioè caratteri di corpi, colori e dimensioni diverse per rappresentare una gerarchia – delle 50 parole più occorrenti nel corpus. Voyant consente di variare il numero di parole incluse nella nuvola, partendo da un minimo di 25.
Termini elabora un indice di frequenza dei termini del corpus. La visualizzazione in colonne consente di ordinare la lista in ordine alfabetico o per numero di occorrenze, oltre che di conoscere il dato di frequenza assoluta (espresso in interi) e il dato di frequenza relativa, ossia quanto incida la frequenza di un termine rispetto al totale delle parole che costituiscono il corpus (espresso in percentuale). Oltre alla lista, Termini mette a disposizione una barra di ricerca che, oltre al singolo termine, consente la ricerca con caratteri jolly per ovviare alle variabili morfologiche (ad esempio cercando per «cappott*») e la possibilità di selezionare due o più termini, per compararne la frequenza.
lo strumento Contesti equivale a un compilatore di concordanze, ossia mostra ogni singola occorrenza delle parole più ricorrenti all’interno del rispettivo contesto sintattico. Permette di ampliare o diminuire l’intervallo testuale mostrato e, dai valori della colonna “Posizione”, è possibile desumere da che parte del corpus provenga il frammento. In modo analogo a Termini, oltre alla visualizzazione gerarchica anche Contesti permette di eseguire una ricerca testuale per uno o più termini.
Microricerca offre una rappresentazione del “tessuto” di un testo e mostra la distribuzione delle parole più ricorrenti al suo interno come punti su righe, giocando con il colore più o meno vivido a seconda del grado di diffusione.
Sintagmi, infine, mostra una lista dei sintagmi più frequenti all’interno del corpus (e dunque non interessato, ai fini dell’analisi, dal filtro delle stopwords). È possibile definire la lunghezza minima e massima del singolo sintagma e visualizzarli in ordine di lunghezza o di frequenza.
Gli algoritmi di topic modeling consentono di individuare i "temi" (o "argomenti") presenti in un testo e di quantificarne la distribuzione.Per approfondimenti sulla tecnica e sui modelli esistenti, si rinvia alla sezione dedicata nella nostra Guida per la Text Analysis. Nei blocchi seguenti, invece, si presentano due output prodotti con due differenti algoritmi per l'estrazione dei topic.
BERTopic è un modello per il topic modeling sviluppato Maarten Grootendorst nel 2022, utilizzando come base BERT il sistema a reti neurali per l'elaborazione del linguaggio naturale sviluppato da Google e lanciato nel 2018. Qui si propongono i grafici con i risultati dell’analisi. Per visualizzare il codice, si rinvia alla repository su GitHub.
Le cinque parole più rilevanti per ciascuno dei dieci topic individuati, proposte in istogrammi orizzontali che ne denotano la frequenza.
Un grafico cartesiano dove i topic sono rappresentati come cerchi, di diametro variabile a seconda del numero di parole comprese. La vicinanza tra i cerchi rappresenta il grado di tangenza tra gli insiemi lessicali che costituiscono i singoli topic.
Un grafico che suddivide i topic estratti in cluster gerarchici.
Una rappresentazione visiva in cui a diversi colori sono associati i possibili gradi di similarità tra l’uno e l’altro topic.
Gli algoritmi per la Sentiment Analysis consentono di indagare la polarità (positiva o negativa) di un testo e il grado di presenza in esso delle principali emozioni.Nei blocchi che seguono si presentano gli output ottenuti con due diverse tecniche di analisi del sentiment.
Syuzhet è una libreria per ambiente R sviluppata nel 2015 da Matthew L. Jockers. Basandosi su un approccio lexicon based (cfr. la sezione dedicata nella Guida alla Text Analysis), Jockers ha costruito uno strumento in grado di determinare il sentiment di un testo e, sulla base di esso, restituirne l'andamento che, in caso di opere di narrativa, rispecchia i movimenti emozionali del plot, in una realizzazione digitale della suggestione proposta da Kurt Vonnegut, che, durante una lezione, utilizzò un diagramma cartesiano per rappresentare le principali shapes of stories (Link alla lezione di Kurt Vonnegut).Syuzhet, per procedere all’analisi, suddivide il testo in sequenze, che corrispondono ai paragrafi, e poi attribuisce a esse un grado di polarità. Nel caso del Fu Mattia Pascal sono state individuate 4908 sequenze, che possono essere scaricate al seguente link. 1/20 di trama corrisponde, all’incirca, a 245 sequenze.
L’analisi dei nodi dei personaggi di un romanzo rappresenta il "peso" delle loro relazioni, calcolando la co-occorenza dei loro nomi nelle stesse micro-porzioni del testo. Cfr. la sezione dedicata nella nostra Guida per la Text Analysis.