Federigo Tozzi, Tre croci
ANALISI COMPUTAZIONALE

Voyant Tools

Voyant Tools è un insieme di strumenti per l’ANALISI COMPUTAZIONALE di corpora testuali sviluppato da Stéfan Sinclair e Geoffrey Rockwell e lanciato, nella sua prima versione, nel 2003. Si tratta di una suite web-based, disponibile in dieci lingue e interamente open source. Tra i vari strumenti disponibili su Voyant (che, per lo più, sono orientati al calcolo degli indici di frequenza di termini o sintagmi, sebbene non manchino strumenti più complessi come ad esempio quello dedicato al topic modeling), si sono selezionati quelli che – a nostro avviso – si distinguono per particolare efficacia nel presentare le informazioni statistiche estratte dai testi.
Nelle finestre di sinistra si presentano gli output derivanti dalle analisi del romanzo comprensivo della lista di stop words, un insieme di parole semanticamente vuote (articoli, preposizioni, congiunzioni...) e di nomi propri, che, ai fini della lettura dei risultati, costituiscono spesso un elemento di disturbo. Nelle finestre di destra, invece, si propongono gli output delle analisi del romanzo dopo averlo pre-processato, eliminando le stop words. La lista delle stopwords è scaricabile da qui. Per informazioni su come realizzare una lista di stopwords ottimizzata per l’analisi di uno specifico corpus, cfr. la sezione dedicata nella Guida.
Per ulteriori informazioni, cfr. la sezione della Guida dedicata all’analisi delle frequenze.

Cirrus

Si tratta della versione Voyant di un Wordcloud, ossia una rappresentazione “pesata” – utilizzando cioè caratteri di corpi, colori e dimensioni diverse per rappresentare una gerarchia – delle 50 parole più occorrenti nel corpus. Voyant consente di variare il numero di parole incluse nella nuvola, partendo da un minimo di 25.

Topic modeling

Gli algoritmi di topic modeling consentono di individuare i "temi" (o "argomenti") presenti in un testo e di quantificarne la distribuzione.
Per approfondimenti sulla tecnica e sui modelli esistenti, si rinvia alla sezione dedicata nella nostra Guida per la Text Analysis. Nei blocchi seguenti, invece, si presentano due output prodotti con due differenti algoritmi per l'estrazione dei topic.

BERTopic

BERTopic è un modello per il topic modeling sviluppato Maarten Grootendorst nel 2022, utilizzando come base BERT il sistema a reti neurali per l'elaborazione del linguaggio naturale sviluppato da Google e lanciato nel 2018.

Topic Word Scores

Le cinque parole più rilevanti per ciascuno dei dieci topic individuati, proposte in istogrammi orizzontali che ne denotano la frequenza.

Intertopic Distance Map

Un grafico cartesiano dove i topic sono rappresentati come cerchi, di diametro variabile a seconda del numero di parole comprese. La vicinanza tra i cerchi rappresenta il grado di tangenza tra gli insiemi lessicali che costituiscono i singoli topic.

Hierarchical Clustering

Un grafico che suddivide i topic estratti in cluster gerarchici.

Similarity Matrix

Una rappresentazione visiva in cui a diversi colori sono associati i possibili gradi di similarità tra l’uno e l’altro topic.

Sentiment Analysis

Gli algoritmi per la Sentiment Analysis consentono di indagare la polarità (positiva o negativa) di un testo e il grado di presenza in esso delle principali emozioni.
Nei blocchi che seguono si presentano gli output ottenuti con due diverse tecniche di analisi del sentiment

Network Analysis dei personaggi

L’analisi dei nodi dei personaggi di un romanzo rappresenta il "peso" delle loro relazioni, calcolando la co-occorenza dei loro nomi nelle stesse micro-porzioni del testo. Cfr. la sezione dedicata nella nostra Guida per la Text Analysis.