Tecniche

Sebbene l’idea alla base dell’analisi computazionale dei testi letterari sia uniforme – ossia un’analisi di un corpus testuale informatizzato con strumenti fondati su modelli statistici –, le tecniche riconducibili a questo insieme sono molteplici e presentano tra loro numerose differenze. Alle soluzioni quantitative dei primi tempi – compilatori automatici di indici, liste di frequenza, concordanze – si sono nel tempo affiancati strumenti più raffinati, che, pur basati sempre su un funzionamento statistico-matematico (tutt’altro che da sottovalutare, come ha puntualmente notato Ted Underwood nel 2013), riescono a realizzare operazioni più complesse, come l’analisi stilometrica computazionale, la classificazione (text classification o text categorization), l’analisi relazionale (network analysis), il clustering, il calcolo della similarità semantica (word embedding), l’individuazione dell’andamento “emozionale” e delle opinioni (sentiment analysis o opinion mining), la definizione dei temi presenti in un testo (topic modeling).
A questi strumenti si affiancano quelli per la produzione di rappresentazioni grafiche dei corpora e degli output dei processi di analisi, come Word e Bubble Cloud, alberi di parole, timeline, e altre tipologie di grafici.

Analisi statistico-matematiche

Sotto la dizione "analisi statistico-matematiche" includiamo tutti quei procedimenti per estrarre da flussi di testo informazioni, soprattutto in forma di indici, di natura numerica, senza ulteriori connotazioni – come avviene, invece, per le tecniche che vediamo in seguito. Si tratta di metodi già diffusi nella comunità degli studiosi di letteratura e prodotti, prima dell’avvento dell’informatica, manualmente, con un ingente dispendio di tempo e risorse, laddove invece, avvalendosi di calcolatori, si riesce a ottenere gli stessi risultati in un tempo inferiore e su corpora testuali più ampi. Uno dei pionieri delle digital humanities, Padre Roberto Busa, negli anni Sessanta del Novecento ha dato inizio a uno dei primi progetti di applicazione dei calcolatori agli studi umanistici proprio per agevolare e velocizzare un’operazione di schedatura del lessico nell’intero corpus delle opere di San Tommaso, dopo averla intrapresa manualmente e averne constatato l’impossibilità (Busa 1974-1980).
Ridurre un testo a una rappresentazione statistica delle unità linguistiche che lo costituiscono (le parole) permette di accedere a un diverso punto di vista rispetto L’utilizzo di queste analisi permette ad esempio di esplorare il vocabolario di uno scrittore, la sua varietà linguistica ed eventuali altre peculiarità del suo modo di scrivere. Ma non solo: studiare un testo sulla base di indicatori statistici può consentire di approfondirne le strutture morfo-sintattiche fondamentali, tanto che la maggior parte delle tecniche poi riproposte in ambito critico-interpretativo è stata sviluppata nel settore della linguistica computazionale, una disciplina che si occupa appunto di studiare la natura e il funzionamento del linguaggio ricorrendo a strumenti informatici.
Tra i maggiori di questi strumenti, che sono molteplici, possiamo annoverare soprattutto gli indici di frequenza e le concordanze. Ricordiamo ancora una volta che stiamo trattando approcci e tecniche già in uso prima della diffusione dell’informatica e da essa rese soltanto più accurate, rapide ed estese.

– I compilatori di indici di frequenza: Gli indici di frequenza consistono nel calcolo del numero di apparizioni di una singola parola o di porzioni di frase all’interno di un testo o di un insieme di testi. La rappresentazione del grado di frequenza può essere espressa in percentuale, rapportata al numero totale di singoli lemmi. Gli indici di frequenza consentono di ottenere una panoramica delle scelte lessicali intorno alle quali sono stati composti uno o più testi.
– I compilatori di concordanze: un elenco di concordanze linguistiche consiste nell’elencazione delle parole che ricorrono più di frequente in un determinato testo rappresentate all’interno del loro contesto sintattico. Negli studi letterari, le concordanze rappresentano un efficace strumento per analizzare la variabilità lessicale di un’opera letteraria o di un corpus di opere, tracciando le apparizioni dei singoli termini nel loro ambito di utilizzo, e ottenendo così un efficace quadro delle scelte linguistiche di un autore.

Topic modeling

Con Topic modeling s’intende l’analisi automatica (o, in rari casi, semi-automatica) di un corpus testuale volta a individuarne i principali argomenti (topic). Fabio Ciotti, nella sua prospettiva di umanista digitale, ha ricondotto il concetto di topic alla teoria linguistica e alla critica letteraria, definendolo come “un fenomeno semantico distintivo del testo, qualcosa che abbia a che fare con la sua aboutness, ciò sui cui verte o di cui parla” (2017, 8). Nonostante le differenze, gli algoritmi di topic modeling producono come risultato un insieme di parole riconducibili a un medesimo argomento e ne quantificano la distribuzione percentuale all’interno del testo.
L’identificazione dei topic latenti in un corpus testuale può avere svariate applicazioni nelle discipline umanistiche, come testimoniano numerose ricerche condotte dall’inizio della seconda decade del 2000. La più immediata e intuitiva consiste nell’assegnare un’etichetta a ciascuno dei topic emersi, per poi rappresentarne la distribuzione all’interno del corpus: “Generally, historians have tried to assign a single label to each topic”, ha scritto Underwood (2012a). Nell'applicazione su testi narrativi o poetici, gli output delle analisi possono talora risultare difficilmente interpretabili in modo univoco: ciò dipende – come ha notato Lisa Rhody – dalla figuratività del linguaggio letterario, che può restituire output “opachi”, difficili da ricondurre a un concetto chiave (cfr. Rhody 2012, in particolare 29-31). Ciò non esclude che l’applicazione del topic modeling su corpora letterari possa essere fruttuosa ma, affinché ciò accada – come affermano più studiosi, convergendo su queste conclusioni –, è necessario ricollocarla in una fase preliminare del lavoro ermeneutico, e considerarla dunque non come un processo da cui derivare risultati definitivi quanto come un primo approccio di “perlustrazione” tematica di un insieme testuale, cui far seguire un lavoro di close reading per la verifica delle ipotesi: “close reading and contextual understanding work together, like the weaving and unraveling of Penelope at her loom, in order to identify relations between texts by shuttling between computational defamiliarization and scholarly experience” (ivi, 33). D’altronde, anche David Blei (sviluppatore di uno dei modelli di topic modeling più diffusi), in un suo scritto sugli ipotetici utilizzi della tecnica negli studi umanistici, ha affermato che “statistical models are meant to help interpret and understand texts; it is still the scholar’s job to do the actual interpreting and understanding. A model of texts, built with a particular theory in mind, cannot provide evidence for the theory” (Blei 2012, 10). Ancora, Jordan Boyd-Graber, al termine di una rassegna dei possibili utilizzi del topic modeling negli studi letterari, conclude che

Topic models cannot by themselves study literature, but they are useful tools for scholars studying literature. Models provide a distinct perspective that can call our attention to connections across different parts of a corpus that might not be obvious from close reading. (2017, 78)

Ed è in questa direzione che sembra essersi mossa la maggioranza delle sperimentazioni: ad esempio, Jockers (2013, 118-153) ha utilizzato MALLET (un pacchetto per il topic modeling) per esplorare i temi dominanti in un corpus di 3346 romanzi anglosassoni del XIX secolo, ripercorrendone l’evoluzione per poi verificare (in un successivo studio condotto assieme a David Mimno, cfr. Jockers, Mimno 2013) le eventuali connessioni tra il genere dell’autore e i temi emersi.
Similmente, e sempre utilizzando MALLET, Christof Schöch (2017) ha investigato un corpus drammaturgico di 391 pièce del teatro francese dal 1630 al 1789, individuando 60 topic ricorrenti.
Roe, Gladston e Morrissey (2016), muovendo dalla nozione foucaultiana di discourse (la cui attinenza col topic modeling è stata poi analizzata e in parte smentita da Ciotti 2017, 9-10), hanno analizzato la versione digitale dell’Encyclopédye di Diderot e D’Alembert reperibile tra le pubblicazioni comprese nell’ARTFL Project dell’Università di Chicago.
Borja Navarro-Colorado (2018) ha compiuto un’operazione analoga su un corpus di 5078 sonetti del Siglo de Oro spagnolo, utilizzando MALLET e LF-LDA (Latent Feature LDA, cfr. Nguyen, Billingsley, Du, et al. 2015).

Sentiment analysis

La sentiment analysis è una tecnica utilizzata per determinare la polarità (positiva o negativa) e l’andamento o score “emozionale” sulla base delle emozioni primarie (che, a seconda della teoria presa a modello, possono variare in numero) di un testo o di un corpus testuale. Nonostante negli ultimi anni abbia trovato applicazione anche negli studi letterari – soprattutto, come vedremo, grazie ai lavori dello Stanford Literary Lab e, in particolare, di Matthew L. Jockers –, come si può evincere dal volume di Bing Liu (2015) interamente dedicato all’argomento – definito “a field of study that aims to extract opinions and sentiments from natural language text using computational methods” (ivi, xi) – la sentiment analysis è un approccio prettamente utilizzato in ambito commerciale, politico e dei social media , dove è spesso chiamata opinion mining. In italiano, il termine sentiment può prestarsi ad equivoci e, come ha sottolineato Simone Rebora (2018, 212), è da tradursi come “opinione” o “parere”, per non rischiare di restringere (in linea teorica) l’analisi alla sola emozionalità dei testi.
Esistono diversi metodi per la sentiment analysis, suddivisibili – come la maggior parte delle tecniche per la text analysis – tra “non supervisionati” e “supervisionati”.
Tra quelli non supervisionati, il più diffuso è il modello “lexicon based”. Un approccio che si basa su uno o più dizionari “emotivi” di riferimento, dove a ogni termine (o sintagma) è associato un determinato punteggio per la polarità (negativa o positiva) e per le singole emozioni. L’algoritmo rintraccia nei testi del corpus la presenza dei termini o dei sintagmi, stabilendo il sentiment e la presenza più o meno diffusa delle singole emozioni. Tra i principali limiti di questo approccio vi è la questione linguistica: la maggior parte delle risorse è infatti nativa per la lingua inglese, anche se non mancano tentativi di adattamento (piuttosto rapidi da realizzare trattandosi di liste di parole facilmente traducibili con traduttori automatici), come Sentix o OpeNER Sentiment Lexicon Italian per l’italiano, o la versione del lessico multilingue NRC – Word-Emotion Association Lexicon (EmoLex) creata da Saif Mohammad. Oltre alle questioni linguistiche, l’uso di algoritmi lexicon based può incorrere in fraintendimenti qualora la complessità sintattica dei testi aumenti: in particolare, nelle sperimentazioni di più studiosi si sono riscontrate difficoltà nella gestione delle negazioni, laddove la polarità di un termine è capovolta. Ad esempio, algoritmi non sufficientemente raffinati rischiano di classificare sintagmi tipo "non buono" come positivo, individuando solo il secondo termine e ignorando appunto il ruolo della negazione.
Per ovviare a questi inconvenienti – di cui comunque non mancano soluzioni sempre basate su dizionari emotivi – si sono sviluppati altri approcci per la sentiment analysis, da quelli supervisionati, che prevedono la pre-etichettatura di un corpus da porre a modello per un classificatore, ai più recenti esempi che, grazie ai progressi nel deep learning e nelle reti neurali artificiali, riescono ad auto-etichettare i testi senza necessità d’intervento umano. Una delle più note applicazioni delle reti neurali alla sentiment analysis è lo Stanford Sentiment Analysis (che si fonda su un modello di Recursive Neural Tensor Network addestrato su un dataset denominato Stanford Sentiment Treebank), integrato nella già citata suite per il NLP Stanford CoreNLP.
Limitatamente all’ambito umanistico, uno degli strumenti più noti e discussi è il pacchetto per ambiente R Syuzhet , un modello “lexicon based” creato nel 2015 da Matthew L. Jockers. Attualmente, Syuzhet incorpora quattro lessici: tre in lingua inglese – Syuzhet, AFINN e Bing – e uno multilingua – il già citato NRC Emotion Lexicon. L’algoritmo, avvalendosi di due parser alternativi, l’openNLP e lo Stanford, prevede una suddivisione del corpus testuale in sotto-unità – dette sentences – di cui si produce un calcolo del sentiment mediante l’individuazione e il conteggio delle parole “emozionali” e l’assegnazione di un punteggio in base al loro score nel dizionario prescelto. La notorietà di Syuzhet è dovuta sia alle ricerche compiute dal suo creatore che al dibattito che si è generato attorno all’efficacia di questo strumento: in particolare, il botta e risposta tra Jockers e Annie Swafford sulla prima versione del pacchetto a pochi mesi dalla sua apparizione. Tra i difetti sottolineati dalla Swafford (2015), le imprecisioni della suddivisione in sentences del testo – soprattutto per le parti dialogiche –, un’imperfetta rappresentazione grafica della traiettoria emozionale e, soprattutto, alcuni problemi nell’attribuzione dei punteggi alle parole: in questo approccio, infatti, non viene tenuto di conto dei modificatori e delle negazioni (ad esempio, “non buono” verrà comunque conteggiato come positivo), della possibilità che certi termini ricorrano con significato neutro, dei contesti storico-culturali in cui le parole sono utilizzate, oltre al fatto che una pluri-occorrenza di un termine in una sentence sia computata come singola e che i valori (espressi in -1, 0 e 1) lascino poco spazio alla gradualità. Le criticità rilevate da Swafford – cui Jockers ha risposto (2015c) punto su punto – sono state in parte risolte nella versione 2.0 di Syuzhet, apparsa nel 2017.
In modo analogo alla valutazione circa l’efficacia dello strumento ideato da Jockers, anche le sue applicazioni hanno suscitato un vivo dibattito. Jockers (2014; 2015b; Jockers, Thalken 2020) ha utilizzato Syuzhet (nel 2014 ancora in fase embrionale) per un’analisi dell’arco emotivo delle trame di alcune opere narrative (tra cui A Portrait of the Artist as a Young Man di Joyce e Picture of Dorian Grey di Wilde). L’utilizzo della sentiment analysis proposto da Jockers, pionieristico in campo della critica letteraria computazionale, è ancora oggetto di riflessione per gli studiosi, come si può evincere dalla centralità che gli riserva James Dobson nel sotto-capitolo “Mining Sentiment” del suo recente volume Critical Digital Humanities (2019). Jockers ha infatti dato inizio a una corrente di applicazione della sentiment analysis in campo umanistico, che negli anni ha registrato numerose sperimentazioni: ad esempio, Samothrakis e Fasli (2015), che hanno adottato un approccio “lexicon based” utilizzando il lessico Wordnet-Affect per verificare – su un corpus di 3403 volumi estratto da Project Gutenberg – le correlazioni tra archi emozionali nelle trame e generi letterari, o Reagan, Mitchell, Kiley, et al. (2016), che hanno utilizzato Hedonometer – uno strumento per la sentiment analysis sviluppato dal Computational Story Lab della University of Vermont, diretto da Chris Danforth e Peter Dodds – al fine di individuare i sei principali macro-tipi di plot narrativi eseguendo un’analisi su 1327 volumi sempre ottenuti da Project Gutenberg.
Oltre all’utilizzo suggerito dalle sperimentazioni di Jockers e alle sue possibili commistioni con le ricerche sui generi letterari, la sentiment analysis ha trovato altre possibili applicazioni in campo letterario. Ad esempio, Taboada, Gillies, McFetridge (2006) hanno utilizzato una sentiment analysis “lexicon based” per tracciare l’evoluzione della notorietà di sei autori (inizialmente circoscritto ai soli John Galsworthy e D.H. Lawrence) nell’arco temporale di un cinquantennio (1900-1950) basandosi su di un corpus di recensioni, articoli di giornale, lettere editoriali. Nalisnick e Baird (2013) hanno invece applicato un analogo approccio all’analisi del corpus drammaturgico di Shakespeare, utilizzando il lessico AFINN per verificare la diversità in termini di sentiment tra le tragedie e le commedie ma, soprattutto, nel determinare il grado di positività o negatività delle relazioni nell’Amleto, calcolando il sentiment delle battute rivolte all’uno o all’altro personaggio (un approccio definito “character-to-character sentiment analysis”, ivi, 758).

Network analysis

La network analysis è una procedura mutuata dalle scienze sociali (e pertanto anche detta social network analysis), il cui presupposto è che l’insieme delle interazioni tra individui (o personaggi, nel caso degli studi letterari) sia rappresentabile come una “rete” di nodi (o vertici) e linee. La network analysis è alla base di alcuni dei più noti studi di Franco Moretti: nel suo celebre volume, Distant Reading (2013), ripropone un noto saggio – già apparso sulla rivista New Left Review (2011) –, in cui, riprendendo la sua idea “quantitativa” di letteratura, propone la riduzione in termini di network del plot di alcune opere – nello specifico l’Amleto, di cui propone una rilettura che rivela la centralità del personaggio di Orazio, e il Sogno della camera rossa di Cao Xueqin e Our Mutual Friend di Charles Dickens, analizzate in parallelo –, supponendo che i vertici siano equiparabili ai personaggi e le linee alle interazioni derivabili dalla somma dei loro atti linguistici. Come già constatato riguardo al complesso di proposte teoriche ascrivibili al Distant Reading, Franco Moretti afferma però di aver costruito le reti di relazioni del suo studio “by hand, with the very simple aim of maximizing visibility by minimizing overlap” (ivi, 215), senza avvalersi di risorse informatiche. Tuttavia, nel corso degli anni e sulla scia di questa impostazione ermeneutica, sono stati sviluppati dei modelli per l’estrazione automatica delle relazioni tra elementi di un corpus letterario, come ad esempio quello proposto da Elson, Dames, McKeown (2016) per l’individuazione delle interazioni tra personaggi di opere narrative (nello specifico, su un insieme di 60 romanzi britannici del XIX secolo).

Analisi stilometrica computazionale

La stilometria computazionale si occupa di compiere analisi stilistiche su corpora testuali a fini metrici o attribuzionistici, ossia per attribuire un testo di autore conosciuto sulla base delle possibili affinità stilistiche riscontrate. Si tratta di una delle più antiche e, di conseguenza, sviluppate sotto-discipline della text analysis applicata agli studi letterari, come emerge da una prima rassegna a opera di David Holmes già nel 1998 e dai lavori pionieristici di Thomas Merriam e Robert Matthews (1993; 1994) su Shakespeare e John Fletcher e Shakespeare e Christopher Marlowe. L’idea alla base è che gli indicatori stilistici possano essere equiparati a pattern ricorsivi all’interno dei testi, rintracciabili mediante un’analisi statistico-matematica. In tempi recenti, un valido esempio in ambito italiano dell’utilizzo della stilometria computazionale è il progetto Drawing Elena Ferrante’s Profile coordinato da Arjana Tuzzi e Michele Cortelazzo (2018) dell’Università di Padova, che ha coinvolto alcuni dei maggiori esperti della disciplina con l’obiettivo di formulare un’ipotesi – tramite il calcolo di possibili affinità stilistiche con i maggiori scrittori italiani contemporanei – circa l’identità celata sotto lo pseudonimo di Elena Ferrante. Altri esempi recenti si possono trovare nelle ricerche di Simone Rebora, che ha utilizzato tecniche analoghe lavorando in particolare su Robert Musil (cfr. Rebora, Herrmann, Lauer, et al. 2018; Rebora 2019).

Text classification (o text categorization)

La text classification è un insieme di tecniche di analisi computazionale che producono output in un certo senso analoghi a quelli del topic modeling, ossia categorizzando i testi in base ai loro principali contenuti (riassumibili in “etichette”). La sostanziale differenza tra i due modelli risiede nel grado di supervisione applicato al processo: se infatti il topic modeling è un procedimento in genre non supervisionato, la text classification, essendo una tecnica supervisionata, prevede che le “etichette” apposte ai documenti siano predefinite in fase di training, di modo che la macchina possa poi classificare testi non pre-etichettati sulla base di quanto stabilito in precedenza. Ciò determina una distanza epistemologica tra i due approcci: se il topic modeling è finalizzato alla “scoperta” di temi e motivi non prevedibili all’inizio dell’analisi, la text classification mira all’individuazione predittiva delle caratteristiche di certi documenti. Una rassegna di applicazioni di questa tecnica agli studi letterari – nonché due esemplificazioni, eseguite l’una su un corpus di poesie di Emily Dickinson e l’altra su una selezione di capitoli di romanzi statunitensi – è presente in Yu 2008.

Text clustering

A differenza della text classification, il text clustering è un procedimento non supervisionato volto alla suddivisione di un corpus documentario in sottoinsiemi (cluster) basati sulla similarità tra documenti non precedentemente classificati. Spesso si parla di hierarchical clustering, laddove i cluster siano organizzati in base alla similarità dell’uno con l’altro, dando forma a una rappresentazione ad albero (dendogramma) che consente di visualizzare i rapporti di vicinanza tra un gruppo e l’altro. Questo approccio è stato utilizzato da Christos Tsatsoulis (2013, 9-14), all’interno di una più ampia software pipeline, per l’analisi automatica di V. di Thomas Pynchon, nello specifico formulando più ipotesi di raggruppamento (basate su diversi tipi di distanza statistica) dei diciassette capitoli del romanzo.

Word embedding

Il word embedding è una tecnica non supervisionata di NLP che consente la rappresentazione vettoriale di un corpus testuale . L’assunto teorico alla base di queste inferenze suppone che parole che condividono lo stesso contesto presentino tra di loro una qualche prossimità semantica. Sebbene il modello abbia radici addirittura negli anni Sessanta del Novecento, la sua diffusione si è particolarmente accentuata con lo sviluppo della ricerca nel campo delle reti neurali e con l’algoritmo word2vec sviluppato da Mikolov, Chen, Corrado, et al. (2013). Non si tratta propriamente di una tecnica per la text analysis, giacché è spesso utilizzata come base per l’applicazione di altri strumenti quali il topic modeling e la sentiment analysis, ma è possibile utilizzarla ai fini del calcolo del grado di similarità tra termini o entità presenti in un corpus di testi: ad esempio, Wohlgenannt, Chernyak, Ilvovsky (2016) hanno applicato tre diversi algoritmi di word embedding (word2vec, GloVe e word2vec-f) sulla serie di libri A Song of Ice and Fire di George R.R. Martin per calcolare le relazioni tra i personaggi, comparando i risultati con quelli di un sondaggio somministrato a un campione di 15 persone.