Con il termine algoritmo, in ambito informatico, si indica un insieme di operazioni compiute da un calcolatore al fine di ottenere un preciso risultato. Si deve quindi immaginare un algoritmo con un “percorso a tappe” dove da un input si procede attraverso una serie di istruzioni tra esse collegate che conducono al risultato desiderato.
Le biblioteche digitali, come le internazionali Project Gutenberg e Open Library o le italiane Biblioteca della letteratura italiana, Biblioteca italiana, Liber Liber, rappresentano, insieme agli archivi digitali, uno dei più evidenti contributi dell’informatica e della rete alla circolazione della letteratura. Si tratta di database digitali da cui si può accedere a vaste collezioni di titoli "fuori diritti", ossia di autori deceduti da più di 70 anni e, come stabilito dalla Legge sul Diritto d'autore 633/1941, pertanto liberamente accessibili.
Con close reading si designava un approccio alla critica letteraria – sviluppatosi in ambito anglosassone intorno agli anni Venti del Novecento – mirata all’analisi esclusiva dei testi, con particolare attenzioni agli elementi particolari rispetto a quelli generali o di contesto. Di recente, questa espressione ha trovato un nuovo utilizzo in contrapposizione alla dizione distant reading, coniata da Franco Moretti. Nell’attuale dibattito intorno alle all’analisi computazionale dei testi letterari, la locuzione close reading è genericamente utilizzata per indicare le tradizionali metodologie di critica letteraria che non si avvalgono di strumenti informatici.
Un elenco di concordanze linguistiche consiste nell’elencazione delle parole che ricorrono più di frequente in un determinato testo rappresentate all’interno del loro contesto sintattico. Negli studi letterari, le concordanze rappresentano un efficace strumento per analizzare la variabilità lessicale di un’opera letteraria o di un corpus di opere, tracciando le apparizioni dei singoli termini nel loro ambito di utilizzo, e ottenendo così un efficace quadro delle scelte linguistiche di un autore.
Un corpus è un insieme di testi riuniti con criteri di selezione più o meno specifici. Costituiscono ad esempio un corpus tutte le opere di un autore (corpus shakespeariano) o una raccolta di articoli giornalistici su un singolo argomento. I corpora si sono diffusi grazie al consolidamento di una disciplina novecentesca, che si è sviluppata grazie alle innovazioni informatiche, la cosiddetta linguistica dei corpora, ossia una branca della linguistica che, grazie all’utilizzo dei calcolatori, compie rilevazioni statistiche su vaste collezioni testuali.
La locuzione distant reading è stata coniata dallo studioso di letteratura Franco Moretti nei primi anni Duemila in relazione alla sua proposta di approcciarsi alla letteratura con un approccio distanziato, eseguendo operazioni ermeneutiche su ampie collezioni di testi al fine di ricavarne informazioni di natura quantitativa. Nelle prime apparizioni della formula, Franco Moretti non allude direttamente all’utilizzo di strumenti digitali per attuare questo nuovo modello di critica. Tuttavia, per la sua efficacia ma, soprattutto, per le possibilità di analisi quantitativa offerte dai calcolatori, è ormai spesso utilizzata come termine estensivo per identificare le pratiche di critica letteraria che si avvalgono di risorse informatiche.
Gli indici di frequenza, in parte assimilabili agli elenchi di concordanze, consistono nel calcolo del numero di apparizioni di una singola parola o di porzioni di frase all’interno di un testo o di un insieme di testi. La rappresentazione del grado di frequenza può essere espressa in percentuale, rapportata al numero totale di singoli lemmi. Come nel caso delle concordanze, gli indici di frequenza consentono di ottenere una panoramica delle scelte lessicali intorno alle quali sono stati composti uno o più testi.
Con input si identificano quei dati in ingresso che vengono forniti a un programma – o, nel nostro caso, a un algoritmo – come elementi iniziali su cui orientare le successive operazioni. Con input si possono definire sia i dati che saranno analizzati ma anche, in senso più estensivo, i parametri indicati, laddove richiesti, per articolare l’analisi secondo gli scopi che l’utente si prefigge. Gli output, viceversa, sono i dati che il programma restituisce all’utente come risultati, intermedi o finali, delle proprie operazioni.
Le tecniche di analisi computazionale ad apprendimento non supervisionato non prevedono, da parte dell’utente che sottopone al sistema informatico dei dati da analizzare, alcuna operazione di pre-etichettatura. I dati vengono somministrati al software senza alcuna informazione aggiuntiva che possa guidare l'analisi e gli output ottenuti saranno prodotti esclusivamente dalle operazioni interne all'analisi. Tutte le tecniche proposte sulla nostra piattaforma sono non supervisionate: i testi dei romanzi vengono sottoposti all'analisi senza annotazioni.
Le tecniche di analisi computazionale ad apprendimento supervisionato prevedono una fase di pre-elaborazione in cui l'utente somministra al sistema una serie di informazioni strutturate come input-output che dovranno essere tenute a modello da parte del software nell'analizzare altri dati non etichettati. In questo modo, il sistema avrà un riferimento su cui orientare le proprie operazioni. Sistemi ad apprendimento supervisionato sono, ad esempio, i cosiddetti "classificatori”, che riclassificano dei testi sulla base di un database pre-esistente e pre-etichettato.