Sistema sull' Opera completa

Scrivania di lavoro di Alberto Acquaro


Visita guidata del sistema

    pag. 10 di 11    
( Nel corpo del testo seguente, cliccando sulle scritte di questo colore si ottengono le FIGURE relative alla presente Visita ).


UNA RICERCA DI CAMPIONI DI SONETTI


IMPOSTAZIONE DELLA RICERCA

La speranza che ha accompagnato questa ricerca era quella di portare un contributo all'annoso dibattito relativo alla possibile attribuzione a Dante del Fiore (poemetto costituito da 232 sonetti). La consultazione della voce "Fiore" della Enciclopedia Dantesca consente di farsi un'idea dello stato della disputa tra schiere di critici di pari valore. In assenza di argomentazioni decisive di natura storica, prendono spazio numerose proposte di indizi, tutte ampiamente dibattute.

A fronte di tale situazione, l'esperienza di molti lavori precedenti nel settore statistico ci ha indotto a pensare che esistevano condizioni molto favorevoli alla impostazione di una ricerca statistica sull'argomento.

L'idea iniziale era quella di considerare, a partire dalle Rime relative all' Archivio-Documenti di "DANTE 2000", tre campioni, costituiti, il primo dai sonetti di Dante, il secondo dai sonetti del Fiore e il terzo dai sonetti non di Dante. Tali tre campioni sarebbero stati poi studiati a qualche livello grammaticale, da stabilire.

L' idea iniziale è stata in seguito superata in occasione della introduzione di un nuovo ampio capitolo di "DANTE 2000", dedicato agli Autori coevi. La disponibilità di una notevole quantità di sonetti (oltre 850) di molti autori ha subito suggerito la opportunità di impostare diversamente la ricerca, sfruttando l' enorme quantità di informazioni in gioco, soprattutto per abbassare al massimo il livello grammaticale di studio, il che, contrariamente a quanto si potrebbe pensare, esalta la potenzialità dei test statistici.
In tale situazione si è ritenuto opportuno scegliere, quale variabile da osservare, la "frequenza assoluta dei caratteri" (il loro "spettro"). In un primo tempo sono stati considerati tutti i caratteri riscontrati; nel seguito, le prime elaborazioni hanno mostrato che alcuni segni ortografici costituivano elemento di turbativa per il test statistico che si voleva applicare. Tale circostanza e il dubbio che specialmente i segni di punteggiatura potrebbero essere stati introdotti dai vari copisti, hanno portato alla decisione di limitare lo studio ai caratteri alfabetici e all' apostrofo (22 caratteri).

Relativamente alla costituzione dei campioni di sonetti da sottoporre al nostro studio, è stato deciso di assegnare ad essi, ove possibile, un'ampiezza comune e pari a 55 sonetti ; tale valore è stato scelto sia perché questo è il numero dei sonetti di Dante sia perché esso assicura un buon grado di significatività dei campioni stessi. La scelta ha portato alla costituzione dei 15 campioni della tabella ( dal campione A al campione Q ), come appare nella pagina-video rappresentata nella Figura 25.
Il campione R, relativo a 6 autori moderni, servirà ad un ulteriore studio, del quale sarà fatto cenno nel seguito.

Vedi Figura 25 - Pagina-video raffigurante la conclusione del test del Chi-quadrato applicato ai campioni di sonetti A e C.

Si noti la particolarità del campione B, per il quale sono stati considerati 5 autori diversi, ognuno con 11 sonetti; un tale campione è stato costituito nella speranza che potesse portare un ulteriore contributo d'informazione nel quadro complessivo dei risultati.

La considerazione, ove possibile, di più campioni relativi ad uno stesso autore ha il chiaro scopo di creare la possibilità di raffrontare coppie di tali campioni con coppie di campioni di autori diversi, raffronti legati alla ipotesi principale da sottoporre a verifica, cioè quella che esistano "significative differenze" tra i campioni di autori diversi.

Si è voluto poi approfittare della grande messe di dati a disposizione, per considerare una ulteriore ipotesi, senz'altro di minor forza, che dal differente uso dei caratteri osservati potesse trasparire "una qualche evoluzione nel tempo" dello scrivere di uno stesso autore. A tale scopo, per gli autori con più di un campione (Autore del Fiore, Guittone d'Arezzo, Cino da Pistoia e Cecco Angiolieri) sono stati costituiti campioni "spalmati" nel tempo.
Ad esempio, nel caso del Fiore, il primo campione (C) comprende i sonetti 1, 4, 7, etc.; il secondo (D) i sonetti 2, 5, 8, etc.; il terzo (E) i sonetti 3, 6, 9, etc. Tutto questo, nell'ipotesi che l'ordine imposto dalla numerazione sia quello temporale di composizione, rende i campioni C, D ed E indipendenti dal tempo stesso, mentre il quarto campione (F), sempre del Fiore, non ha la detta caratteristica, essendo costituito dagli ultimi 55 sonetti della raccolta.
Possibilità analoga è stata sfruttata nel caso di Guittone d'Arezzo. Per motivi forse evidenti, per Cino da Pistoia e per Cecco Angiolieri, dei quali abbiamo solamente due campioni, non è stata possibile la considerazione del campione "non spalmato" nel tempo.

A partire dai 15 campioni di sonetti, costituiti come descritto, erano da realizzare i possibili raffronti (105), uno per ogni possibile accoppiamento.
Il test statistico per tali raffronti è quello del Chi-quadrato, atto a rilevare le differenze tra i campioni e a valutare le significatività di tali differenze. Le frequenze assolute osservate (dati grezzi) sono state normalizzate rispetto alla media del numero di caratteri per campione, calcolata su tutti i campioni. Il quadro dei risultati è riportato alla pagina-video di Figura 26.

Vedi Figura 26 - Pagina-video con la visione complessiva dei risultati della ricerca sui campioni di sonetti.


Confronto tra un campione di autori moderni e i campioni "medievali"

Tale ricerca è stata condotta posteriormente al conseguimento dei risultati della ricerca mirata al problema dell'attribuzione de 'Il Fiore', che ha mostrato la sorprendente efficacia del test statistico adottato (battezzato PATERTEST). Quest'ultima circostanza ha suggerito l'opportunità di tentare un altro tipo di studio, il confronto dei campioni già disponibili con un campione relativo alla lingua italiana contemporanea. A tale fine è stato approntato un campione (R) costituito da 55 sonetti, dei quali 10 del Praga e 9 sonetti per ognuno dei seguenti autori: Camerana , Carducci , Pascoli, Gozzano e Corazzini. Nel seguito è riportato un cenno all' importante risultato di quest'ultima ricerca.



DISCUSSIONE DEI RUSULTATI

Proponiamo ora qualche osservazione in ordine ai dati proposti nel quadro relativo alla "Visione complessiva dei risultati" di Figura 26. Tali dati corrispondono ai valori del Chi-quadrato risultanti dall'applicazione del test su tutti i 105 possibili accoppiamenti dei 15 campioni disponibili (da A a Q).
I dati relativi al campione R dei moderni sono riportati all'ultima colonna, su fondo grigio.

Chiariamo subito quale sia il significato da attribuire ai valori del Chi-quadrato riportati nel nostro quadro. Il valore di tale indice di associazione nel caso generico, cioè riferito a una particolare coppia di campioni, costituisce una misura della significatività delle "differenze" osservate tra i due campioni ; al crescere di tale valore decresce, in forza di una relazione dovuta a Pizzetti-Pearson, la probabilità di errore che si avrebbe accogliendo l'ipotesi di "diversità" dei campioni o, in altri termini, affermando che le "differenze" osservate non siano dovute solamente al caso.

La valutazione della probabilità di tale evento, a partire dal generico valore del Chi-quadrato, è possibile tramite la consultazione dell' apposita Tavola. Per la sua consultazione, risultando difficoltosa in questa sede la rappresentazione della Tavola stessa, rimandiamo a "DANTE 2000"; la sua consultazione è possibile mediante un Clic sul comando "Tavola Chi-quadrato", che appare sia nella pagina- video di Figura 25 che in quella di Figura 26. Illustriamo ora, attraverso due esempi, il metodo di consultazione della Tavola.
  • Come primo esempio consideriamo il valore 17,45 risultante dal raffronto dei campioni C e D (ambedue relativi a 'Il Fiore' e "spalmati" nel tempo) ; sulla Tavola andiamo alla riga 21, in quanto nel nostro caso tale è il numero di gradi di libertà :

                 [ (numero campioni (2) - 1) x (numero caratteri (22) - 1) ] ;

    a questo punto constatiamo che il nostro valore 17,45 è compreso tra i valori della Tavola 13,240 e 20,337, che corrispondono, rispettivamente alle probabilità 0,900 e 0,500 ; ciò significa che la probabilità che le differenze tra i due campioni siano dovute al caso risulta compresa tra 0,900 (90%) e 0,500 (50%).
  • Considerando, come altro esempio, il valore 72,31, risultante dal raffronto dei campioni C ed F (il primo "spalmato" nel tempo e il secondo no), sempre guardando alla riga 21 della Tavola, vediamo che il nostro valore (72,31) risulta maggiore del valore 49,011 della Tavola, a cui corrisponde la probabilità 0,0005, il che consente di dire che la probabilità che le differenze tra i campioni siano dovute al caso è inferiore a 0,0005 (0,05%).

    Ebbene, in forza del criterio suggerito dalla teoria, per il quale una differenza si può assumere come "statisticamente significativa" quando la probabilità che essa sia casuale è inferiore al 5%, nel caso dei due esempi considerati siamo autorizzati a :
    • Respingere l'ipotesi di "diversità" (relativamente allo studio realizzato) dei campioni C e D ;
    • Accettare la stessa ipotesi per i campioni C ed F.
    Questo ci autorizza anche a dire che in questo caso il test ha rilevato una significativa "differenza", per uno stesso autore, tra i campioni "spalmati" nel tempo e il campione "NON spalmato".
    A conclusioni analoghe si giunge considerando tutti gli altri valori del Chi-quadrato relativi ai raffronti tra i campioni de Il Fiore (vedi in Figura 26 la prima zona marcata in giallo).
    Considerazioni del tutto analoghe possono esser fatte anche per i campioni G, H, I ed L, relativi a Guittone d'Arezzo (seconda zona marcata in giallo).

    Sin qui si è detto del significato statistico di alcuni risultati e, volutamente, non si è dato alcuno spazio alla loro interpretazione. Iniziamo ora a farlo, rammentando le due ipotesi, la verifica delle quali era lo scopo della ricerca: l' ipotesi principale, relativa all'eventualità che il test fosse in grado di "sentire" l'appartenenza dei singoli campioni ai rispettivi autori, e l' ipotesi secondaria (molto più ottimistica), relativa all'eventualità che il test fosse in grado di "sentire" anche l'evoluzione nel tempo dello scrivere di uno stesso autore.
    Siamo convinti che nessuno dei raffronti effettuati, considerato singolarmente, pur dando luogo ad un risultato altamente significativo, possa orientare decisamente nella verifica delle nostre ipotesi di lavoro. Siamo, però, altresì convinti che la considerazione di tutti i risultati, nel loro complesso, conduca, quantomeno, a pesanti indizi nella direzione sperata.

    Partendo dalla seconda ipotesi di lavoro, relativa alla supposta evoluzione nel tempo dello scrivere di uno stesso autore, tutti i raffronti mirati allo studio del fenomeno, i cui risultati sono marcati in giallo, confortano, tutti con elevato livello di fiducia, l'ipotesi ; il test "sente" nettamente le "differenze", per uno stesso autore, tra i campioni "spalmati" nel tempo e quelli non "spalmati"; il metodo di costituzione di tali campioni assicura che tali "differenze" debbano essere indotte dalla dipendenza o meno dal tempo dei campioni stessi.

    Verificata la seconda ipotesi di lavoro, la più ardita, era da attendersi, a maggior ragione, la verifica della prima ipotesi, circa la capacità del test di distinguere i campioni in funzione dei rispettivi autori. Un'attenta analisi del complesso dei risultati porta alla conclusione che essi, nella loro totalità con livello di fiducia molto più elevato rispetto al caso precedente, sono a conforto della prima ipotesi di lavoro.

    Concludiamo osservando che la grande coerenza del quadro dei risultati, di una "eloquenza" raramente da noi riscontrata in occasione di altre ricerche, potrebbe essere smentita solamente dalla eventualità che 'Il Fiore' fosse stato scritto da Dante (vedi in Figura 26 i valori marcati in violetto).


    Confronto tra un campione di autori moderni e i campioni "medievali"

    Il campione dei Moderni (Praga, Camerana, Carducci, Pascoli, Gozzano e Corazzini) ha dato luogo a 15 confronti con gli altri campioni e quindi a 15 valori del Chi-quadrato, riportati in "DANTE 2000". La semplice visione dei 15 valori in questione dà subito l'impressione che la straordinaria efficacia del test, persino in questo caso (dopo 700 anni di evoluzione della lingua), consenta risultati significativi. Pur trovandoci di fronte a valori del Chi-quadrato tutti alti (il che era facilmente prevedibile), colpisce il valore nettamente più basso relativo al confronto tra il campione di Dante e quello dei Moderni.
    A nostro avviso tale risultato suggerisce l' opportunità di approfondire la ricerca, allargandola a campioni di prosa. Tuttavia, sin da ora e certamente non in questa sede, esso deve essere oggetto di profonda riflessione, in quanto, sempre a nostro avviso, potrebbe condurre anche ad implicazioni di natura antropologica.

    Nota in data 20.4.2003 - L'approfondimento di ricerca di cui al punto precedente è stato iniziato, in diverse direzioni, a proposito delle origini della lingua italiana. I primi risultati sembrano interessanti e, alcuni, sorprendenti.














Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10


















Visita guidata pag.10






















    pag. 10 di 11    


"DANTE 2000" - Scrivania di lavoro di Alberto Acquaro [ Mappa ]

Sito a cura di Filarete S.r.l.