Validazione: Umano vs Macchina

IA Generativa e Media — Settimana 5

Fabio Giglietto

DISCUI · Università degli Studi di Urbino Carlo Bo

25 marzo 2026

This Week in AI

IA e sicurezza epistemica: nuovi scenari

La ricerca recente evidenzia come l’IA generativa stia trasformando non solo i singoli contenuti, ma l’intero substrato epistemico su cui si basano le istituzioni democratiche (Ferrara, 2026).

Da discutere

Nel vostro progetto, le categorie di immagini che avete classificato mostrano strategie diverse di manipolazione emotiva? Quali categorie sembrano progettate per massimizzare l’engagement?

This Week in AI

Verso una regolamentazione degli sciami IA

Gli sciami IA malevoli possono fabbricare un consenso sintetico che appare colmare le divisioni sociali, minacciando l’indipendenza essenziale per l’intelligenza collettiva (Schroeder et al., 2026).

Implicazione per il progetto: Le immagini AI-generated che analizzate — prodotte in serie per massimizzare l’engagement — potrebbero essere il livello base di operazioni di manipolazione molto più ampie.

Roadmap della sessione

  1. This Week in AI — scenari emergenti
  2. Validazione Step 1 — calcolo del kappa sulla codifica binaria di ieri
  3. Perché validare — metriche di accordo (Cohen’s kappa, Krippendorff’s alpha)
  4. Dal Step 1 al Step 2 — filtrare il sottoinsieme AI slop
  5. Step 2: classificazione tematica — codifica umana + consenso + Gemini
  6. Validazione Step 2 — kappa sulle categorie tematiche

Ieri: cosa avete completato

Step 1: il punto di partenza

Ieri avete completato l’intero ciclo dello Step 1 — Classificazione binaria:

Fase Tab nel foglio Stato
Codifica umana (50 post) STEP 1 — Codifica Umana (50) Fatto
Consenso + definizione raffinata CODEBOOK Fatto
Prompt con one-shot examples PROMPT Fatto
Gemini: 420 post classificati STEP 1 — Gemini + Decisione Fatto

Oggi: confrontiamo le codifiche umane con quelle di Gemini e misuriamo l’accordo con metriche statistiche.

Perché Validare

L’IA non è un oracolo

Principio fondamentale: come ci ricorda Cosenza (2025), l’IA ragiona per probabilità, non per verità. Ogni classificazione automatizzata è una bozza che richiede verifica.

Perché la classificazione dell’IA può essere inaffidabile:

  • Sensibilità al prompt: piccole variazioni producono risultati diversi
  • Bias del modello: tendenza a sovra-rappresentare alcune categorie
  • Ambiguità visiva: un’immagine può appartenere a più categorie
  • Artefatti sintetici: l’IA potrebbe non riconoscere gli stessi indicatori che nota un umano

Il paradosso della fiducia nell’IA

Il rischio

Ferrara (2026) descrive un paradosso: più l’IA sembra affidabile, più rischiamo di fidarci ciecamente dei suoi output (Ferrara, 2026).

  • Accettare categorie senza verificare
  • Non controllare le immagini ambigue
  • Presentare risultati non validati

La soluzione

La validazione sistematica protegge da questo rischio:

  • Codifica umana indipendente
  • Confronto quantitativo IA-umano
  • Documentazione trasparente degli errori
  • Iterazione basata sui disaccordi

Misurare l’Accordo

Perché non basta la percentuale di accordo

Il problema

Due codificatori possono concordare per caso.

Se ci sono 2 categorie equiprobabili, il 50% di accordo è atteso anche con classificazioni casuali.

La percentuale di accordo grezzo non tiene conto del caso.

La soluzione

Le metriche corrette sottraggono l’accordo atteso per caso:

\[\kappa = \frac{P_o - P_e}{1 - P_e}\]

Dove:

  • \(P_o\) = accordo osservato
  • \(P_e\) = accordo atteso per caso

Cohen’s kappa e Krippendorff’s alpha

Metrica Uso Caratteristiche
Cohen’s kappa (\(\kappa\)) 2 codificatori Semplice, ampiamente usato
Krippendorff’s alpha (\(\alpha\)) 2+ codificatori Flessibile, gestisce dati mancanti

Scale interpretative standard:

Valore Interpretazione
< 0.20 Accordo scarso
0.21 - 0.40 Accordo discreto
0.41 - 0.60 Accordo moderato
0.61 - 0.80 Accordo buono
0.81 - 1.00 Accordo eccellente

Validazione Step 1

Step 1: calcolare il kappa

I dati per la validazione esistono già nel vostro foglio:

Confronti da fare

  • Umano-umano: ogni coppia di membri del gruppo sui 50 post
  • Umano-IA: ogni membro vs. Gemini sui 50 post

Dove trovare i dati

  • Codifiche umane → STEP 1 — Codifica Umana (50)
  • Codifiche Gemini → STEP 1 — Gemini + Decisione (filtrare i 50 post)

Per lo Step 1 binario, la matrice di confusione è 2×2: AI slop vs. Non AI slop. Calcolate \(P_o\) e \(P_e\) manualmente o con Gemini (Cosenza, 2025).

Esempio: matrice 2×2 per Step 1

Umano: AI slop Umano: Non AI slop Tot. IA
IA: AI slop 32 3 35
IA: Non AI slop 2 13 15
Tot. umano 34 16 50

\(P_o = (32+13)/50 = 0.90\)\(P_e = (35 \times 34 + 15 \times 16) / 50^2 = 0.572\)

\(\kappa = (0.90 - 0.572) / (1 - 0.572) = 0.77\)Accordo buono

Esercizio: validare Step 1 (20 min)

  1. Raccogliere le codifiche umane dal tab STEP 1 — Codifica Umana (50) e le codifiche Gemini corrispondenti dal tab STEP 1 — Gemini + Decisione
  2. Costruire la matrice di confusione 2×2 per ogni coppia (umano-umano e umano-IA)
  3. Calcolare il kappa (manualmente o con Gemini)
  4. Interpretare: kappa ≥ 0.60 → procedere; kappa < 0.60 → discutere i disaccordi

Decisione Step 1

Kappa ≥ 0.60

  • Procedere con il filtraggio
  • Documentare kappa e matrice
  • Isolare il sottoinsieme AI slop

Kappa < 0.60

  • Analizzare i disaccordi: dove e perché?
  • Raffinare la definizione nel CODEBOOK
  • Reclassificare con Gemini (prompt aggiornato)
  • Ricalcolare il kappa

Dal Step 1 al Step 2

Filtrare il sottoinsieme AI slop

Con lo Step 1 validato, filtrate il dataset:

  • Nel tab STEP 1 — Gemini + Decisione, identificate tutti i post classificati come AI slop
  • Copiate i riferimenti (ID post) nel tab STEP 2 — Codifica Umana (50)
  • Il campione di 50 post per lo Step 2 sarà selezionato solo tra gli AI slop

Quanti post AI slop avete? Questa proporzione è già un primo risultato: indica quanto del dataset è effettivamente AI slop secondo i vostri criteri.

Step 2: Classificazione Tematica

Step 2: lo stesso workflow, categorie diverse

Lo Step 2 segue lo stesso pattern dello Step 1 — applicato solo ai post AI slop:

Fase Azione Tab
1. Codifica umana Ogni membro classifica 50 post AI slop con le vostre categorie STEP 2 — Codifica Umana (50)
2. Consenso Discutete i disaccordi → raffinate le categorie CODEBOOK
3. Prompt Gemini Definizioni + one-shot → classificate tutti gli AI slop STEP 2 — Gemini + Decisione

Ricordate

Le categorie tematiche vengono dal pilot di mercoledì scorso. Usate il codebook che avete già — raffinerete dopo il consenso.

Codifica tematica: istruzioni

Ogni membro classifica 50 post AI slop in modo indipendente nel tab STEP 2 — Codifica Umana (50), usando le categorie del vostro codebook.

  • Per ogni post: guardate testo + immagine insieme
  • Assegnate una sola categoria per post
  • Se nessuna categoria è adatta, annotate il caso
  • Nessuna discussione — la codifica è cieca

Consenso e Gemini per Step 2

Dopo la codifica individuale:

  1. Confrontate le classificazioni nel tab STEP 2 — Codifica Umana (50)
  2. Discutete i disaccordi → raffinate le definizioni delle categorie
  3. Aggiornate il CODEBOOK con le nuove regole
  4. Costruite il prompt con definizioni + one-shot examples → salvate nel tab PROMPT
  5. Gemini classifica tutti gli AI slop → tab STEP 2 — Gemini + Decisione

Validazione Step 2

Step 2: calcolare il kappa tematico

La matrice di confusione per lo Step 2 è più grande (tante righe/colonne quante le vostre categorie):

Umano: Cat. A Umano: Cat. B Umano: Cat. C
IA: Cat. A n
IA: Cat. B n
IA: Cat. C n

Con più categorie, il kappa tende ad essere più basso. Un kappa di 0.60 per 5-6 categorie è un risultato solido.

Se il kappa Step 2 è basso

Analizzare

  • Quali coppie di categorie confonde l’IA?
  • Le definizioni sono sufficientemente precise?
  • Servono sotto-criteri o anti-esempi?

Soluzioni

  • Raffinare definizioni nel CODEBOOK
  • Aggiungere anti-esempi nel prompt
  • Accorpare categorie troppo simili
  • Reclassificare e ricalcolare

Attenzione

Se dopo 2 iterazioni il kappa resta sotto 0.60, accorpate le categorie problematiche. Meglio meno categorie affidabili che molte inaffidabili.

Confronto Inter-Gruppo

Tutti sulle stesse immagini: un’opportunità unica

Tutti i gruppi hanno classificato le stesse immagini. Il progetto consente un confronto inter-gruppo impossibile in un design tradizionale.

Cosa confrontare:

  • Gruppi con categorie condivise (es. più gruppi hanno “bambini”) → kappa inter-gruppo
  • Gruppi con schemi diversi → cosa rivela una lente che l’altra non coglie?
  • Proporzione AI slop nello Step 1: le definizioni diverse producono proporzioni diverse?

Cosa riportare nel paper

Sezione Metodo

  • Codebook con definizioni (Step 1 + Step 2)
  • Prompt completi (in appendice)
  • Protocollo: codifica cieca, 50 post, seed 42
  • Metriche: kappa per entrambi gli step

Sezione Risultati

  • Matrice di confusione (Step 1 + Step 2)
  • Iterazioni: quanti cicli, cosa è cambiato
  • Proporzione AI slop (risultato Step 1)
  • Distribuzione categorie (risultato Step 2)

La trasparenza metodologica è un valore fondamentale: documentate non solo i successi ma anche gli errori e le iterazioni (Marino & Giglietto, 2024).

Lavoro Pratico

Timeline della sessione

Fase Tempo Attività
Step 1: kappa 20 min Calcolare kappa su codifiche esistenti, matrice 2×2
Filtraggio 5 min Identificare sottoinsieme AI slop
Step 2: codifica umana 20 min Ogni membro classifica 50 post AI slop (tematico)
Step 2: consenso 15 min Discussione disaccordi, raffinare categorie
Step 2: Gemini 20 min Prompt + classificazione di tutti gli AI slop
Step 2: kappa 10 min Matrice N×N, calcolo kappa tematico

Prossimi passi

Data Attività
Lun 30 Marzo Consultazione gruppi + analisi engagement
Mar 31 Marzo Workshop di scrittura — struttura del paper
Mer 1 Aprile Lavoro di gruppo — stesura collaborativa
Lun 13 Aprile Sintesi del corso — confronto inter-gruppo

Per lunedì: preparate una presentazione (5 min) con: kappa Step 1 e Step 2, proporzione AI slop, distribuzione categorie, e una prima esplorazione dell’engagement per categoria.

Grazie!

Prossima lezione: Consultazione Gruppi e Analisi Engagement (30 Marzo 2026)

📧 fabio.giglietto@uniurb.it

🌐 blended.uniurb.it

Riferimenti

Cosenza, V. (2025). Esercizi di Intelligenza Aumentata: Imparare a Collaborare con le I.A.
Ferrara, E. (2026). The Generative AI Paradox: GenAI and the Erosion of Trust, the Corrosion of Information Verification, and the Demise of Truth [Manoscritto].
Marino, G., & Giglietto, F. (2024). Integrating Large Language Models in Political Discourse Studies on Social Media: Challenges of Validating an LLMs-in-the-loop Pipeline. Sociologica, 18(2), 87–107. https://doi.org/10.6092/issn.1971-8853/19524
Schroeder, D. T., Cha, M., Baronchelli, A., Bostrom, N., Christakis, N. A., Garcia, D., Goldenberg, A., Kyrychenko, Y., Leyton-Brown, K., Lutz, N., Marcus, G., Menczer, F., Pennycook, G., Rand, D. G., Ressa, M., Schweitzer, F., Song, D., Summerfield, C., Tang, A., … Kunst, J. R. (2026). How Malicious AI Swarms Can Threaten Democracy. Science, 387(6732), 354–357.