Validazione: Umano vs Macchina

This Week in AI

IA e sicurezza epistemica: nuovi scenari

La ricerca recente evidenzia come l’IA generativa stia trasformando non solo i singoli contenuti, ma l’intero substrato epistemico su cui si basano le istituzioni democratiche (Ferrara, 2026).

Da discutere

Nel vostro progetto, le categorie di immagini che avete classificato mostrano strategie diverse di manipolazione emotiva? Quali categorie sembrano progettate per massimizzare l’engagement?

This Week in AI

Verso una regolamentazione degli sciami IA

Gli sciami IA malevoli possono fabbricare un consenso sintetico che appare colmare le divisioni sociali, minacciando l’indipendenza essenziale per l’intelligenza collettiva (Schroeder et al., 2026).

Implicazione per il progetto: Le immagini AI-generated che analizzate — prodotte in serie per massimizzare l’engagement — potrebbero essere il livello base di operazioni di manipolazione molto più ampie.

Roadmap della sessione

This Week in AI — scenari emergenti
Validazione Step 1 — calcolo del kappa sulla codifica binaria di ieri
Perché validare — metriche di accordo (Cohen’s kappa, Krippendorff’s alpha)
Dal Step 1 al Step 2 — filtrare il sottoinsieme AI slop
Step 2: classificazione tematica — codifica umana + consenso + Gemini
Validazione Step 2 — kappa sulle categorie tematiche

Ieri: cosa avete completato

Step 1: il punto di partenza

Ieri avete completato l’intero ciclo dello Step 1 — Classificazione binaria:

Fase	Tab nel foglio	Stato
Codifica umana (50 post)	STEP 1 — Codifica Umana (50)	Fatto
Consenso + definizione raffinata	CODEBOOK	Fatto
Prompt con one-shot examples	PROMPT	Fatto
Gemini: 420 post classificati	STEP 1 — Gemini + Decisione	Fatto

Oggi: confrontiamo le codifiche umane con quelle di Gemini e misuriamo l’accordo con metriche statistiche.

Perché Validare

L’IA non è un oracolo

Principio fondamentale: come ci ricorda Cosenza (2025), l’IA ragiona per probabilità, non per verità. Ogni classificazione automatizzata è una bozza che richiede verifica.

Perché la classificazione dell’IA può essere inaffidabile:

Sensibilità al prompt: piccole variazioni producono risultati diversi
Bias del modello: tendenza a sovra-rappresentare alcune categorie
Ambiguità visiva: un’immagine può appartenere a più categorie
Artefatti sintetici: l’IA potrebbe non riconoscere gli stessi indicatori che nota un umano

Il paradosso della fiducia nell’IA

Il rischio

Ferrara (2026) descrive un paradosso: più l’IA sembra affidabile, più rischiamo di fidarci ciecamente dei suoi output (Ferrara, 2026).

Accettare categorie senza verificare
Non controllare le immagini ambigue
Presentare risultati non validati

La soluzione

La validazione sistematica protegge da questo rischio:

Codifica umana indipendente
Confronto quantitativo IA-umano
Documentazione trasparente degli errori
Iterazione basata sui disaccordi

Misurare l’Accordo

Perché non basta la percentuale di accordo

Il problema

Due codificatori possono concordare per caso.

Se ci sono 2 categorie equiprobabili, il 50% di accordo è atteso anche con classificazioni casuali.

La percentuale di accordo grezzo non tiene conto del caso.

La soluzione

Le metriche corrette sottraggono l’accordo atteso per caso:

\[\kappa = \frac{P_o - P_e}{1 - P_e}\]

Dove:

\(P_o\) = accordo osservato
\(P_e\) = accordo atteso per caso

Cohen’s kappa e Krippendorff’s alpha

Metrica	Uso	Caratteristiche
Cohen’s kappa (\(\kappa\))	2 codificatori	Semplice, ampiamente usato
Krippendorff’s alpha (\(\alpha\))	2+ codificatori	Flessibile, gestisce dati mancanti

Scale interpretative standard:

Valore	Interpretazione
< 0.20	Accordo scarso
0.21 - 0.40	Accordo discreto
0.41 - 0.60	Accordo moderato
0.61 - 0.80	Accordo buono
0.81 - 1.00	Accordo eccellente

Validazione Step 1

Step 1: calcolare il kappa

I dati per la validazione esistono già nel vostro foglio:

Confronti da fare

Umano-umano: ogni coppia di membri del gruppo sui 50 post
Umano-IA: ogni membro vs. Gemini sui 50 post

Dove trovare i dati

Codifiche umane → STEP 1 — Codifica Umana (50)
Codifiche Gemini → STEP 1 — Gemini + Decisione (filtrare i 50 post)

Per lo Step 1 binario, la matrice di confusione è 2×2: AI slop vs. Non AI slop. Calcolate \(P_o\) e \(P_e\) manualmente o con Gemini (Cosenza, 2025).

Esempio: matrice 2×2 per Step 1

	Umano: AI slop	Umano: Non AI slop	Tot. IA
IA: AI slop	32	3	35
IA: Non AI slop	2	13	15
Tot. umano	34	16	50

\(P_o = (32+13)/50 = 0.90\) — \(P_e = (35 \times 34 + 15 \times 16) / 50^2 = 0.572\)

\(\kappa = (0.90 - 0.572) / (1 - 0.572) = 0.77\) → Accordo buono

Esercizio: validare Step 1 (20 min)

Raccogliere le codifiche umane dal tab STEP 1 — Codifica Umana (50) e le codifiche Gemini corrispondenti dal tab STEP 1 — Gemini + Decisione
Costruire la matrice di confusione 2×2 per ogni coppia (umano-umano e umano-IA)
Calcolare il kappa (manualmente o con Gemini)
Interpretare: kappa ≥ 0.60 → procedere; kappa < 0.60 → discutere i disaccordi

Decisione Step 1

Kappa ≥ 0.60

Procedere con il filtraggio
Documentare kappa e matrice
Isolare il sottoinsieme AI slop

Kappa < 0.60

Analizzare i disaccordi: dove e perché?
Raffinare la definizione nel CODEBOOK
Reclassificare con Gemini (prompt aggiornato)
Ricalcolare il kappa

Dal Step 1 al Step 2

Filtrare il sottoinsieme AI slop

Con lo Step 1 validato, filtrate il dataset:

Nel tab STEP 1 — Gemini + Decisione, identificate tutti i post classificati come AI slop
Copiate i riferimenti (ID post) nel tab STEP 2 — Codifica Umana (50)
Il campione di 50 post per lo Step 2 sarà selezionato solo tra gli AI slop

Quanti post AI slop avete? Questa proporzione è già un primo risultato: indica quanto del dataset è effettivamente AI slop secondo i vostri criteri.

Step 2: Classificazione Tematica

Step 2: lo stesso workflow, categorie diverse

Lo Step 2 segue lo stesso pattern dello Step 1 — applicato solo ai post AI slop:

Fase	Azione	Tab
1. Codifica umana	Ogni membro classifica 50 post AI slop con le vostre categorie	STEP 2 — Codifica Umana (50)
2. Consenso	Discutete i disaccordi → raffinate le categorie	CODEBOOK
3. Prompt Gemini	Definizioni + one-shot → classificate tutti gli AI slop	STEP 2 — Gemini + Decisione

Ricordate

Le categorie tematiche vengono dal pilot di mercoledì scorso. Usate il codebook che avete già — raffinerete dopo il consenso.

Codifica tematica: istruzioni

Ogni membro classifica 50 post AI slop in modo indipendente nel tab STEP 2 — Codifica Umana (50), usando le categorie del vostro codebook.

Per ogni post: guardate testo + immagine insieme
Assegnate una sola categoria per post
Se nessuna categoria è adatta, annotate il caso
Nessuna discussione — la codifica è cieca

Consenso e Gemini per Step 2

Dopo la codifica individuale:

Confrontate le classificazioni nel tab STEP 2 — Codifica Umana (50)
Discutete i disaccordi → raffinate le definizioni delle categorie
Aggiornate il CODEBOOK con le nuove regole
Costruite il prompt con definizioni + one-shot examples → salvate nel tab PROMPT
Gemini classifica tutti gli AI slop → tab STEP 2 — Gemini + Decisione

Validazione Step 2

Step 2: calcolare il kappa tematico

La matrice di confusione per lo Step 2 è più grande (tante righe/colonne quante le vostre categorie):

	Umano: Cat. A	Umano: Cat. B	Umano: Cat. C
IA: Cat. A	n	…	…
IA: Cat. B	…	n	…
IA: Cat. C	…	…	n

Con più categorie, il kappa tende ad essere più basso. Un kappa di 0.60 per 5-6 categorie è un risultato solido.

Se il kappa Step 2 è basso

Analizzare

Quali coppie di categorie confonde l’IA?
Le definizioni sono sufficientemente precise?
Servono sotto-criteri o anti-esempi?

Soluzioni

Raffinare definizioni nel CODEBOOK
Aggiungere anti-esempi nel prompt
Accorpare categorie troppo simili
Reclassificare e ricalcolare

Attenzione

Se dopo 2 iterazioni il kappa resta sotto 0.60, accorpate le categorie problematiche. Meglio meno categorie affidabili che molte inaffidabili.

Confronto Inter-Gruppo

Tutti sulle stesse immagini: un’opportunità unica

Tutti i gruppi hanno classificato le stesse immagini. Il progetto consente un confronto inter-gruppo impossibile in un design tradizionale.

Cosa confrontare:

Gruppi con categorie condivise (es. più gruppi hanno “bambini”) → kappa inter-gruppo
Gruppi con schemi diversi → cosa rivela una lente che l’altra non coglie?
Proporzione AI slop nello Step 1: le definizioni diverse producono proporzioni diverse?

Cosa riportare nel paper

Sezione Metodo

Codebook con definizioni (Step 1 + Step 2)
Prompt completi (in appendice)
Protocollo: codifica cieca, 50 post, seed 42
Metriche: kappa per entrambi gli step

Sezione Risultati

Matrice di confusione (Step 1 + Step 2)
Iterazioni: quanti cicli, cosa è cambiato
Proporzione AI slop (risultato Step 1)
Distribuzione categorie (risultato Step 2)

La trasparenza metodologica è un valore fondamentale: documentate non solo i successi ma anche gli errori e le iterazioni (Marino & Giglietto, 2024).

Lavoro Pratico

Timeline della sessione

Fase	Tempo	Attività
Step 1: kappa	20 min	Calcolare kappa su codifiche esistenti, matrice 2×2
Filtraggio	5 min	Identificare sottoinsieme AI slop
Step 2: codifica umana	20 min	Ogni membro classifica 50 post AI slop (tematico)
Step 2: consenso	15 min	Discussione disaccordi, raffinare categorie
Step 2: Gemini	20 min	Prompt + classificazione di tutti gli AI slop
Step 2: kappa	10 min	Matrice N×N, calcolo kappa tematico

Prossimi passi

Data	Attività
Lun 30 Marzo	Consultazione gruppi + analisi engagement
Mar 31 Marzo	Workshop di scrittura — struttura del paper
Mer 1 Aprile	Lavoro di gruppo — stesura collaborativa
Lun 13 Aprile	Sintesi del corso — confronto inter-gruppo

Per lunedì: preparate una presentazione (5 min) con: kappa Step 1 e Step 2, proporzione AI slop, distribuzione categorie, e una prima esplorazione dell’engagement per categoria.

Grazie!

Prossima lezione: Consultazione Gruppi e Analisi Engagement (30 Marzo 2026)

📧 fabio.giglietto@uniurb.it

🌐 blended.uniurb.it

Riferimenti

Cosenza, V. (2025). Esercizi di Intelligenza Aumentata: Imparare a Collaborare con le I.A.

Ferrara, E. (2026). The Generative AI Paradox: GenAI and the Erosion of Trust, the Corrosion of Information Verification, and the Demise of Truth [Manoscritto].

Marino, G., & Giglietto, F. (2024). Integrating Large Language Models in Political Discourse Studies on Social Media: Challenges of Validating an LLMs-in-the-loop Pipeline. Sociologica, 18(2), 87–107. https://doi.org/10.6092/issn.1971-8853/19524

Schroeder, D. T., Cha, M., Baronchelli, A., Bostrom, N., Christakis, N. A., Garcia, D., Goldenberg, A., Kyrychenko, Y., Leyton-Brown, K., Lutz, N., Marcus, G., Menczer, F., Pennycook, G., Rand, D. G., Ressa, M., Schweitzer, F., Song, D., Summerfield, C., Tang, A., … Kunst, J. R. (2026). How Malicious AI Swarms Can Threaten Democracy. Science, 387(6732), 354–357.