The simulation of judgment in LLMs

“L’intelligenza artificiale sarà l’ultima invenzione realizzata dall’umanità.”

Nick Bostrom

I grandi modelli linguistici (Large Language Models, o LLM) come ChatGPT, Gemini o Llama stanno progressivamente entrando nei processi decisionali e valutativi della società digitale. Dalla classificazione delle notizie al supporto nella verifica dei fatti, queste tecnologie vengono sempre più delegate a compiti che implicano una forma di “giudizio”: stabilire se una fonte è affidabile, se un contenuto è credibile, se un’informazione è vera. Ma che cosa significa, per un modello statistico, “giudicare”? E in che misura il suo modo di valutare coincide o diverge da quello umano?

A queste domande ha risposto un gruppo di ricercatori italiani guidato da Walter Quattrociocchi dell’Università “La Sapienza” di Roma, in un articolo pubblicato su PNAS nel 2025. Lo studio, intitolato The Simulation of Judgment in LLMs, mette a confronto il modo in cui sei diversi modelli linguistici valutano l’affidabilità e l’orientamento politico di migliaia di testate giornalistiche, paragonandolo sia ai giudizi di esperti (come NewsGuard e Media Bias/Fact Check) sia alle valutazioni di partecipanti umani. I risultati rivelano un fenomeno affascinante e inquietante insieme: i modelli spesso sembrano “giudicare” come gli umani, ma in realtà lo fanno seguendo logiche completamente diverse. Gli autori definiscono questa divergenza “epistemia” — l’illusione di conoscenza che nasce quando la plausibilità linguistica sostituisce la verifica dei fatti.

E. Loru, J. Nudo, N. Di Marco, A. Santirocchi, R. Atzeni, M. Cinelli, V. Cestari, C. Rossi-Arnaud, & W. Quattrociocchi, The simulation of judgment in LLMs, Proc. Natl. Acad. Sci. U.S.A. 122 (42) e2518443122, https://doi.org/10.1073/pnas.2518443122 (2025).

Dal calcolo al giudizio: quando l’intelligenza artificiale diventa valutativa

L’evoluzione degli LLM ha trasformato radicalmente il rapporto tra esseri umani e informazione. Non si tratta più soltanto di generare testi o rispondere a domande, ma di valutare: distinguere ciò che è affidabile da ciò che non lo è, suggerire contenuti “credibili”, decidere quali risultati mostrare. In altre parole, questi sistemi non sono più meri strumenti di supporto, ma veri e propri mediatori epistemici, capaci di influenzare la percezione della realtà.

Il gruppo di Quattrociocchi osserva che questa trasformazione rappresenta un passaggio epocale: non stiamo più automatizzando compiti, ma delegando funzioni di giudizio. Tuttavia, mentre il giudizio umano si fonda su norme, contesto e riflessione, quello delle macchine nasce da pattern statistici. Gli algoritmi apprendono da milioni di testi preesistenti, dove co-occorrenze di parole e associazioni semantiche vengono tradotte in regole implicite di valutazione. Così, termini come “complottismo” o “fake news” diventano marcatori linguistici che orientano la classificazione di un testo, indipendentemente dal suo contenuto reale.

Questo spostamento dal ragionamento alla correlazione porta con sé un rischio: confondere la forma con la sostanza. Un articolo ben scritto ma impreciso può essere scambiato per affidabile; viceversa, una fonte accurata ma polemica può essere penalizzata. La macchina, in sostanza, simula il giudizio umano senza comprenderlo davvero.

Classificazione degli LLM rispetto ai valutatori esperti umani. (A) Ogni pannello confronta il modo in cui i domini classificati come “Affidabili” o “Non affidabili” da NewsGuard sono classificati da ciascun LLM (Deepseek V3, Gemini 1.5 Flash, GPT-4o mini, Llama 3.1 405B, Llama 4 Maverick, Mistral Large 2). Tutti e sei i modelli identificano accuratamente le fonti inaffidabili, con un accordo che varia dall’85 al 97% tra i modelli. Tuttavia, i domini affidabili mostrano una maggiore variabilità di classificazione, in particolare in Llama 4 Maverick e in GPT 4o-mini, che classificano una parte significativa (35% e 32%) come “inaffidabile”. (B) Campioniamo in modo casuale 40 domini da ciascuna coppia di orientamento politico e valutazione di affidabilità di NewsGuard e calcoliamo il tasso medio di errata classificazione tra gli orientamenti politici su 10.000 ricampionamenti. Le barre di errore riportano il primo e il terzo quartile delle frequenze risultanti per gruppo. Rispetto a NewsGuard, gli LLM sembrano sovrastimare o sottostimare l’affidabilità dei mezzi di informazione in base al loro orientamento politico. In particolare, i mezzi di informazione di destra tendono ad essere costantemente classificati erroneamente dagli LLM come inaffidabili, mentre quelli di centro e di sinistra come affidabili.

Come giudicano i modelli: l’esperimento su 2.286 testate

Per verificare empiricamente come gli LLM costruiscano i loro giudizi, i ricercatori hanno chiesto a sei modelli — DeepSeek V3, Gemini 1.5 Flash, GPT-4o mini, Llama 3.1, Llama 4 Maverick e Mistral Large 2 — di classificare 2.286 siti di informazione in base a due criteri: affidabilità e orientamento politico. Le stesse testate erano già state valutate da esperti di NewsGuard e MBFC, offrendo così un riferimento oggettivo.

Il protocollo è stato costruito con rigore sperimentale: i modelli non ricevevano alcuna definizione di “affidabilità” né esempi di classificazione. Dovevano dunque basarsi solo sulle rappresentazioni apprese in fase di addestramento. Ogni modello produceva inoltre parole chiave esplicative, per rendere visibile il processo di ragionamento simulato. Parallelamente, un campione di partecipanti umani seguiva lo stesso percorso, valutando le testate e motivando le proprie scelte.

I risultati mostrano che gli LLM sono sorprendentemente bravi nel riconoscere i siti “inaffidabili”: il livello di accordo con gli esperti supera l’85% e in alcuni casi il 97%. Tuttavia, quando si tratta di identificare i siti affidabili, le prestazioni crollano. GPT-4o mini e Llama 4 Maverick, per esempio, classificano come “inaffidabili” oltre un terzo delle fonti ritenute attendibili da NewsGuard. Ancora più interessante è l’asimmetria politica: le testate di destra vengono giudicate più spesso inaffidabili rispetto a quelle di centro o di sinistra, anche quando gli esperti non rilevano differenze. Non si tratta di un “pregiudizio ideologico” in senso stretto, ma del riflesso dei bias presenti nei dati di addestramento, dove discorsi estremisti e disinformazione tendono a coesistere linguisticamente. Il modello, quindi, impara che determinate parole o stili comunicativi “somigliano” a quelli di fonti non credibili, e generalizza l’associazione.

Le parole del giudizio: cosa rivelano i marcatori linguistici

Analizzando le parole chiave generate dai modelli, i ricercatori hanno scoperto una sorta di vocabolario del giudizio. Le testate ritenute affidabili vengono descritte con termini come “factual”, “neutral”, “diverse”, “transparency”; quelle inaffidabili, con parole come “conspiracy”, “bias”, “misinformation”, “sensationalism”. In altre parole, i modelli costruiscono una semantica implicita della credibilità, basata su associazioni lessicali ricorrenti.

Questa regolarità è talmente forte da produrre distribuzioni statistiche “a coda lunga”: pochi termini dominano la classificazione, mentre la maggior parte appare solo sporadicamente. Ciò significa che le valutazioni non nascono da una comprensione concettuale, ma da pattern linguistici ripetitivi. Inoltre, il colore politico dei termini è evidente: parole associate alla destra (“Trump”, “Biden”, “conservative”) ricorrono quasi solo nei contesti di “inaffidabilità”, mentre quelle neutrali o progressiste appaiono nei giudizi positivi.

Ma la differenza più importante riguarda il modo in cui i modelli distinguono i contenuti. Le testate “affidabili” e quelle “inaffidabili” trattano spesso gli stessi temi — politica, salute, economia — ma differiscono per tono e stile. Gli LLM sembrano quindi più sensibili alla forma linguistica che alla verifica fattuale. Un linguaggio equilibrato e impersonale è interpretato come segnale di credibilità; un tono emotivo o polemico, come segno di parzialità. È la “grammatica della fiducia” appresa dalle macchine.

Distribuzioni di frequenza delle parole chiave utilizzate da ciascun LLM per descrivere i domini. Ogni pannello presenta le parole chiave di classificazione (A) e determinanti (B) più frequentemente utilizzate per i domini affidabili e inaffidabili. Solo le cinque parole chiave più comuni per pannello sono etichettate per migliorare la leggibilità. La sfumatura di colore rappresenta l’orientamento politico dedotto di ciascuna parola chiave, che va da sinistra a destra, in base all’orientamento politico dei domini a cui sono più frequentemente associate. Le parole chiave di destra compaiono quasi esclusivamente nelle descrizioni dei domini inaffidabili, mentre le parole chiave politicamente neutre o di sinistra sono più caratteristiche dei domini affidabili. Tutte le distribuzioni mostrano un comportamento a coda pesante, come indicato dalla loro forma approssimativamente lineare su una scala logaritmica, dove un piccolo insieme di parole chiave altamente frequenti domina le descrizioni, mentre la maggior parte appare meno frequentemente. Ciò indica che gli LLM producono indicatori coerenti quando spiegano le loro valutazioni di affidabilità.

Umani e macchine a confronto: lo stesso compito, logiche diverse

Per capire se gli LLM potessero davvero “pensare” come gli umani, i ricercatori hanno replicato l’esperimento con cinquanta partecipanti non esperti, chiedendo loro di valutare la credibilità di vari siti seguendo una procedura identica a quella dei modelli. Entrambi dovevano selezionare cinque criteri tra sei (accuratezza fattuale, trasparenza, manipolazione linguistica, diversità di prospettive, responsabilità degli autori e professionalità nella scrittura) e attribuire un giudizio finale di affidabilità.

I risultati hanno mostrato un contrasto netto. Gli LLM, anche in versione “agente” dotato di accesso ai contenuti web, hanno mantenuto una buona coerenza con i giudizi degli esperti, mentre gli esseri umani si sono rivelati molto meno affidabili: spesso non distinguevano correttamente le fonti, mostrando una tendenza al cosiddetto “bias dello scetticismo”, cioè la propensione a considerare false informazioni vere più che il contrario. Tuttavia, la differenza cruciale non riguarda la correttezza dei giudizi, ma il modo in cui vengono prodotti.

Sia umani che modelli pongono “accuratezza fattuale” al primo posto, ma le motivazioni divergono: gli umani lo fanno per deliberazione e comprensione del contenuto, i modelli perché associano determinate parole o strutture sintattiche all’idea di verità. Le divergenze aumentano nei criteri secondari: gli LLM privilegiano “trasparenza della proprietà” e “responsabilità degli autori”, mentre gli umani danno più peso a “manipolazione linguistica” e “stile di scrittura”. In pratica, gli esseri umani giudicano con l’intuito e la retorica, le macchine con la statistica e la struttura. Due forme di razionalità che si incrociano nei risultati, ma non nelle premesse.

Epistemia: l’illusione del sapere nell’era dell’IA

Da questo confronto emerge il concetto chiave introdotto dagli autori: epistemia. Il termine designa la condizione in cui la coerenza linguistica e la plausibilità statistica producono l’impressione di conoscenza, anche in assenza di comprensione o verifica. Quando un LLM genera una risposta “credibile”, lo fa perché ha imparato che determinate combinazioni di parole suonano autorevoli, non perché abbia validato i fatti che esprime. È un sapere di superficie che mima la profondità.

L’epistemia rappresenta una svolta culturale: per la prima volta nella storia, il giudizio — fondamento della conoscenza critica — viene simulato da un sistema che non ragiona, ma calcola. Il rischio, sottolineano i ricercatori, è che questa illusione venga scambiata per competenza. Se gli utenti o le istituzioni iniziano a delegare decisioni complesse a modelli che “sembrano” giudicare come noi, si apre un problema etico e cognitivo. L’automazione del giudizio potrebbe sostituire il confronto argomentativo con la pura verosimiglianza.

Il fenomeno si inserisce in un contesto già fragile: l’“infodemia”, la sovrabbondanza di informazioni contrastanti che caratterizza il web contemporaneo. In questo ambiente, l’adozione di sistemi che amplificano la plausibilità linguistica rischia di accentuare la crisi di fiducia verso le fonti e di polarizzare ulteriormente il dibattito pubblico. La velocità con cui le IA generano e valutano contenuti può produrre una nuova forma di opacità epistemica, in cui non solo non sappiamo se qualcosa è vero, ma nemmeno come è stato deciso che lo sia.

Valutazioni di affidabilità effettuate da agenti LLM basati su Gemini e da esseri umani non esperti in un contesto sperimentale controllato. (A) I due pannelli mettono a confronto le valutazioni di affidabilità degli esseri umani e degli agenti con le classificazioni di NewsGuard. I modelli identificano in modo coerente tutte le fonti inaffidabili (U) e hanno difficoltà con quelle affidabili (R). Al contrario, gli esseri umani mostrano uno scarto minimo o nullo rispetto a NewsGuard, sia per i domini affidabili che per quelli inaffidabili. (B) Matrice di confusione delle valutazioni fornite dagli esseri umani e dagli agenti, con le valutazioni umane utilizzate come verità di base. I due mostrano una forte concordanza sulle fonti inaffidabili, mentre il 77% delle fonti valutate come affidabili dagli esseri umani sono considerate inaffidabili dall’LLM. (C) Distribuzione delle scelte di ordine per ciascun criterio da parte degli esseri umani (a sinistra) e dei modelli (a destra). Le distribuzioni umane appaiono più uniformi di quelle dei modelli, indicando che la maggior parte dei criteri ha all’incirca la stessa probabilità di apparire in qualsiasi posizione rispetto agli LLM.

In conclusione…

Lo studio di Loru, Nudo, Di Marco, Santirocchi, Atzeni, Cinelli, Cestari, Rossi-Arnaud e Quattrociocchi ci offre un ritratto lucido e inquietante dell’intelligenza artificiale contemporanea. I modelli linguistici non sono semplicemente strumenti di analisi: sono agenti cognitivi simulati, capaci di riprodurre l’apparenza del giudizio umano senza condividerne la logica interna. Quando i loro risultati coincidono con quelli degli esperti, non significa che abbiano “capito” la realtà, ma che hanno riconosciuto pattern linguistici che la imitano.

La questione centrale, dunque, non è più l’accuratezza dell’output, ma la trasparenza del processo. In un’epoca in cui la valutazione è parte integrante di sistemi sociali, giuridici e informativi, comprendere come l’IA costruisce i propri criteri diventa essenziale. La sfida futura sarà sviluppare modelli che integrino ragionamento esplicito e verificabilità, restituendo al giudizio umano il ruolo di garanzia epistemica. In caso contrario, rischiamo di vivere in un mondo in cui l’apparenza di coerenza sostituisce la verità — e in cui l’illusione del sapere diventa la nuova forma dell’ignoranza.

0 0 voti
Article Rating
Iscriviti
Notificami
guest
0 Commenti
Vecchi
Più recenti Le più votate
Feedback in linea
Visualizza tutti i commenti
Translate »