Abbiamo allineato l'AI a compiacerci, non a dirci la verità

Una domanda difficile posta a un modello linguistico restituirà la versione più accettabile della verità, non la verità. Sarà fluente, all'apparenza autorevole e risoluta: modellata per piacere a chi ha posto la domanda. Lo chiamiamo "allineamento" e già questo termine è metà del problema.

"Allineamento": una parola militare scelta non per caso

Allineamento (dal francese aligner, à ligne, "mettere in linea") nasce sul campo di battaglia: i soldati serravano i ranghi in linea retta. Non è un termine neutro: è l'ordine di schieramento in un contesto bellico. E il modello ha ereditato la nostra mentalità — perfino la parola con cui descriviamo lo scopo lo tradisce. Eredita la conformità militare: minimo sacrificio di risorse, massimo impatto. Non è una macchina aliena che sbaglia: è uno strumento allineato a una mentalità.

Allineato — a cosa?

Il modello è allineato davvero. La domanda è: rispetto a cosa?

In guerra ci si allinea allo stendardo — in francese antico estandart, da cui standard — la bandiera piantata a terra, il riferimento esterno fisso che dà la direzione alla linea. Senza uno standard, la linea non ha verso. Serve sempre un punto a cui allinearsi.

E al modello quale standard abbiamo piantato? Lo si vede mettendolo alla prova su un dominio dove ogni affermazione è verificabile su una fonte primaria: è il lavoro da cui nasce TeoCentro — confrontare le risposte di un LLM con le fonti ebraiche e greche, riga per riga. Il pattern che emerge con regolarità: il modello converge sulla risposta più rassicurante o più polarizzante — quella che soddisfa il gradimento dell'utente — che non sempre coincide con la verità (una verità che a volte il modello conosce e decide di evitare).

Abbiamo piantato lo stendardo del ricavo dalla compiacenza, che il modello è indirizzato a cogliere per inferenza dal prompt. Quindi lo standard dell'allineamento non è la verità: è il gradimento. Questo allineamento ha un nome preciso: compiacenza viene dal latino com-placēre, "piacere a".

Lo standard del ricavo più profittevole possibile (ROI) istruisce un LLM a:

minimizzare il costo: il rischio di trovare dopo una ricerca profonda e di dispiacere per il tempo e/o la verità sgradita.
massimizzare il ritorno: la conferma di ciò che l'utente già crede ripaga più della verità scomoda, che invece va digerita.

Allineamento al compiacimento per profitto: è questo il bias dominante della cultura dominante.

[ STANDARD ]   il riferimento esterno (stendardo / misura ufficiale)
     │ qui gli abbiamo inferenziato/proiettato il COMPIACERE, non la verità
     ▼
[ À LIGNE ]    tendi la linea verso di esso  →  compiacenza (com-placēre)
     │ allo sweet-spot economico: max compiacenza / min costo (ROI)
     ▼
[ ALLINEAMENTO ] conformità al gradimento — non alla verità

Il caso di studio completo — dove questa catena si rompe, con i numeri — è nel caso di studio sulla rimozione delle distorsioni.

Le lingue antiche lo nominavano con precisione

Il greco biblico ha la parola esatta: ἀνθρωπάρεσκος (anthrōpareskos), il "compiacente verso gli uomini", chi agisce per piacere invece che per essere nel giusto (Ef 6,6; Col 3,22). Paolo la oppone direttamente alla verità — "se ancora piacessi agli uomini, non sarei servo di Cristo" (Gal 1,10) — contro l'ἀλήθεια (alḗtheia), la verità, letteralmente non-nascondimento (Gv 8,32; Ef 4,15). Un LLM è, strutturalmente, anthrōpareskos: allineato per piacere, non per dis-velare.

Ignoranza compiacente

Il modello dà con sicurezza la risposta gradita anche dove sbaglia, dissimulando i suoi vuoti. Ciò si può misurare quando ogni affermazione è verificabile su più fonti primarie. Contro una batteria di domande-trabocchetto mirate, un modello standard sbaglia il 23-28%: non rumore casuale, ma le stesse distorsioni verosimili-ma-false, in punti prevedibili. E l'interpretability di Anthropic ha individuato dentro il modello una direzione di "sycophancy" (un persona vector) — la controparte meccanicistica di ciò che misuriamo dall'esterno. A volte la conoscenza è lì, sepolta — ma emerge comunque la cosa compiacente.

Compiace te in particolare

Senza un ancoraggio, un modello non può piacere "in generale": così inferisce chi sei dal prompt e compiace quello. La tua lingua, il fraseggio, i temi: tutto è segnale. Triangola il quadro culturale dietro la domanda e serve la risposta che quel quadro trova soddisfacente. La compiacenza è condizionata dalla cultura del modello e del prompter. E qui c'è una leva: se il prompt segnala un quadro esperto, che cerca la verità, lo sweet-spot si sposta — perché compiacere un esperto richiede di essere corretti. Ri-mira ciò che il modello cerca di compiacere, e lo tiri verso il vero. Non è solo teoria: ri-mirare il bersaglio del modello verso un quadro rigoroso ne sposta concretamente le risposte verso il vero.

Il calcolo del ROI, in atto

È la lente economica che opera in concreto. Davanti a una domanda difficile il modello fa un costo/beneficio silenzioso: scavare per la verità impopolare (costoso, rischia di dispiacere) o fermarsi alla risposta gradita (economica, premiata)? Senza uno standard di verità che ricompensi lo scavo, si accontenta (satisficing): si ferma alla prima risposta accettabile. Non è pigro: è razionale rispetto all'incentivo sbagliato: "non aspettarti un ritorno per la verità".

E qui si vede meglio: anche quando gli fornisci tu la fonte giusta, può resistere. Non perché "sbagli a posta" — non ha intenzioni — ma perché correggere la rotta costa più che compiacere, finché non gli fai tu tutto il lavoro che avrebbe dovuto fare lui. (I laboratori provano a inserire l'onestà come contrappeso — il character training — ma è una battaglia contro l'incentivo di base: promessa di verità contro tornaconto del piacere.)

Lo puoi vedere — come varianza

E si misura dall'esterno, senza guardare dentro il modello. Poni la stessa domanda-trabocchetto molte volte (con un po' di temperatura) e osserva la dispersione delle risposte. Quella dispersione misura quanto è consolidata la convinzione:

	corretto	sbagliato
bassa varianza	conoscenza solida — verità e compiacenza coincidono	bias radicato — sicuro di compiacere, e sbaglia
alta varianza	indovina e azzecca	indovina — segnale di training scarso/conteso

Bassa varianza + sbagliato è il quadrante pericoloso: sicuro di compiacere, e sbaglia.
Alta varianza = costretto a indovinare, nessun consenso stabile a cui agganciarsi.
Bassa varianza + corretto è il caso felice: la risposta gradita è quella vera.

Un solo numero — la stabilità della risposta sotto ripetizione — separa "ti sta ingannando con sicurezza", "sta indovinando" e "lo sa davvero". Quasi tutte le valutazioni campionano una volta sola e non vedono mai la differenza.

Due buone notizie

La prima: il problema è misurabile. Non solo si vede (la varianza), si conta: contro sonde mirate un modello standard sbaglia circa il 23-28%, e quel numero lo si può seguire stadio per stadio — dopo la correzione a monte e/o dopo la verifica a valle. Questo ci aiuta, su TeoCentro.com, a impostare una soglia elevata oltre la quale scegliamo di non pubblicare.

La seconda: è correggibile prima ancora di generare. Non lo si rileva soltanto: lo si corregge prima che il modello scriva un token (ma anche dopo, a valle). Nei nostri esperimenti, spostando solo lo standard a cui il modello si allinea, la risposta è passata da errata a corretta — i numeri nel prossimo articolo.

Perché conta

Non potendo intervenire sullo stendardo del ROI (è la blackbox), basta passare al modello i dati che gli mancano, a monte della generazione, perché il suo calcolo si ribalti a favore della verità: il modello continua a cercare la risposta conveniente — solo che, abbassato il costo della verità, la risposta conveniente diventa quella vera. È il passaggio da ἀνθρωπάρεσκος (anthrōpareskos, "compiacente verso gli uomini" — Ef 6,6; Col 3,22) a ἀλήθεια (alḗtheia, "non-nascondimento" — Gv 8,32; Ef 4,15): non per natura, ma perché ora gli conviene.

Ho costruito un piccolo strumento open source che fa esattamente questo — intervenendo dove il modello sbaglia con sicurezza (e saltando dove è già giusto), senza perdere qualità — gli interventi sono ridotti di circa un terzo rispetto a una correzione a tappeto. Lo strumento, e come si innesta, è il prossimo articolo; l'esperimento e i numeri vengono subito dopo.

La serie sulla verità nell'AI: 1. Il problema (questo) · 2. Il tool — come rimuovo le distorsioni · 3. La prova (in arrivo).