Molti si affidando agli LLM anche per eseguire operazioni matematiche. Questo approccio non funziona .

La questione in realtà è semplice: i modelli linguistici di grandi dimensioni (LLM) non sanno davvero moltiplicare. Possono talvolta azzeccare il risultato, proprio come io potrei sapere a memoria il valore del pi greco. Ma questo non significa che io sia un matematico, né che gli LLM sappiano davvero fare matematica.

Esempio pratico

Esempio: 49858 *5994949 = 298896167242 Questo risultato è sempre lo stesso, non ci sono vie di mezzo. O è giusto o è sbagliato.

Anche con un massiccio addestramento mirato alla matematica, i migliori modelli riescono a risolvere correttamente solo una parte delle operazioni. Una semplice calcolatrice tascabile, invece, ottiene il 100% dei risultati corretti, sempre. E più i numeri diventano grandi, peggiori sono le prestazioni degli LLM.

E’ possibile risolvere questo problema?

Il problema di fondo è che questi modelli imparano per somiglianza, non per comprensione. Funzionano meglio con problemi simili a quelli su cui sono stati addestrati, ma non sviluppano mai una vera comprensione di ciò che affermano.

Per chi desidera approfondire suggerisco questo articolo su “come funziona un LLM”.

Una calcolatrice, al contrario, usa un algoritmo preciso programmato per eseguire l'operazione matematica.

Questa è la ragione per cui non dovremmo mai affidarci completamente agli LLM per calcoli matematici: anche nelle migliori condizioni, con enormi quantità di dati di addestramento specifici, non riescono a garantire l'affidabilità nemmeno nelle operazioni più basilari. Potrebbe funzionare un approccio ibrido, ma gli LLM da soli non sono sufficienti. Forse questo approccio verrà seguito per la risoluzione del cosiddetto “strawberry problem” (Il problema della Fragola).

Applicazioni degli LLM nello studio della matematica

Nel contesto educativo, gli LLM possono fungere da tutor personalizzati, capaci di adattare le spiegazioni al livello di comprensione dello studente. Per esempio, quando uno studente affronta un problema di calcolo differenziale, l'LLM può scomporre il ragionamento in passaggi più semplici, fornendo spiegazioni dettagliate per ogni fase del processo risolutivo. Questo approccio aiuta a costruire una solida comprensione dei concetti fondamentali.

Un aspetto particolarmente interessante è la capacità degli LLM di generare esempi pertinenti e variati. Se uno studente sta cercando di capire il concetto di limite, l'LLM può presentare diversi scenari matematici, partendo da casi semplici fino ad arrivare a situazioni più complesse, permettendo così una comprensione progressiva del concetto.

Un'applicazione promettente è l'uso degli LLM per la traduzione di concetti matematici complessi in linguaggio naturale più accessibile. Questo facilita la comunicazione della matematica a un pubblico più ampio e può aiutare a superare la tradizionale barriera di accesso a questa disciplina.

Gli LLM possono anche assistere nella preparazione di materiale didattico, generando esercizi di varia difficoltà e fornendo feedback dettagliati sulle soluzioni proposte dagli studenti. Questo permette agli insegnanti di personalizzare meglio il percorso di apprendimento dei loro studenti.

Il vero vantaggio

E’ anche da considerare, più in generale, l’estrema “pazienza” nell’aiutare nell’apprendimento anche lo studente meno “capace”: in questo caso l’assenza di emozioni aiuta. Nonostante questo, anche l’ai a volte “perde la pazienza”. Si veda questo “divertente” esempio.

Aggiornamento 2025: I Modelli di Ragionamento e l'Approccio Ibrido

Il 2024-2025 ha portato sviluppi significativi con l'arrivo dei cosiddetti "reasoning models" come OpenAI o1 e deepseek R1. Questi modelli hanno ottenuto risultati impressionanti sui benchmark matematici: o1 risolve correttamente l'83% dei problemi delle Olimpiadi Internazionali di Matematica, contro il 13% di GPT-4o. Ma attenzione: non hanno risolto il problema fondamentale descritto sopra.

Il problema della fragola—contare le 'r' in "strawberry"—illustra perfettamente il limite persistente. o1 lo risolve correttamente dopo alcuni secondi di "ragionamento", ma se gli chiedi di scrivere un paragrafo dove la seconda lettera di ogni frase compone la parola "CODE", fallisce. o1-pro, la versione da 200 dollari al mese, lo risolve... dopo 4 minuti di elaborazione. DeepSeek R1 e altri modelli recenti ancora sbagliano il conteggio base. Nel febbraio 2025, Mistral continuava a rispondere che in "strawberry" ci sono solo due 'r'.

Il trucco che sta emergendo è l'approccio ibrido: quando devono moltiplicare 49858 per 5994949, i modelli più avanzati non cercano più di "indovinare" il risultato basandosi su somiglianze con calcoli visti durante l'addestramento. Chiamano invece una calcolatrice o eseguono codice Python—esattamente come farebbe un essere umano intelligente che sa quali sono i propri limiti.

Questo "tool use" (uso di strumenti) rappresenta un cambio di paradigma: l'intelligenza artificiale non deve saper fare tutto da sola, ma deve saper orchestrare gli strumenti giusti. I reasoning models combinano capacità linguistica per comprendere il problema, ragionamento passo-passo per pianificare la soluzione, e delega a strumenti specializzati (calcolatrici, interpreti Python, database) per l'esecuzione precisa.

La lezione? Gli LLM del 2025 sono più utili in matematica non perché abbiano "imparato" a moltiplicare—ancora non l'hanno fatto davvero—ma perché alcuni di loro hanno iniziato a capire quando delegare la moltiplicazione a chi la sa fare davvero. Il problema di fondo rimane: operano per somiglianza statistica, non per comprensione algoritmica. Una calcolatrice da 5 euro resta infinitamente più affidabile per calcoli precisi.