Limiti del RAG nell’analisi documentale: perché non basta

14Lug, 2025

Quando il RAG fallisce: il caso della delega scaduta e l’importanza della comprensione semantica

Introduzione

Nel mondo dell’Intelligenza Artificiale applicata ai documenti, il Retrieval-Augmented Generation (RAG) è diventato lo standard de facto. Tuttavia, i limiti del RAG nell’analisi documentale emergono chiaramente quando si passa da domande semplici a casi che richiedono ragionamento logico, gestione di vincoli, date e relazioni.

Una pipeline classica: spezzare i documenti in chunk, indicizzarli con embedding, recuperarli per similarità e infilarli in un prompt. Funziona? Sì, finché non serve davvero comprendere.

Vediamolo con un caso reale.

Il Fallimento

Il documento caricato nel sistema cita testualmente :

“La società Alfa Srl, in data 12/03/2023, ha delegato l’Avv. Maria Rossi a rappresentarla presso l’Agenzia delle Entrate per la procedura 394/A, con poteri limitati alla firma dei documenti fiscali. La procura ha validità fino al 31/12/2023.”

un utente del sistema chiede:

“Chi può firmare per conto di Alfa Srl?”

Cosa fa un RAG classico?

Recupera il chunk che contiene ‘Alfa Srl’ e ‘firma’
Lo inserisce nel prompt del modello

Il modello LLM risponde:

“L’Avv. Maria Rossi rappresenta Alfa Srl.”

Ma… è una risposta sbagliata.

La delega è scaduta.
Era valida solo per documenti fiscali.
Il modello non è stato messo nelle condizioni di ragionare su date e ambiti.

Questo tipo di errore, in un contesto giuridico o amministrativo, può avere conseguenze molto gravi.

Questo esempio mostra chiaramente i limiti del RAG nell’analisi documentale, dove serve più di una semplice correlazione testuale.

Perché il RAG fallisce in casi così? Limiti del RAG nell’analisi documentale

Non ha logica temporale. Un LLM non sa che oggi è il 2025 se non glielo dici esplicitamente.
Non conosce le entità coinvolte, solo il testo in cui sono citate.
Non gestisce vincoli strutturati (come “ambito = documenti fiscali” o “valido fino a…”).

In sintesi: recupera testo, ma non lo comprende.

Cosa facciamo noi, invece

Nel nostro approccio, affrontiamo il problema alla radice: non ci accontentiamo del testo, ma lo strutturiamo semanticamente.

Ecco cosa facciamo:

Estrazione semantica
Creazione di un grafo interrogabile
Risposta basata su logica, non su probabilità

“L’Avv. Maria Rossi era delegata solo per documenti fiscali e solo fino al 31/12/2023. Oggi la delega non risulta più valida.”

Questo è possibile perché il sistema ragiona su dati strutturati, non su testo approssimato.

Conclusione

Il Retrieval-Augmented Generation è uno strumento potente, ma ha limiti oggettivi nell’analisi documentale. Non basta più recuperare testo simile.

Serve dare alla macchina la possibilità di ragionare.
E per farlo, serve semantica.

Quando il RAG fallisce: il caso della delega scaduta e l’importanza della comprensione semantica

Quando il RAG fallisce: il caso della delega scaduta e l’importanza della comprensione semantica

Introduzione

Il Fallimento

Perché il RAG fallisce in casi così? Limiti del RAG nell’analisi documentale

Cosa facciamo noi, invece

Conclusione

Lascia un commento Annulla risposta