Il problema del significato

Come abbiamo visto, l'aggiunta di una quantità anche minima di informazione semantica aggiunge al sistema un livello significativo di complessità. E' possibile catturare informazione semantica a partire da una grammatica generativa come quelle illustrate nell'esempio precedente^[7], ma è abbastanza intuitivo che un approccio di questo genere è guidato in primo luogo dalla sintassi.

Un'analisi che parte dalla sintassi si presta ad una traduzione dal linguaggio naturale a proposizioni di logica formale. Una tendenza abbastanza diffusa in sistemi per l'elaborazione del linguaggio naturale consiste nel convogliare il significato proprio in espressioni logiche, secondo un modello

per ogni X appartenente all'insieme degli studenti esiste almeno un Y appartenente all'insieme delle materie umanistiche tale che X ama Y

A questo approccio alla comprensione centrato sulla sintassi si contrappone una diversa impostazione che vede costruirsi il significato in funzione di pacchetti di preconoscenze [Shank 1977,1983]: questa posizione corrisponde a un maggiore rilievo dato nelle due scuole al processo linguistico rispetto alla descrizione della conoscenza linguistica.

Anche per descrivere il processo - che sarà oggetto del prossimo capitolo - sono tuttavia necessari strumenti concettuali in grado di formalizzare le preconoscenze alle quali attingono tutti gli atti di produzione o comprensione di linguaggio.

Frames

Frame significa "struttura, ossatura": questo termine è usato, in un contesto di intelligenza artificiale, per indicare strutture di conoscenza. Un termine usato con significato analogo è script, "sceneggiatura".

Le teorie basate sul concetto di frames assumono che la comprensione (non solo linguistica) avvenga in un soggetto le cui preconoscenze sono strutturate in modo da prevedere un certo numero di ipotesi, che possono anche essere diverse da persona a persona. Una situazione viene compresa quando la si riesce a integrare nella casistica che l'individuo ha sviluppato con la propria esperienza. Questo spiega ad esempio il meccanismo base degli sketch tipo Candid Camera: all'interno di situazioni del tutto ordinarie, per cui abbiamo sceneggiature ben consolidate, compare un elemento estraneo e inatteso. La comicità nasce proprio dalle diverse reazioni delle vittime, che tentano di razionalizzare la situazione attingendo ai loro frames di comportamento (es. la scena di Nanni Loi che al bar con un biscotto "fa zuppetta" nel cappuccino altrui).

Tipicamente le rappresentazioni di conoscenza basate su frames sono visualizzabili come reti semantiche di concetti interrelati tra loro e generalmente raggruppati in classi: nello spazio di ogni concetto (di ogni situazione, se seguiamo invece la metafora della sceneggiatura) esistono "posti vuoti" da riempire con dati variabili da situazione a situazione. I frames sono organizzati gerarchicamente a vari livelli d'astrazione, ed esiste un meccanismo di ereditarietà per cui le proprietà di un frame "generale" appartengono automaticamente a tutti i frame che lo particolarizzano. Goria ha due occhi, come esempio di conoscenza inferita, può essere rappresentato da un frame "essere umano" con la proprietà "ha due occhi", e da un frame specifico "istanza di essere umano" con la proprietà specifica "Goria" che eredita tutte le proprietà del primo frame.

Utilizzati principalmente nell'ambito delle comunità di ricerca, sono stati sviluppati formalismi e linguaggi appositi per rappresentazioni della conoscenza più vantaggiose di quelle ottenute tramite linguaggio naturale: una conoscenza che debba essere elaborata da un sistema automatico deve essere non ambigua e mantenere un alto grado di indipendenza dagli aspetti di basso livello, morfo-sintattici, del linguaggio naturale.

L'impegno concettuale e tecnologico applicato in quest'area comincia ad avere oggi ricadute commerciali, ad esempio lo sviluppo dei cosiddetti sistemi esperti o "sistemi basati su conoscenza" (knowledge based systems), oppure lo sviluppo di paradigmi e linguaggi di programmazione object oriented. Per quanto riguarda gli strumenti stiamo tuttavia parlando di tecnologia di punta, non molto assestata e sulle cui ricadute in campo pedagogico ci sembra prematuro esprimerci.

Problemi e prospettive

E' opportuno ricordare che, mentre per gli aspetti sintattici del linguaggio esistono oggi teorie relativamente assestate, la semantica è tuttora un terreno minato. Esistono teorie e modelli significativi, e circa vent'anni fa esisteva una convinzione abbastanza diffusa che questi modelli fossero automatizzabili in tempi non storici tramite programmi per la comprensione e la produzione automatica di testi in linguaggio naturale: un esempio classico è costituito dai forti investimenti negli anni '60 in progetti per la traduzione automatica, tutti falliti.

Oggi esistono voci autorevoli secondo le quali la complessità dell'oggetto linguistico rende impraticabile l'ipotesi di realizzare un programma che comprenda un testo di argomento generale scritto in normale linguaggio naturale. Nel caso del gioco degli scacchi un programma sicuramente imbattibile dovrebbe tener conto di tutte le combinazioni possibili di mosse, il cui numero è nell'ordine di 10¹²⁰, corrispondente a tempi di computazione pressoché geologici [Shapiro, 1987, vol. 1, p.377]; seguendo approcci euristici, in 30 anni di lavoro sono stati sviluppati programmi che giocano al livello di specialisti. Il linguaggio naturale è vari ordini di grandezza più complesso degli scacchi, anche solo pensando alle possibilità combinatorie: basti pensare che tutte le combinazioni degli scacchi sono descrivibili linguisticamente, ma questo costituisce un sottinsieme minimo delle cose che si possono dire con il linguaggio. Una soluzione generale del problema è al momento fuori portata, e la ricerca tende piuttosto a applicarsi a domini circoscritti.

Gli approcci alla comprensione automatica del linguaggio centrati sulla sintassi oppure su frames sono i più paradigmatici. Tuttavia lo stato dell'arte della ricerca in questo campo lavora su modelli molto articolati, che rappresentano il dato linguistico come una struttura costituita da diversi strati che contribuiscono al significato

Il modello di comprensione e produzione non prevede un movimento lineare dal livello morfologico al livello "conoscenza del mondo", ma una collaborazione tra i vari livelli. Un problema classico è quello della risoluzione di ambiguità^[8] in fase di analisi. Prendiamo la frase "Giuseppe ha fatto il compito": nessuno troverebbe alcunché di ambiguo in queste parole; tuttavia una analizzatore automatico al livello lessicale non potrebbe decidere se "fatto" è sostantivo o participio passato, e l'ambiguità potrebbe essere risolta solo a livello sintattico. Questo comporta una sincronizzazione di attività parallele assai problematica a livello tecnologico, ed è oggetto della ricerca di punta nel settore.

^[7] In [Markus 1986] la sezione dedicata all'elaborazione del linguaggio naturale contiene un esempio significativo.

^[8] Il livello di ambiguità di cui parliamo a proposito di sistemi automatici per l'analisi del dato linguistico non presenta alcuna difficoltà per il sistema umano di comprensione. Per le ambiguità che persistono a livello umano, è ragionevole ribadire con [Weinrich 1966] che il linguaggio non è ambiguo o menzognero di per sé, ma lo diventa solo se lo usiamo male o con intenzione ambigua.