venerdì 27 ottobre 2023

Errori ottici ed errori sintetici. Una nuova erratologia

Immagine realizzata con Dall-E 3 tramite IMAGE CREATOR di Bing.


Cerco di portare avanti la mia esplorazione delle cosiddette sintografie (cioè immagini generate da modelli di intelligenza artificiale), cercando di operare una comparazione tra fotografie e immagini sintetiche che uno sguardo umano scambierebbe per fotografie, definendo un confronto tra il paradigma ottico e quello sintetico da un punto di vista particolare, quello dell'errore.

In fotografia gli errori (i cosiddetti artefatti) più comuni sono le distorsioni, la sfocatura, il mosso, le inquadrature storte, gli occhi rossi, le linee cadenti, l'illuminazione inadeguata. I più esperti ne potrebbero aggiungere degli altri.

Poiché la fotografia implica un posizionamento nello spazio e un occhio e un obiettivo che 'guardano' verso una direzione, nella maggior parte dei casi si tratta di errori che hanno a che fare con questioni ottiche: scelta della lunghezza focale, angolazione dell'inquadratura, distanza del soggetto dall'obiettivo, illuminazione inadatta e possono dipendere sia dall'inadeguatezza dello strumento utilizzato che da errori pratici o di valutazione dell'operatore. Anche se oggigiorno le numerose applicazioni preinstallate sui moderni dispositivi di scatto permettono la correzione automatica degli errori più comuni, tuttavia l'uso di fotocamere sia digitali che analogiche comporta che si incorra ancora in simili inconvenienti, ritrovandoci in mano dei risultati che non rispondono alle nostre aspettative, quasi sempre in termini di nitidezza, di illuminazione, di bilanciamento e di regolazione dell'immagine.

Cosa succede invece dal lato dell'immagine sintetica, generata attraverso l'impiego di reti neurali artificiali profonde?

Diciamo subito che anche in quest'ambito si incorre in artefatti, ma non sono di tipo ottico. Sono semmai errori di sintesi, dovuti alla modalità operativa dei modelli generativi LLM (Large Language Model) che, ricordiamo, funzionano tramite la computazione algoritmica, in un flusso operativo text-to-image a partire da uno stadio iniziale di rumore casuale, trasformando prima il testo verbale (prompt) in token linguistici comprensibili dalla macchina, poi individuando le prossimità semantiche in uno spazio latente e infine, attraverso un processo stratificato di assemblaggi, procedendo alla rimozione del rumore e alla generazione di un'immagine nuova, non esistente prima (si veda https://cosimoaccoto.files.wordpress.com/2023/05/potenza-della-latenza-3-studi-sulla-generative-ai-ver-4-1.pdf).

Le problematiche che caratterizzano le immagini sintetiche riguardano, quindi, le difficoltà di traduzione del linguaggio verbale in pixel, come ad esempio quelle nel comprendere le istruzioni di quantità (quantificatori e cardinalità), gli scogli di composizionalità (prompt che descrivono scene con diversi oggetti che hanno una relazione reciproca) o relativi a rendering di testi lunghi e su un ampio numero di oggetti.

Ma, se parliamo di artefatti, ci riferiamo non ai problemi di conversione del linguaggio verbale, ma a degli errori visibili che minano la coerenza dell'immagine, ad esempio le incongruenze nella resa di illuminazioni e di ombre, o nella definizione dei dettagli (uno dei punti più critici, ad esempio, è la resa delle mani) e delle texture (capita spesso, tra le tante criticità riscontrate, che i pavimenti dal disegno elaborato non siano perfettamente uniformi).

Come si vede si tratta di artefatti dovuti a falli di computazione e non di posizionamento o messa a fuoco. Non siamo dunque di fronte a errori ottici, ma algoritmici. Le immagini sintetiche, infatti, sono caratterizzate (almeno usando modelli generativi abbastanza potenti) quasi sempre da una soddisfacente inquadratura e messa a fuoco, da una nitidezza diffusa, da una composizione dalle linee e volumi bilanciati. Quasi impossibile ottenere un orizzonte storto o linee cadenti oppure soggetti mal centrati. Le eventuali distorsioni non sono di tipo ottico, ma - lo ribadiamo - sintetico. 

Volendo, riuscendo a calibrare bene il prompt verbale, gli errori ottici tradizionali - il flou, la sfocatura - potrebbero essere semmai simulati dalla computazione algoritmica, dietro apposita richiesta.

Queste considerazioni concorrono, spero, ad inquadrare le enormi differenze "ontologiche" tra fotografia e immagine sintetica. La prima, come abbiamo più volte ribadito, è sempre un posizionamento nello spazio e una relazione con un ambiente esterno da parte di un operator (formato in genere da un soggetto umano e da una macchina); la seconda è una sintesi computazionale che viene incontro a esigenze espressive della fantasia o immaginazione del richiedente o a necessità pratiche di comunicazione o illustrazione.

In ambedue i casi, tuttavia, è possibile parlare di cooperazione tra un soggetto umano e un dispositivo tecnologico più o meno autonomo e con capacità di agency. Si tratta, come abbiamo visto, di una cooperazione che si esplica in modi diversi. Gli errori cui si può incorrere indicano in modo esemplare questa differenza di paradigmi visuali, la distanza tra l'ambiente ottico (c'è un occhio che guarda fuori di sé) e quello sintetico (c'è un algoritmo che computa e assembla).

Ma c'è un altro elemento che hanno in comune. Come in fotografia sono stati proprio gli errori, più o meno casuali, a rappresentare dei validi strumenti cognitivi e di esplorazione delle possibilità estetiche del dispositivo, così anche per le immagini sintetiche sono proprio gli artefatti a costituirne uno degli aspetti più interessanti.

La stigmatizzazione del difetto - ce lo ricorda Clément Chéroux nel suo bellissimo saggio che valorizza proprio l'errore fotografico - è infatti legata alla funzione mimetica (mimesis), che viene tipicamente attribuita alla fotografia sin da quando è stata scoperta. Una concezione funzionalista che spesso persiste ancora, mentre proprio la casualità dei fallimenti, delle défaillance e degli incidenti di ripresa ha spesso rappresentato la possibilità di fare scoperte nuove e fertili delle potenzialità del mezzo, la serendipity della fotografia. Perché, scriveva Chéroux, "è nelle sue ombre, nei suoi scatti errati, nei suoi accidenti e nei suoi lapsus che la fotografia si svela e meglio si lascia analizzare" (C. Chéroux, L'errore fotografico, Einaudi 2009).

Se l'abile anagramma dell'autore stabiliva che “la fotografia errata servirà a tarare la fotografia”, lo stesso può dirsi a proposito dell'immagine sintetica, partendo dal principio che il fallimento è un concetto relativo. Il lavoro è quello, oggi, di sperimentare e riflettere per affrontare una «erratologia» (come il pensatore francese definiva il suo trattato) delle nuove immagini, valorizzando ciò che potrebbe far emergere forme visive inedite, "l'epifania" dell'immagine sintetica.


Nessun commento:

Posta un commento