venerdì 20 ottobre 2023

Un futuro ancora da inventare

Immagine generata con Bing Image Creator - Dall-E 3


Sulla mia pagina Facebook, da qualche tempo, sto pubblicando immagini generate con il contributo dell'intelligenza artificiale. Ho chiamato l'album che le contiene Incubi Digitali, perché il tentativo, nato quasi per gioco, è quello di cercare di dare forma visibile ai miei incubi di bambina, scavando nell'inconscio e nei ricordi. Ma non è questo il fatto importante. Anzi. Più che altro il tema può essere considerato un semplice pretesto, che si rivela piuttosto adatto in quanto queste nuove tecnologie generative si prestano molto bene ad essere impiegate per sintetizzare immagini surreali, oniriche, insomma difficili da ottenere in modo tradizionale, tramite fotografia staged, o che richiederebbero elevate competenze nel campo della manipolazione digitale.

Non è un progetto che si propone una qualche ambizione artistica. Uno dei miei intenti è esplorare praticamente una tecnologia che studio a livello teorico da anni, cercando di comprenderne limiti e potenzialità. E nel frattempo continuare a portare avanti la ricerca su quell'oggetto proteiforme che è l'immagine. 

Ho scelto l'app Bing Image Creator, installata sullo smartphone, che utilizza il modello generativo DALL·E 3.

Come anticipato, l'intenzione era quella di dare forma a paure, visioni, sogni ricorrenti che hanno caratterizzato soprattutto la mia infanzia e adolescenza, pur essendo nella condizione di chi non ha alcun talento visivo, né fotografico né pittorico né scenografico (necessario per chi opera con l'immagine staged). Anni fa, chi era nella mia stessa condizione di "difficoltà artigianale", ma desideroso di "dare forma visibile" al proprio pensiero o intuizione o immaginazione visiva, probabilmente ricorreva all'appropriazione, all'objet trouvé, alla found photography, al collage, alla manipolazione digitale.

Nel campo dell'immagine sintetica si ricorre a un altro tipo di pratica: il prompting. Il lavoro primario è sulla parola, in modo da farsi capire dalla macchina. Alla fine si constata che, da una parte il risultato è ottenuto solo grazie al fatto che la rete neurale attinge al mare magnum della produzione di pittori, disegnatori, fotografi e creatori di immagini, famosi o anonimi, che hanno lavorato nel passato. Senza tutto l'immenso repertorio visivo generato in vari modi e digitalizzato o digitale originario, nessuna sintesi algoritmica sarebbe possibile. Quest'ultima attinge insomma a un immaginario preesistente e sedimentato. Dall'altra ci si rende conto che la macchina non riproduce, ma rielabora in modo autonomo, dando vita a forme che spesso risultano inedite e spiazzanti. Per cui ciò che alla fine salta agli occhi, nelle immagini prodotte, è "un'aria di famiglia", che vira di frequente nel cliché e nello stereotipo, e nello stesso tempo un'impressione aliena, di artificiosità non umana, data spesso da certe imperfezioni di sintesi, i cosiddetti artefatti (basta vedere la sintesi di pavimenti dal disegno elaborato o delle mani).

In ogni caso, si può constatare come il "comando" testuale fornito come input sia davvero poco "comando" e più stimolo, in quanto nel risultato la macchina ci mette "molto di suo". Mi sono stupita, anzi, di come DALL·E richieda un testo molto stringato: più si prova a specificare la descrizione dell'immagine che si vuole, meno la macchina "comprende" l'intenzione; nel senso che, nella misura in cui la rete profonda lavora sulla probabilità statistica secondo modalità ricorsive, più parole ci sono nel testo più la sintesi rischia di non capire il "soggetto" e di sbagliare strada. 

Il prompt, insomma, non è una ekphrasis, non è una descrizione. È più uno spunto, un suggerimento. Né è riscontrabile alcuna corrispondenza tra l'eventuale 'poeticità' del testo e quella dell'immagine generata. Il lavoro sul comando verbale non dev'essere di tipo estetico, ma grammaticale e sintattico.

Alla fine, comunque, il risultato è il più delle volte "imprevisto", cioè non pre-vedibile. La generazione di immagini sintetiche può essere considerata una collaborazione plurima a tutti gli effetti: lavoro sedimentato nei big data + modello generativo + operatore che fornisce il prompt. L'esperienza è in ogni caso interessante perché ci si trova di fronte a una forma di "intelligenza" (continuiamo a chiamarla così, anche se sappiamo che il termine è fuorviante) che opera in un modo tutto suo, peculiare, molto diverso dal mio. E ogni volta constato, quasi divertita, come l'esperienza di una comunicazione "fuori dal comune", attenta ad evitare ad esempio il senso figurato, le ambiguità, le sintassi complicate, non sia per me del tutto nuova, vista la mia familiarità con le persone autistiche, anch'esse bisognose di costruzioni della frase dirette, chiare e senza equivoci, affinché ci sia comprensione del messaggio e si realizzi l'esperienza comunicativa. In ogni caso si tratta di un'esigenza semplice e complicata nello stesso tempo: adeguare la comunicazione. Sforzarsi per trovare la strada giusta per farsi capire. Qualcosa che, a pensarci bene, non sempre siamo disposti a fare nella vita di tutti i giorni con i nostri partner comunicativi.

Nell'interrogare il modello generativo, il mio ruolo consiste per lo più nel limare termini e sintassi del comando di testo (il soggetto sempre all'inizio, evitare troppi aggettivi), nel fare più tentativi di richiesta e infine nell'operare una selezione dei risultati. La parte più significativa per l'attore umano è l'ideazione. Niente a che fare con la fotografia, che significa confrontarsi con un altro tipo di strumento e di protocollo visuale (che è ottico), muoversi nello spazio, relazionarsi con oggetti, paesaggi, persone, scegliere inquadrature, ecc. Sono due pratiche che spesso hanno in comune solo l'apparenza del prodotto finale. 

Infine, la questione che mi sembra più importante da sottolineare. Le immagini di questo progetto non indicano il vero futuro di applicazione artistica di questa tecnologia. Queste sono immagini che possono avvicinarsi a quelle che già realizzava un Arthur Tress o una Francesca Woodman - tanto per fare due nomi - utilizzando metodi e strumentazioni molto diverse. 

Queste immagini, insomma, appartengono ancora al passato; ne ripropongono molti cliché e stereotipi. 

Sono necessarie altre forme di esplorazione e di "stress" del mezzo, per mettere alla prova queste nuove tecnologie, per saggiarne il potenziale e i limiti, per aprire nuove strade. Il mio immaginario fa ancora parte di un'altra epoca. C'è bisogno di innovare gli immaginari, di ingaggiare un vero corpo a corpo con questi nuovi strumenti, che sarebbe meglio chiamare "agenti". Ne ho parlato altrove, chiamando in causa il concetto di "inibizione creativa". 

Vedendo le immagini di questo album, mi viene in mente quando il cinema delle origini cercava di emulare il teatro, operando in un unico ambiente e con un'inquadratura fissa. Solo in seguito ha scoperto i movimenti di camera, il montaggio e ha sviluppato quella meraviglia che è il linguaggio del cinema, dove il teatro non è completamente scomparso, ma radicalmente "ri-mediato".

Usare queste tecnologie per riproporre semplicemente e acriticamente il vecchio vorrebbe dire perdere l'occasione di innovare davvero.

C'è un futuro visivo tutto da inventare. Buon lavoro!

1 commento:

  1. Buongiorno, vorre un contatto mail per chiedere alcune info. Grazie

    RispondiElimina