Pagine

giovedì 2 febbraio 2023

Un'altra forma di "resistenza". Le immagini generate con tecnologia GPT

    Immagine generata tramite DALL-E


I servizi online di Generated AI Art, basati su tecnologia GPT Generative Pre-trained Transformer, sembrano la moda del momento. Midjourney, DALL-E, NightCafe, Artbreeder, Stable Diffusion sono soltanto quelli più noti e tutti permettono di realizzare delle immagini a partire da una frase scritta in linguaggio naturale. Per ora principalmente l'inglese, ma già qualcuno di questi generator comincia a riconoscere più lingue.
Oltre alla frase che indica il soggetto dell'immagine, si possono stabilire diversi parametri aggiuntivi, come lo stile, il formato, la qualità dell'immagine. Si può chiedere di ottenere immagini più o meno realistiche, che simulino una fotografia o un fumetto o un cartoon, uno stile pittorico o cinematografico, o altro ancora.
Si tratta, naturalmente, di algoritmi addestrati tramite tecnologie di machine learning, "nutriti" con milioni di immagini convogliate in grandi database e in grado di associare determinate informazioni verbali ad addensamenti statistici di pixel colorati. Le immagini generate, pertanto, non sono una sorta di collage di varie parti prese qua e là, ma una delle possibili risultanti dell'applicazione di un sofisticato modello matematico che colloca i singoli pixel nello spazio digitale.
Le immagini generate sono stupefacenti, anche se qualche volta risultano imperfette o confuse, dense di quelli che gli esperti del settore chiamano "artefatti", cioè "errori" di generazione, dando così il senso di forme emergenti dal caos, da una materia magmatica, onirica. E questo perché l'algoritmo è un modello evolutivo, non una programmazione rigida, e pertanto è in grado di apprendere e di modificare le proprie performance col passare del tempo e grazie all'interazione con altre istanze (in questo caso, fondamentale è quella con la comunità degli utenti).

Le immagini realizzate dall'IA attraverso un prompt di istruzioni verbali presuppongono comunque l'interazione tra un soggetto umano e una tecnologia, come succede, a diversi livelli, in ogni processo di produzione di immagini, dal graffito rupestre del Paleolitico all'elaborazione sintetica dei nostri giorni. La tecnologia non è un accessorio della pratica artistica; ne è il presupposto necessario.
E in ogni caso, avviene che il soggetto umano deve confrontarsi con la resistenza del mezzo adoperato, cioè con la necessità di adeguarsi alle sue possibilità o tentare di forzarle per adeguare il mezzo alle proprie intenzioni.
Nel caso della produzione di fotografie, le resistenze sono molteplici, perché l'atto fotografico obbliga il soggetto a posizionarsi nello spazio e a rivolgere un obiettivo e una lente sul mondo circostante. Le resistenze, pertanto, provengono non solo dalla tecnologia usata, ma anche da un altro attore implicato, cioè il soggetto fotografato, lo spectrum di Barthes, il quale - riferimento spettrale a parte - ha una sua materialità e una sua indipendenza, con cui l'atto fotografico entra in relazione. E questo soggetto resiste eccome, non si lascia mai docilmente "mettere in quadro", ma esige l'impegno attivo dell'operator, che quindi si trova a fronteggiare diversi tipi di variabili, non ultima quella delle condizioni metereologiche e spaziali del suo contesto di produzione.
Cosa avviene, invece, quando si cerca di produrre un'immagine con Midjourney o DALL-E o altra piattaforma? Qual è la resistenza con cui occorre fare i conti? Non quella dell'abilità manuale nel tracciare figure, non quella di matite, pennelli e vernici a lasciarsi addomesticare al tratto, né quella di apparecchi dotati di lenti e obiettivi, né quella di soggetti animati fermi o in movimento o paesaggi immersi nella luce o nell'oscurità, nel sole o nella pioggia.
La resistenza, in questo caso, viene soprattutto dalla composizione di un testo verbale. L'interazione con la tecnologia di produzione, nel caso di Midjourney e DALL-E, è infatti prima di tutto linguistica. Bisogna farsi capire. Bisogna esprimere le proprie intenzioni, e quindi il proprio pensiero, la propria fantasia, con i termini e la forma giusta affinché la macchina colga il contenuto da noi espresso. Poi l'algoritmo andrà a riempire i suoi pixel secondo le sue valutazioni statistiche. E magari il risultato sarà completamente diverso da quello che pensavamo all'inizio. Potrà essere deludente e portarci a modificare il testo, oppure sorprendente, e apprezzeremo l'eccedenza di quella sorta di "immaginazione" andata oltre le nostre aspettative (un'eccedenza ben maggiore di quella che si realizza nella produzione di fotografie). Il lavorìo, in ogni caso, consisterà soprattutto in un affinamento testuale, una manipolazione di termini ed elementi grammaticali e sintattici. Si pensi, a questo proposito che dal nulla è nata una nuova disciplina, l’ingegneria dei prompt (prompt engineering), che ha lo scopo di ottimizzare il testo preso in input da questi modelli.
Uno dei comandi testuali aggiuntivi – tanto per fare un esempio – che si possono fornire all'algoritmo insieme alla descrizione dell'immagine, è il negative prompting, che è un operatore logico che esclude la presenza di determinati elementi dall'immagine finale.
Se finora, per mettere "in figura" il proprio mondo interiore e la propria immaginazione, chi non sapeva dipingere o utilizzare sofisticati programmi di grafica digitale ricorreva alla fotografia, ora può ricorrere a una pratica diversa, simile alla pittura e alla grafica nei risultati, ma che non richiede abilità manuali o particolari competenze, avendo un elevato grado di automatismo. E tuttavia la produzione di immagini attraverso l'IA è molto diversa dalla pittura e dalla grafica, non solo perché il mezzo è diverso, ma anche perché, quando si dipinge, l'immagine finale è già, sebbene in fieri, nella mente del pittore. E lo è non solo come descrizione verbale, ma anche, seppure spesso vagamente, come insieme di forme e colori. Nel caso di produzione di immagini tramite AI generator, invece, il soggetto fornisce un'istruzione testuale, mentre il risultato grafico è sempre una sorpresa. Non è mai prevedibile, né determinabile. Probabilmente è per questa ragione che, in alcuni servizi, viene offerta la possibilità di mettere a disposizione dell'algoritmo, oltre al testo, un'altra immagine, che il generatore utilizzerà come punto di partenza. Inoltre, il prompt testuale rappresenta solo il primo livello di accesso nel processo di produzione di immagini, perché il sistema offre all'utente la possibilità di scegliere uno dei risultati proposti e di richiederne delle variazioni, superando dunque l'approccio puramente linguistico e continuando lo sviluppo a livello grafico.

La produzione di immagini attraverso tali generatori si configura in ogni caso come una co-produzione di più soggetti, i quali hanno - o meglio negoziano nella pratica - dei livelli di agency e di autonomia. Uno dei soggetti interviene all'inizio attraverso un'istruzione verbale. Tali modalità di avvio del processo ricordano vagamente quelle che avevano luogo nei secoli passati, quando la produzione di un'immagine partiva dal contratto scritto di un committente, che dava all'artista e alla sua bottega tutte le indicazioni riguardo ai contenuti che dovevano essere presenti nel quadro o nel gruppo scultoreo, e l'artista eseguiva apportando la propria maestria e creatività. E dovendo spesso modificare il tutto in corso d'opera, secondo le osservazioni e le obiezioni del committente e dei loro consulenti. Anche in quel caso, più giusto sarebbe parlare di produzione collaborativa, collettiva, dove un ruolo fondamentale era rivestito dalla descrizione verbale e spesso estremamente dettagliata dei contenuti dell'opera come primo livello del processo.
In ogni caso, nell'epoca della produzione di massa di immagini, resta interessante mettere a fuoco il passaggio che si opera da una resistenza materiale a una resistenza linguistica e che ci configura più nel ruolo di committenti (sebbene con ampio spazio di intervento) che di esecutori "materiali". Perché il nodo di queste pratiche consiste per lo più (anche se non solo) nella traduzione immediata di un pensiero in immagine, dovendo affrontare prevalentemente la resistenza dell'elaborazione verbale di quel pensiero. Passando dall'immaginazione, tradotta in parole, grammatica e sintassi, alla realizzazione dell'immagine, senza incontrare la resistenza di una capacità manuale, di uno strumento materiale, di un referente autonomo collocato nello spazio.
E, a proposito di referenze, è significativo che la gran parte della produzione di immagini generate da tecnologia GPT sia proprio di genere fantastico, che va dal surreale al fantasy alla fantascienza all'horror. Se la fotografia obbligava comunque a rapportarsi con un referente collocato nello spazio materiale, in questo caso l'unico limite è l'immaginazione di ognuno e la capacità di esprimerla a parole. Insomma, se la pratica prevalente di produzione di immagini, in questi ultimi decenni, passava per la fotografia (in quanto la pittura comporta determinate abilità manuali), c'è da scommettere che in futuro la pratica fotografica verrà pesantemente affiancata da una modalità generativa che fa uso di tecnologie di AI e che si esprime maggiormente nel territorio dell'immaginazione piuttosto che in quello della riproduzione fotografica.
Passi avanti si stanno facendo anche nella realizzazione di immagini in movimento sintetiche: dal racconto verbale allo sviluppo filmico senza passare per altre mediazioni, che abbiano a che fare con set, attori, troupe, ecc.. L’interrogativo che s’impone, a questo punto, è: come tutte queste disintermediazioni (e nuove mediazioni) modificheranno la nostra relazione con il mondo?

1 commento: