Come usare Midjourney se ami leggere: 5 cose da sapere sul book-to-image

Midjourney è il tool di AI generativa che mi ha più appassionato negli ultimi mesi. Nonostante il boom di ChatGPT e il dibattito attorno al text-to-text abbia attecchito maggiormente tra copywriter, scrittori e comunicatori, personalmente ho trovato molto più stimolante, anche per chi ha la passione per scrittura e lettura, il text-to-image.

Ho incominciato a giocare con Midjourney a fine 2022, divertendomi prevalentemente a guardare le immagini create da altri. Il fatto che il tool di Midjourney sia accessibile dalla piattaforma Discord, lo rende di per sé un ambiente partecipativo. La prima fase, da buona newbie, è stata quella di osservazione: ho passato ore nei vari canali a guardare i contenuti creati dagli utenti affascinata dallo stile surreale (all’epoca c’era la versione 4 del software) ma anche dalla qualità visiva delle immagini generate dall’intelligenza artificiale.

Per capirci un po’ di più ed andare oltre il fascino estetico, ho poi cominciato a seguire artisti divulgatori (le prime full immertion nella tecnica generativa le ho fatte con le masterclass e i podcast di Artlandis) e comunicatori italiani (tra le mie prefe Gaia Giordani, che mi ha aperto un mondo di possibilità creative con le sue sperimentazioni con animali, libri, ritratti e decostruzione di bias).

View this post on Instagram

A post shared by Gaia Giordani (@gaiagiordani)

Com’è nata l’idea del book-to-image

Con l’arrivo della primavera è scattata la classica rincorsa ai buoni propositi, e quest’anno ha vinto la letteratura. Da tanti anni non leggo fiction italiana privilegiando la saggistica. Ma sentivo che mi mancava l’immersione in universi fittizi e lo stimolo immaginativo che solo la capacità descrittiva (ancora prima che narrativa) di bravi scrittori sa veicolare. A questo si sono aggiunti un paio di obiettivi che mi sono data: esercitare la memoria attraverso la componente visiva (che è quella per me più funzionale al ricordo) e l’attenzione (messa a dura prova da un ambiente mediatico ricco di stimoli al multitasking e alla distrazione).

Com’è come non è, frullo insieme tutto questo e ne esce la mia “killer app” di Midjourney: il book to image. Più che una tecnica, un format: trasformare un libro, il ricordo che si ha di esso, i momenti più significativi, in immagini create attraverso l’AI generativa. Che poi diciamocelo: da qui a farlo diventare il trend dell’estate 2023 al ritmo dell’hashatag #booktoimage è un attimo 😛

Suggerimenti per creare immagini con Midjourney a partire da libri

Degli ultimi libri che ho letto, a metà o verso il finale, ho cominciato a creare delle immagini descrivendo le situazioni o gli eventi che più mi avevano colpito. Per farlo ho attivato un abbonamento a pagamento a Midjourney che consente di creare immagini senza limiti. Ho poi aperto una chat privata con il bot di Midjourney per non dover lavorare nei canali pubblici dove ci sono gli altri utenti e tanti contenuti che non consentono di focalizzarsi sul proprio lavoro. Usando il comando /imagine ho cominciato a chiedere al bot di “immaginare” scene dei libri che avevo letto descrivendole in un inglese molto semplice (e temo anche un poco troppo maccheronico).

Sono emersi alcuni spunti, non tanto per addetti ai lavori o designer, ma prevalentemente per comunicatori non esperti di questa tecnologia (il mio livello di utilizzo è molto basico) per riflettere sulle potenzialità espressive di Midjourney e in generale del text-to-image ma anche per riflettere sulle specificità e i limiti dell’intelligenza artificiale generativa (che sono specificità e limiti anche del nostro immaginario).

01 – Usare la versione 5 per creare immagini fotorealistiche

Cominciamo dalle cose semplici: situazioni a potenziale alto impatto visivo, da tradurre in immagini. Non poteva capitare per fortuita coincidenza miglior libro di “L’impero della polvere” di Francesca Manfredi, così ricco di momenti al limite del surreale ma calati in un contesto realistico e ad alto potenziale metaforico. Perfetti dunque per l’estetica di Midjourney che dalla versione 5 ha cominciato a produrre immagini dalla qualità fotografica ma con il potenziale per produrre contenuti visivi che vanno dall’iper realismo al surrealismo.

Ed ecco che con il comando /imagine prompt: “a 15 years old girl in a celing with lots of frogs” ne escono fin da subito quattro immagini soddisfacenti tra cui scelgo quella in cui la ragazza rappresentata si avvicina di più a come immaginavo la protagonista. Ovviamente, piccola accortezza, ho specificato l’età della persona. A parte questo, tutto il resto è stato abbastanza frutto del caso (o meglio dell’AI), ed è questo il bello della prima fase di utilizzo dello strumento: con un semplice input testuale a volte genera immagini estremamente affascinanti.

View this post on Instagram

A post shared by Agnese Vellar (@agnesevellar)

02 – Fare attenzione alle allucinazioni

Il primo tentativo con le rane mi aveva dato un sacco di soddisfazioni perché il bilanciamento tra dimensione surreale e qualità della rappresentazione era molto buono, anche se lo sforzo era stato ridotto. Diverso è stato quando ho pensato di rappresentare due momenti più complessi: quello in cui la protagonista sempre del romanzo “L’impero della polvere” vede del sangue uscire da una crepa nel muro e quello in cui il gregge di pecore di famiglia comincia a morire. Fattostà che di prompt ne ho provati un po’, ma ‘ste pecore morte l’AI proprio non riusciva a crearle, mentre la crepa nel muro con il sangue dava vita a immagini super splatter, soprattutto se dentro chiedevo di inserire anche una figura umana

Così ad un certo punto mi sono accontentata del miglior compromesso in cui per me la priorità era evitare le cosiddette “allucinazioni”, ovvero quando l’AI rappresenta cose per noi umani no sense. Tipo persone con 3 braccia o 3 gambe, che iniziano o finiscono dove non dovrebbero, un numero di dita eccessivo di mani o piedi. Che uno poi si chiede, “ma chi diavolo te lo ha insegnato, dove le hai viste persone con 3 braccia?!”, ma questa è una domanda a cui la black box dell’AI non sa dare risposta: alla fine si chiamano allucinazioni non a caso.

In ogni caso c’è da dire che questi errori di rappresentazione con il passaggio alla versione 5 del software avvenuta a marzo 2023 sono notevolmente diminuiti. Il consiglio però è di prestare sempre molta attenzione ai dettagli, perché è un attimo che trovi una mano di troppo in un’immagine che a prima vista sembra molto realistica e allora la cosa diventa subito troppo creepy.

View this post on Instagram

A post shared by Agnese Vellar (@agnesevellar)

03 – Inserire il contesto storico per creare uniformità

Di libro in libro, di immagine in immagine, finito il romanzo della Manfredi ho cominciato “L’Arminuta” di Donatella di Pietrantonio. Anche in questo caso la protagonista è una ragazzina che si trova catapultata dalla famiglia adottiva a quella naturale in un contesto molto più popolare. La prima cosa che volevo rappresentare erano questi due momenti e contesti di vita: la vita dell’Arminuta prima, insieme all’amica del cuore nella spiaggia e quella dopo, insieme alla sorella più piccola in un contesto di campagna più povero.

Ho generato la prima immagine con il prompt “two 14 years old girls goes to a quiet beach in the 70s“: unico ulteriore elemento è stato il riferimento temporale degli anni 70 come tentativo di dare continuità stilstica alle due immagini. Ho poi provato anche ad aggiungere indicazioni sulle tecniche fotografiche, ma non essendo un’esperta probabilmente non le usavo in modo corretto quindi non c’era valore aggiunto; così sono tornata alle prime immagini generati dal prompt più semplice.

04 – Fare attenzione ai (tuoi stessi) bias

Anche in questo caso le cose si sono fatte complesse con la seconda immagine: con il prompt “two 10 years old girls in a bunk bed in a poor house” escono allo scoperto gli stereotipi legati alla rappresentazione della povertà. Le ragazzine rappresentati in una casa che avevo definito “povera” avevano connotati asiatici.

Immagine creata con Midjourney

In questo prompt sono però anche emerse le mie bias, in quanto davo per scontato che la richiesta di rappresentare delle ragazze implicasse la generazione di persone con tratti somatici caucasici. Così ho dovuto esplicitare che volevo ragazze caucasiche (abruzzesi era eccessivo 🙂 per poter avere un’immagine simile a quella del contesto del romanzo.

05 – Stare lontano dai termini che Midjourney censura

Infine, un limite che al momento non sono riuscita a superare, anche perché ho preferito non forzare: la rappresentazione di un gruppo di zingari, protagonisti secondari sempre de “L’Arminuta”. In Midjoruney la parola “gipsy”, così come altre tra cui ad esempio “lapdance”, sono in black list. Questo significa che se provi a creare prompt che contengono questa parola blocca la genarazione di immagini e invia un alert intimando di non usarle più se non si vuole essere bannati.

Ora, capisco lapdance, che al netto di tutto potrebbe anche portare a rappresentazioni non particolarmente appropriate (tralasciando in questa sede cosa sia appropriato o meno in senso assoluto). Ma cosa dire della parola “gipsy”? Ricadiamo probabilmente in un esempio di censura di cui sono pieni internet e i social come hanno dimostrato il fenomeno Blue Whale e la censura degli hashtag legati ai disturbi alimentari. Censure sicuramente introdotte per garantire un ambiente sicuro ma che allo stesso tempo limitano la rappresentazione di alcune identità, di minoranze e di devianze. E questo sicuramente è un ambito di indagine estremamente interessante non solo e per i comunicatori, ma anche per chi è interessato a studiare la cultura visuale della rete come specchio delle nostre stesse bias e delle strutture di potere.

Link utili per cominciare ad usare Midjourney

Iscriversi alla beta accettando l’invito ad iscriversi al canale Discord di Midjourney
Leggi la documentazione ufficiale per creare la prima immagine
Valuta se acquistare un abbonamento: io ho attivato quello da $10 al mese, perché il trial gratuito consente di produrre un numero limitato di immagini