Google presenta Whisk, uno strumento creativo per immagini basato su Gemini

La corsa all’intelligenza artificiale generativa nel settore tecnologico è diventata ancora più competitiva con il lancio di Whisk da parte di Google, uno strumento progettato per creare immagini uniche a partire dalle foto caricate dagli utenti.
Presentato tramite Google Labs, Whisk consente agli utenti statunitensi di rimescolare soggetti, stili e impostazioni per creare nuove immagini senza dover inserire suggerimenti testuali.
Si basa sui progressi dell’intelligenza artificiale di Google DeepMind, presentando le tecnologie Gemini e Imagen 3.
La mossa evidenzia l’attenzione di Google nel fornire strumenti di intelligenza artificiale accessibili, mentre compete con la suite di prodotti consumer di OpenAI, tra cui il generatore di video da testo Sora.
Cos’è Whisk e come funziona?
Whisk offre una nuova interpretazione della creatività basata sull’intelligenza artificiale.
Gli utenti possono caricare immagini che rappresentano soggetti, ambientazioni o stili.
La piattaforma elabora questi input utilizzando Gemini, il modello di base di intelligenza artificiale di Google lanciato a dicembre 2023, che genera didascalie per il contenuto.
Queste didascalie vengono utilizzate da Imagen 3 di DeepMind, un generatore di immagini da testo.
A differenza dei tradizionali editor di foto, Whisk si concentra sull’esplorazione creativa piuttosto che su risultati perfetti a livello di pixel.
Consente agli utenti di rimescolare le categorie, ad esempio trasformando un’immagine in un peluche, una spilla smaltata o un adesivo, regolando gli input o incorporando testo per guidare dettagli specifici.
Google sottolinea che i risultati catturano l’ “essenza” di un argomento, il che significa che potrebbero verificarsi alcune variazioni, come cambiamenti di acconciatura o tono della pelle.
La competenza premiata con il Nobel di DeepMind è alla base di Whisk
Whisk sfrutta gli sviluppi all’avanguardia di DeepMind, la divisione AI acquisita da Google nel 2014.
La ricerca sull’intelligenza artificiale di DeepMind ha contribuito alla vittoria del premio Nobel per la chimica del 2024 da parte di due dipendenti per le scoperte sulla struttura delle proteine.
Ciò sottolinea la reputazione del laboratorio di spingere i confini tecnologici, che ora si estende anche a applicazioni creative come Whisk.
Whisk posiziona inoltre Google come leader nell’ambito dell’intelligenza artificiale a misura di consumatore.
Mentre il suo strumento iniziale di conversione di testo in immagini, Gemini, è stato criticato per la produzione di immagini storicamente imprecise, Whisk mira a evitare simili insidie concentrandosi su output astratti ed esplorativi piuttosto che su repliche esatte.
L’innovazione dell’intelligenza artificiale stimola la rivalità tra i giganti tecnologici
La presentazione di Whisk da parte di Google evidenzia la sua più ampia strategia per dominare i prodotti di consumo basati sull’intelligenza artificiale.
La concorrenza è agguerrita e di recente OpenAI ha presentato Sora, un generatore di video da testo.
Google mira a consolidare il suo vantaggio integrando Whisk con le funzionalità di Gemini e Imagen 3, segnando un passaggio verso strumenti di intelligenza artificiale dinamici e multimodali.
Dan Ives, analista azionario di Wedbush Securities, considera Whisk parte del “tesoro” di offerte di Google per il 2025, insieme alla collaborazione con Samsung e Qualcomm per un nuovo sistema operativo Android.
Queste iniziative dimostrano l’impegno di Google nel mantenere un vantaggio nel redditizio e competitivo panorama dell’intelligenza artificiale.
Gli strumenti di intelligenza artificiale generativa come Whisk hanno catturato l’immaginazione del pubblico, ma hanno anche dovuto affrontare un’attenta analisi.
Ad esempio, i problemi precedenti di Gemini con uscite di immagini storicamente imprecise hanno sollevato preoccupazioni sulla affidabilità dell’IA.
Whisk cerca di affrontare queste sfide concentrandosi su creazioni creative e guidate dall’utente.
Mentre Google continua a perfezionare le sue offerte, il lancio iniziale dello strumento come sito web per gli utenti statunitensi rappresenterà un banco di prova fondamentale per futuri aggiornamenti e iterazioni.
Le ambizioni di Google nell’ambito dell’intelligenza artificiale
Il debutto di Whisk segna un’evoluzione più ampia nell’uso dell’intelligenza artificiale per la creatività dei consumatori.
Concentrandosi su interfacce facili da usare e integrando tecnologie avanzate come Gemini, Google mira a democratizzare l’accesso all’IA generativa.
Tuttavia, la concorrenza rimane intensa, con piattaforme rivali che spingono i limiti di ciò che l’intelligenza artificiale può raggiungere.