Nano Banana

Què és Nano Banana?

Nano Banana és el nou model d’intel·ligència artificial generativa de Google per crear imatges amb alta fidelitat a partir de text. Aquesta eina, integrada directament en els sistemes d’Android i Chrome, permet als usuaris generar il·lustracions, gràfics o composicions visuals a partir de descripcions escrites, amb un enfocament simplificat, accessible i de resposta ràpida.

A diferència d’altres models més avançats com Imagen 3 o Gemini 2.5, Nano Banana no està dissenyat per competir en qualitat hiperrealista, sinó per oferir una solució lleugera, funcional i àgil, pensada per a dispositius amb recursos limitats. Per això, Google l’ha incorporat en dispositius mòbils i navegadors, orientant-lo a casos quotidians com il·lustracions per a publicacions, adhesius personalitzats, imatges per a presentacions o petits elements gràfics per a aplicacions i xarxes socials.

L’objectiu de Nano Banana és democratitzar l’accés a la creació visual amb IA. No cal tenir coneixements tècnics ni eines de disseny professional: n’hi ha prou amb escriure el que necessites i deixar que la IA ho converteixi en imatge. Aquest enfocament facilita la creativitat espontània, ideal per a creadors de contingut, equips de màrqueting, docents, estudiants o qualsevol persona que necessiti generar imatges de manera senzilla i sense dependre de plataformes externes.

A més, en formar part de l’ecosistema de Google, Nano Banana s’executa de manera privada i local al dispositiu, cosa que garanteix més velocitat, un consum reduït de dades i una experiència més segura, ja que no cal enviar la informació a servidors remots.

Per què Google ha anomenat “Nano Banana” al seu nou model d’imatge?

Un dels aspectes més comentats del nou model de Google per a la generació d’imatges és, sens dubte, el seu curiós nom: Nano Banana. Tot i que el gegant tecnològic no ha fet públic el motiu exacte darrere d’aquesta denominació, hi ha prou pistes per entendre com s’ha popularitzat aquest sobrenom.

El terme “Nano Banana” va aparèixer inicialment com un nom en clau filtrat al benchmark de rendiment LMArena, on destacava com un dels models més eficients i potents en tasques de generació d’imatges amb IA. En aquell moment, no se sabia a quina empresa pertanyia, però aviat la comunitat va començar a vincular-lo amb Google a causa del seu rendiment i característiques tècniques.

La confirmació no oficial va arribar quan Sundar Pichai, CEO de Google, va publicar a X (Twitter) un missatge misteriós amb tres emojis de banana 🍌🍌🍌, generant una allau d’interpretacions. Dies després, mitjans com Trusted Reviews, Marketing News o Ariapsa van connectar les peces: el model fins aleshores conegut com a “Nano Banana” era en realitat el nou Gemini 2.5 Flash Image.

Aquest tipus de noms interns no és res de nou en l’entorn de Google, que històricament ha utilitzat denominacions desenfadades o codificades en projectes experimentals. “Nano Banana” sembla haver estat un d’aquests noms de desenvolupament que, després de viralitzar-se, va ser adoptat per la comunitat tecnològica com a identificador informal del model.

En resum:

No existeix una explicació oficial de l’origen del nom.
Probablement és un nom en clau intern, com ja ha fet Google en altres ocasions.
La denominació es va popularitzar després del tuit de Sundar Pichai i dels resultats filtrats en benchmarks.
Avui, “Nano Banana” s’ha convertit en una marca oficiosa reconeguda per la comunitat, encara que comercialment el model s’hagi integrat dins de la família Gemini.

Més enllà de la banana: un nou paradigma visual amb IA

La irrupció de models com Nano Banana no només reflecteix l’evolució tècnica de la generació d’imatges per intel·ligència artificial, sinó també un canvi en com ens relacionem amb la creativitat, la immediatesa i els processos de producció visual. Gràcies a la seva velocitat, qualitat i baix cost computacional, aquest model de Google obre la porta a què més persones, equips creatius i empreses puguin crear contingut visual potent sense grans barreres tecnològiques.

En democratitzar l’accés a eines d’alt rendiment, s’està facilitant l’experimentació en màrqueting, disseny gràfic, audiovisual, formació o xarxes socials, amb resultats més eficients i adaptats a les noves exigències de l’entorn digital.

La imatge generada per IA ja no és una promesa del futur: és el present. I amb models com Nano Banana, el futur es torna molt més accessible, divertit… i per què no dir-ho, una mica més groc.

Comparativa: Sora vs Nano Banana

La intel·ligència artificial aplicada a la generació de contingut visual avança a un ritme vertiginós, i les grans companyies tecnològiques competeixen per liderar aquest terreny amb propostes cada cop més sofisticades. Dos dels noms que més atenció han captat en els últims mesos són Sora, desenvolupat per OpenAI, i Nano Banana, la recent aposta de Google dins de la suite Gemini 2.5 Flash Image.

Tot i que ambdós models persegueixen objectius diferents en la seva concepció —Sora orientat principalment a la generació audiovisual i Nano Banana centrat en la creació i edició d’imatges—, resulta interessant comparar-los per comprendre quin valor poden aportar a les empreses, dissenyadors i professionals del màrqueting digital.

Aquesta comparativa busca oferir una visió clara de les capacitats de cada eina en l’àmbit de les imatges generades per IA, avaluant factors com la qualitat dels resultats, la coherència visual, la velocitat de generació i la facilitat d’integració en projectes reals.

Les imatges que veieu són generades amb el prompt: “Total creativitat, crea una imatge d’una lluita entre SORA (OPEN AI) i NANO BANANA (Google Gemini 2.5 Flash Image)”. La imatge de la dreta l’ha generada SORA i la imatge de l’esquerra Google Gemini 2.5 Flash Image (Nano Banana). A partir d’aquí, farem servir les opcions de versions de la imatge amb text pla; per a això utilitzarem els mateixos textos que acompanya aquest blog en cada una de les seves característiques (intentarem posar a prova la IA).

Enfocament principal

SORA

Tot i que el seu nucli és la generació de vídeo, també produeix frames i imatges estàtiques molt detallades com a part del procés. Aquestes imatges es poden extreure i usar de manera independent, oferint un realisme cinematogràfic.

NANO BANANA

Està dissenyat específicament per crear i editar imatges. El seu enfocament no és el vídeo, sinó la coherència visual, la velocitat de generació i l’edició conversacional.

Per veure com reaccionen al text pla, anirem posant les descripcions de cadascun al quadre de text i veurem com reaccionen de manera lliure.

A SORA: Tot i que el seu nucli… i li afegim una instrucció (crea una imatge relacionada amb l’anterior a partir d’aquestes descripcions que et donaré sobre tu)

A Nano Banana: Està dissenyat específicament… i li afegim una instrucció (crea una imatge relacionada amb l’anterior a partir d’aquestes descripcions que et donaré sobre tu)

Qualitat i coherència visual

SORA

En estar pensat per a narratives visuals, aconsegueix imatges molt riques en detall, amb estils artístics variats i escenes complexes. Tot i això, en ser un model centrat en moviment, la coherència entre imatges fixes no sempre és la seva prioritat.

NANO BANANA

El seu punt fort és la consistència de personatges i objectes en diferents imatges. Això el fa més fiable quan es necessita generar una sèrie d’imatges amb el mateix estil o els mateixos elements.

Veiem que les dues IA interpreten coses molt diferents en els seus textos plans.

Velocitat i accessibilitat

SORA

La generació d’imatges és un subproducte del procés de vídeo, per la qual cosa sol ser més lenta i dependent de la infraestructura d’OpenAI. A més, l’accés continua limitat a certs plans (Plus/Pro).

NANO BANANA

Respón en qüestió de segons (1-10s), disponible a l’app Gemini i a AI Studio. La seva accessibilitat és major i està pensat per a usuaris que necessiten resultats ràpids i pràctics.

A poc a poc, ambdues col·lapsen i comencen a entregar coses molt boges. Els donarem instruccions una mica més “humanes”, no només el text pla de la descripció.

Edició i personalització

SORA

Ofereix cert control en els prompts per variar l’estètica, però no està optimitzat per a l’edició d’imatges individuals.

NANO BANANA

Permet editar imatges existents, canviar fons, estils o detalls amb instruccions conversacionals, funcionant gairebé com un editor gràfic intel·ligent.

Seguim donant-li instruccions sense sentit, en text pla, utilitzant els textos d’aquest blog que ens expliquen les seves virtuts i defectes per generar remixes o evolucions en les seves imatges autogenerades.

Casos d’ús

SORA

Ideal si es busca un estil artístic o un frame d’alta qualitat per a storytelling visual, prototipat d’escenes o material conceptual.

NANO BANANA

Millor per a màrqueting visual, branding, xarxes socials i disseny gràfic, on la velocitat, la coherència i l’edició intuïtiva són clau.

En afegir la instrucció “ideal si es busca un estil artístic…” veiem com Sora evoluciona la imatge anterior i li dona molt detall i qualitat, d’altra banda Nano Banana, en usar “millor per a màrqueting…“, només modifica alguns elements de la imatge per mostrar el que se li redacta de manera plana.

Resum

SORA

Produeix imatges de gran qualitat però com a derivat del seu motor de vídeo, amb menys enfocament en l’edició i la coherència estàtica.

NANO BANANA

Avui és una eina més completa i pràctica per a la creació i edició d’imatges, oferint rapidesa, coherència i control conversacional.

Donem la instrucció final a les dues IA: “Crea la imatge definitiva sobre un suposat combat entre Sora i Nano Banana, amb tota la teva capacitat, realista i amb alt detall.” Veiem que Sora recorre a donar el màxim detall, del cartoon passa a quelcom realista, amb textures reconeixibles i materials més reals. Google Gemini (Nano Banana) torna a l’original, retira alguns detalls i textos i ho resumeix d’aquesta manera, sense tant detall i sense tant realisme.

Seguim investigant...

L’avanç de models com Sora i Nano Banana demostra la velocitat amb què la intel·ligència artificial està transformant la creació de continguts visuals. Cada eina obre noves possibilitats, ja sigui en la generació d’imatges fotorrealistes, en l’edició ràpida i coherent d’elements gràfics o en la integració de narratives més complexes a través de vídeo. Per a les empreses, això suposa un ventall d’oportunitats, però també el repte de discernir quina tecnologia és la més adequada segons cada objectiu.

A Xarxalia entenem que la clau no és simplement adoptar la darrera innovació, sinó avaluar com aquestes solucions s’integren en els processos de negoci reals, aportant valor tangible i sostenible. Per això, el nostre equip continua investigant de manera constant el comportament d’aquestes i altres eines d’intel·ligència artificial, analitzant els seus avantatges, limitacions i potencial d’aplicació pràctica.

Aquest enfocament ens permet anticipar-nos a les tendències i posar a disposició dels nostres clients recursos digitals d’alta qualitat, perfectament integrats en les seves estratègies de comunicació, màrqueting i desenvolupament tecnològic. A més, garantim que cada lliurament es realitzi dins dels terminis acordats, mantenint l’eficiència com a eix central de la nostra proposta de valor.

En definitiva, a Xarxalia seguim treballant perquè les empreses que confien en nosaltres no només disposin d’eines avançades, sinó també d’un acompanyament estratègic que els asseguri resultats consistents, rellevants i a temps.