Tecnologia de vídeo generat per IA

Creació de vídeos amb IA: Sora, bones pràctiques i futur de la tecnologia

La generació de vídeos mitjançant intel·ligència artificial (IA) es perfila com una de les grans revolucions tecnològiques actuals. Després de l’auge d’eines que creen text (com ChatGPT) i imatges a partir de descripcions, ara existeixen models capaços de produir vídeos complets a partir d’indicacions escrites. Aquestes eines prometen abaratir costos i accelerar temps en la producció audiovisual, alhora que plantegen nous reptes pel que fa a l’ús ètic i la veracitat dels continguts. En aquest article explorarem l’estat actual d’aquesta tecnologia, aprofundint en Sora –el model de vídeo d’OpenAI–, compartint bones pràctiques per utilitzar aquestes IA, advertint sobre usos fraudulents (com deepfakes i notícies falses) i analitzant l’impacte futur en camps com el màrqueting i la producció audiovisual.

La tecnologia actual de generació de vídeo amb IA

Les IA generatives de vídeo han avançat ràpidament. Ja és possible convertir un text descriptiu en un clip de vídeo sense necessitat de càmeres ni actors reals. Diverses plataformes ofereixen enfocaments diferents: des de vídeos amb avatars virtuals realistes (per exemple, presentadors sintètics llegint un guió) fins a vídeos completament imaginats escena per escena a partir d’un prompt de text. Aquestes eines permeten a empreses i creadors estalviar fins a un 70% en costos de producció i reduir el temps empleat en un 60%. De fet, es projecta que el mercat de generadors de vídeo per IA creixi de 534,4 milions de dòlars el 2024 a 2.560 milions de dòlars per al 2032, transformant la forma de crear contingut visual. En altres paraules, tasques que abans podien requerir estudis de gravació i grans pressupostos ara s’estan democratitzant, a l’abast de qualsevol creador amb un ordinador.

Un dels avenços més notables és la generació de vídeo a partir de text en llenguatge natural. A principis de 2025, OpenAI (creadors de ChatGPT i DALL·E) van presentar Sora, el seu model d’IA capaç de generar vídeos a partir d’una descripció textual. Sora marca un punt d’inflexió similar als seus predecessors: així com ChatGPT produeix text coherent i DALL·E crea imatges des d’un prompt, Sora pot crear una seqüència de vídeo partint únicament de les nostres indicacions escrites. Això s’aconsegueix gràcies a tecnologies de deep learning que combinen models de llenguatge (per entendre les nostres descripcions) amb models generatius de visió entrenats amb enormes col·leccions de vídeos. La IA “comprèn” el que li demanem en llenguatge natural i converteix aquestes instruccions en escenes en moviment, suposant un salt enorme més enllà de la generació d’imatges estàtiques.

Sora d’OpenAI: vídeos a partir de text

Sora és el sistema d’intel·ligència artificial d’OpenAI dissenyat específicament per crear vídeos de curta durada a partir de prompts de text. Entrenat amb una vastíssima biblioteca de vídeos, Sora ha après a reconèixer moviments, contextos i detalls visuals del món real, de manera que pot recrear-los seguint la descripció donada per l’usuari. En altres paraules, si li demanem “un gos corrent per la platja al capvespre”, la IA identifica conceptes com “gos”, “córrer”, “platja” i “llum de capvespre” i genera un clip on aquestes idees cobren vida en seqüència d’imatges.

Una de les fortaleses de Sora és la seva capacitat per generar escenes complexes. Podem descriure diversos elements a la mateixa presa (personatges, objectes, entorn) i fins i tot el tipus de moviment o acció que realitzaran, i el model intentarà plasmar-los amb sorprenent fidelitat. Per exemple, en proves internes es va aconseguir crear el vídeo d’“una dona elegant caminant per un carrer de Tòquio ple de neons”, especificant en el prompt detalls minuciosos com la roba que portava (jaqueta de cuir negra, vestit vermell, ulleres de sol), la seva actitud en caminar i fins i tot que “el carrer està humit i reflectant, creant un efecte mirall amb les llums de colors”. El resultat va mostrar justament la persona descrita amb la vestimenta indicada, desplaçant-se amb l’actitud sol·licitada, en un entorn urbà nocturn amb reflexos al terra moll i neons tal com es va demanar. Aquest nivell de precisió il·lustra quant ha avançat la generació de vídeo per IA per interpretar i recrear les visions creatives de l’usuari.

Ara bé, Sora encara es troba en una fase primerenca de desenvolupament. Inicialment, només accessible per a investigadors, cap a finals de 2024 OpenAI va llançar una versió anomenada Sora Turbo per a un grup més ampli d’usuaris. Actualment, Sora està disponible com a part dels beneficis de ChatGPT Plus, permetent als seus subscriptors generar vídeos de fins a 20 segons de durada en resolució 1080p. La plataforma ofereix diferents relacions d’aspecte (horitzontal, vertical, quadrat) per adequar-se a formats de xarxes socials o cinema. A més, Sora incorpora eines per enriquir la creativitat: per exemple, un mode storyboard que permet a l’usuari definir escena per escena què ha de succeir a cada fotograma clau. Fins i tot és possible “aportant els teus propis recursos” –com imatges o clips de vídeo curts– per remesclar o combinar contingut existent amb el generat per la IA, aconseguint vídeos híbrids.

Com a part del seu desplegament gradual, OpenAI va incloure Sora a ChatGPT Plus sense cost addicional, tot i que amb límits mensuals (per exemple, fins a 50 vídeos en 480p per mes inclosos en la subscripció bàsica). Per a qui necessiti més capacitat, s’ofereix un pla Pro amb un ús 10 vegades major, suport per a resolucions més altes i clips més llargs. És important assenyalar que Sora encara té limitacions tècniques: la pròpia empresa reconeix que de vegades “genera físiques poc realistes i té dificultats amb accions complexes de llarga durada”. De moment, els vídeos creats solen ser breus (originalment es parlava de fins a 60 segons en el prototip d’investigació, tot i que la versió comercial llança clips de 20 segons) i no sempre claven al 100% tots els detalls, especialment en escenaris molt intricats. Tot i així, la qualitat visual aconseguida i la coherència amb el prompt de l’usuari són sorprenents per a una tecnologia que fa pocs anys era gairebé ciència ficció.

Bones pràctiques en usar generadors de vídeo amb IA

Com passa amb altres IA generatives, l’habilitat de l’usuari per comunicar-se amb l’eina és crucial per obtenir bons resultats. En el cas de Sora (i similars), es recomana seguir algunes bones pràctiques:

Iterar i afinar: És poc probable obtenir el vídeo perfecte al primer intent. Una bona pràctica és iterar: provar un prompt, observar el resultat i després ajustar la descripció per corregir o millorar detalls. Podem afegir elements que faltaven, eliminar detalls indesitjats o reformular frases confuses. Aquesta interacció pas a pas ens permet convergir cap al vídeo que vam imaginar inicialment.

Prompts clars i detallats: Com més informació rellevant proporcionem a la descripció, més precís serà el vídeo resultant. És aconsellable especificar l’entorn, la il·luminació, els personatges (aparició, vestimenta, edat, etc.), les accions que realitzen i fins i tot l’estil visual desitjat. La pròpia OpenAI assenyala que “com més detallada sigui la descripció del prompt, més detallada serà la imatge (o vídeo) que es mostri”. Per exemple, en lloc de demanar “un cotxe al carrer”, podríem detallar “un cotxe esportiu vermell avançant per un carrer urbà de nit sota la pluja, amb llums de neó reflectint-se a l’asfalt moll”. Un prompt ric en matisos ajuda la IA a entendre la nostra visió amb més exactitud.

Conèixer les limitacions tècniques: Tot i ser impressionants, aquestes IA tenen els seus límits. Per exemple, Sora actualment genera clips curts (uns segons) i pot fallar en lògica temporal molt prolongada o en detalls físics complexos. Cal ser conscient que potser no aconsegueixi, per ara, reproduir fidelment el rostre d’una persona real o escenes multitudinàries hiperrealistes. Adaptar les nostres expectatives (i prompts) al que la tecnologia pot fer ens evitarà frustracions. Amb el temps aquestes limitacions es reduiran, però en el present és millor mantenir les sol·licituds dins d’escenaris manejables per a la IA.

Aprofitar les eines de la plataforma: Si la IA ofereix funcions avançades (com el mencionat storyboard de Sora), convé utilitzar-les per tenir més control. Dividir el nostre vídeo en escenes o plans i descriure cadascun per separat pot millorar la coherència narrativa. De la mateixa manera, si es poden pujar imatges de referència o estils predefinits, és útil fer-ho per guiar l’estètica del resultat.

Respecte a les polítiques i als drets dels altres: En emprar generadors de vídeo amb IA hem de complir les polítiques d’ús de l’eina. Sora, per exemple, bloqueja certs usos abusius: OpenAI impedeix expressament generar pornografia infantil, deepfakes sexuals o altres continguts greument perjudicials. Inicialment també han restringit la càrrega d’imatges de rostres reals per evitar que la gent faci deepfakes de persones sense permís. Seguint aquesta línia, nosaltres com a usuaris hem d’evitar demanar vídeos que violen la privadesa, els drets d’autor o la integritat de tercers. No està bé (ni sol ser legal) tractar de recrear algú real en situacions compromeses o fer passar per veritat quelcom que és fals. La IA ens dona un poder creatiu enorme, però implica la responsabilitat d’utilitzar-la sense vulnerar normes ètiques i legals.

Ús responsable i ètic: Una bona pràctica fonamental és no utilitzar aquests vídeos per enganyar o causar dany. Si creem contingut fictici amb IA, especialment si imita persones reals, és recomanable deixar clar que és una creació artificial. En el cas de Sora, OpenAI ha implementat automàticament certes salvaguardes, com marques d’aigua visibles en els vídeos generats per defecte, i metadades incrustades seguint l’estàndard C2PA que permeten verificar l’origen AI del material. Aquestes mesures busquen aportar transparència, de manera que qualsevol (amb les eines adequades) pugui identificar que aquest vídeo prové d’una IA i no d’una càmera tradicional. Com a usuaris, hem de preservar aquestes marques d’origen i actuar amb honestedat: per exemple, si compartim un vídeo creat amb Sora a les xarxes socials, hauríem d’aclarir que és una animació generada per IA, evitant presentar-lo com quelcom autèntic. La intenció del creador és clau: utilitzar la IA per creativitat, educació o entreteniment és vàlid i emocionant; utilitzar-la per manipular o defraudar, en canvi, és una pràctica condemnable.

Deepfakes i desinformació: riscos del mal ús

Exemples de vídeos falsos creats amb IA que simulen ser notícies d’última hora a les xarxes socials (marcats com a “Falsos” per verificadors). Aquests vídeos fan servir avatars digitals amb aparença humana per difondre informació enganyosa.

Com hem mencionat, una de les preocupacions més greus al voltant de la generació de vídeos amb IA és el seu ús malintencionat per enganyar. Aquí és on entra el concepte de deepfake. Un deepfake és bàsicament un contingut audiovisual falsificat mitjançant IA: es poden crear imatges, àudios i vídeos molt convincents, però enganyosos, barrejant o reemplaçant identitats de manera que semblin reals. De fet, el terme “deepfake” prové de “deep learning” (aprenentatge profund, la tecnologia subjacent) + “fake” (fals). En vídeo, un deepfake típic podria ser el rostre d’una persona posat sobre el cos d’una altra en un vídeo, sincronitzant també el moviment dels llavis amb un àudio inventat. El resultat: algú podria aparèixer dient o fent alguna cosa que mai no va ocórrer a la realitat.

A les xarxes socials, ja s’han detectat casos preocupants de deepfakes i vídeos fraudulents circulant com si fossin reals. Per exemple, a Amèrica Llatina es van identificar desenes de vídeos falsos del conegut periodista Jorge Ramos, on suposadament fa afirmacions polèmiques que ell mai no va dir realment. En un cas, es veia aquest presentador anunciant la (falsa) “deportació de la família de Donald Trump”, quelcom que òbviament mai no va ocórrer ni va ser reportat per la cadena on treballa — era un muntatge digital molt ben aconseguit. També han aparegut “informatius” amb presentadors virtuals creats íntegrament per IA: persones que no existeixen, amb aspecte i veu creïbles, llegint notícies inventades. L’organització de verificació de fets Factchequeado va advertir que a TikTok s’estava tornant comú l’ús d’avatars generats per IA per donar “notícies d’última hora” sobre EUA, moltes de les quals van resultar ser desinformació pura. Aquests vídeos no aclarien que el presentador era un avatar sintètic, cosa que podia portar l’audiència a creure que es tractava d’un periodista real informant fets verídics.

Els riscos d’aquestes falsificacions són evidents: poden danyar reputacions, influir en opinions públiques amb notícies falses, i fins i tot utilitzar-se per fraus (imagineu un vídeo deepfake d’un CEO fent un anunci financer fals, o d’un polític “admetent” alguna cosa escandalosa). La tecnologia de vídeo IA mal usada podria amplificar les anomenades “fake news” a nous nivells de versemblança.

Davant aquest panorama, tant les plataformes tecnològiques com la societat en general estan buscant solucions. Un enfocament és desenvolupar sistemes de detecció de deepfakes: algoritmes que analitzin vídeos i trobin petjades subtils d’alteració digital (fallades en el renderitzat de la cara, moviments estranys, sincronització imperfecta dels llavis, etc.). De fet, els verificadors recomanen al públic estar atents a “senyals d’alerta” en aquests vídeos: moviments corporals repetitius o rígids, expressions facials poc naturals o desincronitzades amb la veu, veus monòtones… qualsevol detall que delati que no és un humà genuí. En els exemples detectats a TikTok, molts utilitzaven sempre el mateix avatar amb el mateix fons i gestos mecànics — indicatius de generació artificial.

Una altra via és fomentar la transparència des de l’origen. Iniciatives com la d’OpenAI amb Sora, incorporant marques d’aigua i metadades d’origen en el contingut AI, van en aquesta línia. Així mateix, organitzacions sense ànim de lucre i alguns governs estan discutint regulacions: per exemple, lleis que obliguin a etiquetar els deepfakes o penalitzin el seu ús amb fins il·lícits. Algunes plataformes ja prohibeixen explícitament els deepfakes enganyosos en els seus termes de servei. El consens emergent és que, així com la IA ofereix eines noves, han d’establir-se normes i pràctiques que prevenen els seus abusos, assegurant que la línia entre realitat i ficció no es difumini sense el nostre consentiment.

Impacte futur en màrqueting i producció audiovisual

Mirant cap al futur, la creació de vídeo amb IA promet canviar les regles del joc en indústries creatives, publicitat i entreteniment. En l’àmbit del màrqueting, per exemple, els avantatges són clars: costos més baixos, major velocitat i més personalització. Ja s’observa una caiguda dràstica en els preus de producció audiovisual gràcies a aquestes eines — es parla de reduir costos per factors de 100 o 1000, és a dir, quelcom que abans costava 1000 \$ ara podria costar 1 \$ utilitzant IA, i una acceleració enorme en els temps d’ideació i edició (tasques que prenien dies o hores, la IA les pot fer en minuts). Això significa que els equips de màrqueting podran generar molt més contingut en el mateix lapse de temps, multiplicant les iteracions creatives i adaptant-se ràpidament a les tendències.

A més, la IA “empata el terreny de joc” per als creadors petits enfront de les grans empreses. Històricament, produir vídeos d’alta qualitat requeria recursos que només les marques grans tenien (equips professionals, estudis, actors, etc.), però ara una petita startup o un creador independent poden competir gairebé de tu a tu utilitzant eines de vídeo IA. Igual que les xarxes socials van democratitzar la distribució de continguts, la IA democratitza la seva producció. No seria estrany veure marques emergents llançant campanyes amb vídeos molt atractius generats per IA, competint en creativitat amb gegants corporatius.

Una altra tendència apassionant és la personalització de continguts. La publicitat tradicional feia un mateix anunci per a milions de persones; amb la IA de vídeo, es podran crear versions adaptades a diferents segments i fins i tot a individus específics. Per exemple, una marca podria generar automàticament variants d’un vídeo promocional canviant certs elements (idioma, referències culturals, el personatge protagonista) perquè cada audiència se senti més identificada. Els algorismes poden adaptar els vídeos als gustos, preferències o dades demogràfiques de cada usuari, aconseguint un major engagement. Imaginem vídeos d’oferta on l’avatar et crida pel teu nom, o un tour virtual d’un cotxe nou on el veus amb els teus colors preferits; aquestes experiències personalitzades a escala massiva seran possibles gràcies a la IA generativa.

En l’àmbit de la producció audiovisual (cinema, sèries, música), també s’obren possibilitats enormes. Les IA de vídeo poden ajudar en la preproducció, generant storyboards animats a partir de guions, o visualitzant com quedaria una escena abans de rodar-la realment. Directors i creadors podrien provar múltiples enfocaments visuals amb rapidesa, cosa que facilita l’experimentació creativa. A més llarg termini, és concebible que sorgeixin obres audiovisuals completament creades per IA o amb mínima intervenció humana: curtmetratges animats sota demanda, vídeos musicals personalitzats, etc. De fet, ja hi ha músics i artistes visuals col·laborant amb IA per produir continguts híbrids. En l’àmbit educatiu o de capacitació, empreses com Synthesia o HeyGen ofereixen avatars IA que presenten continguts, permetent generar vídeos de formació corporativa en desenes d’idiomes sense contractar actors. Moltes companyies globals estan adoptant aquests “presentadors virtuals” per agilitzar les seves comunicacions internes i estalviant milers de dòlars per vídeo en el procés.

Per descomptat, la irrupció d’aquestes eines també planteja reptes laborals i creatius. Professionals d’edició de vídeo, càmeres, animadors i actors hauran d’adaptar-se a un entorn on algunes tasques rutinàries s’automatitzaran. Tanmateix, lluny de substituir completament el factor humà, el més probable és que la IA esdevingui un aliat que potencï la creativitat: alliberant temps de producció tècnica, permetent centrar-se en l’estratègia, la narració i els aspectes humans de les històries. Les productores audiovisuals tradicionals hauran de repensar els seus mètodes i trobar com aportar valor en un ecosistema on qualsevol pot generar contingut decent amb pocs recursos. La imaginació, el talent artístic i la visió original seran més importants que mai per destacar enmig d’un mar de contingut generat automàticament.

En resum, la creació de vídeos amb IA representa un salt revolucionari que ja està en marxa. Eines com Sora d’OpenAI ens mostren un tast d’un futur on la creativitat audiovisual és més accessible, ràpida i versàtil. Des de la publicitat fins al cinema i l’educació, veurem continguts generats per IA cada vegada més integrats en el nostre dia a dia. El repte consistirà a aprofitar aquestes tecnologies de manera positiva i responsable: meravellant-nos amb les seves possibilitats creatives, però també establint límits clars per evitar els enganys i abusos. Si alguna cosa ha quedat clara, és que la IA no és només una moda passatgera, sinó una nova eina poderosa —com ho va ser en el seu moment la càmera de vídeo o l’ordinador— que està destinada a transformar com expliquem històries a l’era digital. I en aquesta transformació, tots (creadors, consumidors i reguladors) tenim un paper a jugar perquè el resultat final sigui un ecosistema audiovisual més innovador, democratitzat i fiable.