Barion Pixel

Miért a Midjourney?

Mi csak tátjuk a szánkat, az AI pedig tanul, tanul és tanul…

Ezt a tájképet a Midjourney AI festette a „fotorealisztikus gyönyörű sivatagi táj naplementével” parancs segítségével

A Midjourney képalkotó mesterséges intelligencia egy olyan rendszer, aminek a segítségével könnyen és gyorsan készíthető személyre szabott, magas minőségű képi tartalom, hiszen az AI által vezérelt algoritmusok nemcsak a megfelelő képminta kiválasztását teszik lehetővé, hanem annak testre szabását is. Az eredmény többnyire letisztult, professzionális kép, ami tökéletesen illeszkedik a felhasználó által elvárt minőségi követelményekhez.

Az első bekezdést – némi humán javítással – egy AI írta egy másik AI-ról. A szövegalkotó ChatGPT csodája persze ugyanakkora óvatosságra int, mint a Midjourney-é, hiszen amellett, hogy értéket teremt, indokolatlanul hamis lehet, és kevés esélyünk van felelősségre vonni, ha például téved vagy plagizál. De egy ilyen technológiát akkor sem lehet az út szélén hagyni, hiszen ki ne ülne át egy szabadon használható Mercedesbe ahelyett, hogy a Trabantjával menne tovább az autópályán? Az AI-vezérelt képalkotás okkal népszerű az üzleti szereplők körében: megtervezhető vele a márka arculata, készülhetnek vele reklámképek, logók, marketinganyagok, grafikai tervek, és mindezzel még csak a felszínt kapargatjuk. A hétköznapi emberek számára az a leginkább kézzelfogható előny, hogy grafikai tudás és befektetett energia, munka, pénz nélkül hozhatnak létre egyedi alkotásokat, és tehetik azt saját szellemi termékükké, majd alakíthatják át egyedi igényeik szerint.

Kleopátra élethű illusztrációja az AI elképzelése szerint (balra) és további fotorealisztikus „AI festmények”.
Minél többet, minél gyorsabban

- Hirdetés -

A Midjourney a szakértők szerint leginkább a digitális marketing és a közösségi média területén jelenthet komoly előrelépést, főleg egy olyan korban, amikor minden a gyorsaságról, ezen belül pedig a pillanatok alatt megfogott és minél tovább megtartott figyelemről szól. Ehhez olyan hatékony vizuális tartalmak kellenek, amelyek nemcsak lebilincselők, de hatalmas mennyiségben gyártható belőlük újabb és újabb és újabb. Mert minél több az inger, annál gyorsabban kapható el és tartható meg a célközönség figyelme. Ehhez persze pontos, a felhasználói adatok elemzésén alapuló célzás kell, és ez már a tartalom készítése során a legfőbb szempont kell legyen – főleg ha digitális marketingről van szó.

Mivel egy AI működésének legfontosabb alapját maguk a felhasználók adják (az élményért cserébe ingyen tanítják kéréseikkel a mesterséges intelligenciát), elképesztően jól találja el a user igényeit, így az releváns és hatékony vizuális tartalmakat alkothat. Mivel az olyan generatív AI-k segítségével, mint a Midjourney és a DALL-E 2 nagy mennyiségű, személyre szabott képet lehet rövid idő alatt előállítani, ezek az eszközök kiemelten nagy előnyt jelenthetnek a reklám- és médiapiacon, az oktatásban vagy különböző grafikai tervezéssel foglalkozó területeken. A marketing és az értékesítés hatékonyságához különösen sokat tesznek hozzá, hiszen egyedi termékfotókat generálhatnak webáruházak számára, de kreatív és inspiráló hatással lehetnek mozgóképes, fotós, festészeti és prózai művészeti projektekre is – akár azáltal, hogy inspiráló vizuális elemeket hoznak létre, vagy lehetővé teszik új technikák tesztelését.

Mindezek mellett az üzleti szféra számára talán az a legnagyobb előny, hogy jelentősen csökkenthetők a képi tartalomelőállítással kapcsolatos költségek. Ezen a ponton persze a humán erőforrást éri a legnagyobb veszteség, hiszen töredékükre zuhannak vissza a kontentgyártással kapcsolatos költések, ráadásul az AI jóval gyorsabban állít elő, gyakran jobb minőségű, magasabb színvonalú tartalmat, mint az ember. Ha mindez nem lenne elég, a Midjourney és társai páratlan és innovatív termékeket képesek létrehozni úgy, hogy a generált tartalom mennyisége gyorsan és hatékonyan skálázható, így a vállalkozások könnyedén kezelhetik a növekvő keresletet.

Szürreális koncepciók, megdöbbentően részletes textúrák – gyakorlatilag bármi megrajzoltatható az AI programokkal.

A Midjourney segítségével egyszerű parancsok (a gyakorlatban könnyen értelmezhető mondatok vagy szóhalmazok) segítségével tudathatjuk az AI-val, hogy mit is szeretnénk látni a generált képen. A stílus, az összetettség és a minőség terén hagyatkozhatunk a mesterséges intelligenciára, vagy konkrétan megmondhatjuk, hogy fotórealisztikus vagy olajfestmény jellegű, netán Vincent van Gogh vagy Mijazaki Hajao stílusában készült képet akarunk.

A parancs eredményeként alap esetben négy képvariációt kapunk, amiből további variációkat hozhatunk létre, vagy kiválaszthatjuk, hogy melyiket szeretnénk nagyobb felbontásban is elkészíteni.

Az AI rajzoló algoritmus jelenleg (s előfordulhat, hogy ez szándékosan van így) még sokat ront a felnagyított képeken. A kicsiben tökéletesnek tűnő képvariáció upscaled verziója újra rajzolással kerül felnagyításra, aminek hatásaként kissé megváltozik a végeredmény, apró részletek tűnnek el vagy újak jelennek meg rajta.

A képalkotó program már-már komikus tulajdonsága, hogy habár soha nem látott, tökéletesen kidolgozott élőlényeket, briliánsan aprólékos textúrákat rajzol, mégsem képes megbirkózni az emberi (és állati) ujjakkal, ami szinte lehetetlenné teszi az ilyen jellegű műalkotás gazdasági értelemben vett felhasználását. Sokak szerint ez sem hiba, hanem szándékosan beépített funkció.

Etikai problémákat vet fel

Mint mesterséges intelligencia, a generatív képalkotó algoritmusok is adatok alapján tanulnak, és ezek szinte mindig emberi forrásból származó információk, amelyek hozzájárulnak a fejlődésükhöz. De az AI folyamatosan tanul, javul és fejlődik, így a „szellemi” termékeit nem feltétlenül határozzák meg azok a források, amelyekből kiindultak, szóval az emberek hiába vannak hatással például a Midjourney munkájára, az AI-k lényegesen szélesebb kontextusban működnek, mint a csak emberi források. Hasonló a helyzet az ún. Generative Pre-trained Transformerekkel (GPT-k, mint a szövegalkotó ChatGPT), amelyek mögött emberek által írt nyelvi tartalmakat feldolgozó neurális hálózat dolgozik. Az önképző modell emberi nyelvi információkból tanul meg különböző mintázatokat, és ezeket később új nyelvi feladatok megoldására használja fel.

Mindez már felvet etikai és szerzői jogi gondokat, így megindultak az első ember kontra mesterséges intelligencia perek. Persze csak képletesen, mivel a saját szellemi terméküket az AI-k munkáján kiszúró művészek nyilván a mesterséges intelligenciát létrehozó cégektől szeretnének kártérítéshez jutni. A precedens értékű eljárást Sarah Andersen, Kelly McKernan és Karla Ortiz grafikusok indították a Midjourney független kutatólaboratóriumát, a Stable Diffusiont üzemeltető Stability AI, valamint a DreamUp képgenerátort nemrég elindító DeviantArt ellen.

A csoportos keresetben azt szeretnék elérni, hogy az AI-k többé ne inspirálódjanak a műveikből, amelyek alapján sok képet generáltak, és ezek egy részét mások értékesítik az interneten. A hasonlóság szerintük sok esetben tetten érhető, ezért egyfajta plágiumváddal élnek – nyilván kártérítést is követelve. Hasonló lépést tett az egyik legnagyobb fotós adatbázis, a Getty Images: ők azért akarnak jóvátételt a Stable Diffusiont működtető vállalattól, mert az általuk üzemeltetett AI teljesen nyilvánvaló módon több millió képet hasznosított tovább a webáruházukból.

Bár a törvényi keretek még tisztázásra várnak, és az itt írt jogi eljárások biztosan nem az utolsó AI-k ellen indított perek, a technológia rárobbant a mindennapjainkra, és bizton állíthatjuk, hogy évtizedekre változtatja meg a játékszabályokat.

Gábor János, NEW technology

Érdemes elolvasni
NEW technology