Kolmemõõtmeline AI-videokunst: kui maailm muutub interaktiivseks

Kolmemõõtmeline AI-videokunst: kui maailm muutub interaktiivseks

Kui AI-videogeneraatorid nagu Sora ja Runway muutsid 2024. aastal selle, kuidas me kahemõõtmelisi videoid loome, siis 2025. aasta toob kaasa veelgi põnevama revolutsiooni – kolmemõõtmelise ja neljanmõõtmelise (3D+aeg) videosisu loomise. See ei ole enam lihtsalt videokunst, vaid hoopis uus viis maailma talletada, mõista ja luua.

NeRF ja Gaussian Splatting: kuidas AI näeb ruumi

Kõige põhimõttelisem muutus 3D-videotehnoloogias on see, kuidas masinõpe on hakanud mõistma kolmemõõtmelist ruumi. Kaks peamist lähenemist – Neural Radiance Fields (NeRF) ja 3D Gaussian Splatting – on muutnud selle, mida varem oli võimalik teha vaid professionaalsete 3D-skannerite ja kallite animatsioonistudiosidega.

NeRF, mis tuli välja 2020. aastal Berkeley ülikoolist, kasutab närgivõrke ruumilise valgusvälja modelleerimiseks. Lihtsalt öeldes õpib süsteem mitmest tavalise fotokaamera tehtud pildist ära, kuidas valgus käitub iga punkti peal kolmemõõtmelises ruumis. Tulemuseks on võime luua fotorealistlikke vaateid suvalises nurgas ja positsioonist – nagu saaksid kõndida läbi pildi.

Probleem oli vaid see, et NeRF oli aeglane. Ühe stseeni renderdamine võis võtta tunde, mis muutis selle praktilisteks rakendusteks keeruliseks. NVIDIA lahendas osa sellest probleemist oma Instant NeRFiga 2022. aastal, kiirendades protsessi üle 1000 korra – väljaõpe väheselt kümnelt fotolt võttis enam ainult sekundeid, mitte tunde.

Siis, 2023. aasta lõpus, tuli revolutsiooniline pööre: 3D Gaussian Splatting. Kui NeRF on implitsiitne esitus (kasutades närgivõrku punktide kohta arvutamiseks), siis Gaussian Splatting kasutab eksplitsiitset esitust – miljoneid väikseid 3D Gaussi funktsioone, mis kujutavad endast laadi “värvitud tumeduse pilvi” ruumis. Need on otseselt redigeeritavad, optimeeritavad ja, kõige olulisem, renderdatavad reaalajas.

Gaussian Splatting võitis 2023. aastal SIGGRAPH-i parima artikli auhinna ja levis kiiresti läbi kogu tööstuse – seda toetavad nüüd Unreal Engine, Unity, Luma AI ja kümneid teisi platvorme. Tehnoloogia on nii kiire, et seda saab kasutada isegi reaalajas rakenduste jaoks nagu autonoomsed autod või virtuaalreaalsus.

4D videogeneratsioon: liikuv maailm igas nurgas

Järgmine samm on lisada ajadimensioon. 4D videogeneratsioon tähendab võimet luua stseene, mis pole mitte ainult kolmemõõtmelised, vaid ka muutuvad ajas – ja mida saab vaadata suvalises nurgas suvalises ajahetkes.

Google DeepMindi CAT4D (Create Anything in 4D) näitab selle tehnoloogia potentsiaali. Süsteem võtab tavalise monokulaarkaamera video – näiteks kassi, kes sõtkub tainast – ja loob sellest täiesti navigeeritava 4D stseeni. Sa ei vaata enam lihtsalt videot, vaid saad liikuda ümber kassikese, näha teda eest, tagant, ülalt, ja kõike seda igas ajahetkes.

Tehnoloogia kasutab mitme vaatenurga video difusioonimudeleid, mis õpivad genereerima uusi vaateid isegi nurgast, mida algselt ei filmitud. Seejärel rekonstrueeritakse stseen deformeeruvateks 3D Gaussideks, mida saab renderdada reaalajas.

Stability AI Stable Video 4D läheb sammu edasi, genereerides ühest videost 40 sekundiga kaheksa erineva vaatenurga videod viie kaadri kohta. See võimaldab efektiivselt optimeerida dünaamilist 3D esitust, mida saab kasutada mängude, filmide ja VR-i jaoks.

4Real projekt Meta teadlastelt keskendub fotorealistlikkusele. Erinevalt enamikust meetoditest, mis tuginevad sünteesitud andmetele, kasutab 4Real videogeneraatoreid, mis on treenitud päris maailma videotega. Tulemuseks on 4D stseenid, mis on mitte ainult interaktiivsed, vaid ka uskumatult realistlikud.

Tekstist 3D-sse: kirjelda ja näe

Kui NeRF ja Gaussian Splatting võimaldavad rekonstrueerida eksisteerivat maailma, siis tekst-3D generaatorid loovad täiesti uusi maailmu sõnade põhjal.

Meshy AI on üks juhtivaid platvorme, kus saad lihtsalt kirjutada “keskaegsest lossi torn vihma käes” ja süsteem loob sekunditega täieliku 3D mudeli. Tänu uuematele täiustustele toetab Meshy nüüd ka hulgiloomist – saad luua 50+ 3D mudelit korraga. Mudelid eksportitakse PBR tekstuuridega (Diffuse, Roughness, Metallic, Normal), mis on valmis kasutamiseks Unreal, Unity, Blender või Maya’s.

SayMotion DeepMotionilt lisab liikumise. Kirjelda tekstis tegevust – “inimene kõnnib ja hüppab” – ja süsteem loob 3D animatsiooni, mida saad eksportida .FBX, .GLB või .BVH formaadis. Nende Inpainting tööriist võimaldab isegi generatiivse AI abil animatsioone täiendada ja kombineerida.

Luma AI Ray2.0 mudel on saavutanud lausa Hollywoodi tasemel tulemuseid. See on muutunud filmistuudiote põhivahendiks stoorybordide asendamiseks, lühendades oluliselt filmi eeltootmise tsüklit.

Volumeetriline video: hologrammid saavad reaalsuseks

Volumeetriline video – inimeste ja stseenide talletamine täielikult kolmemõõtmeliselt – on tehnoloogia, mis toob holograafiad tegelikkusesse.

Traditsioonilised volumeetrilise pildistamise süsteemid nagu 8i, Depthkit või 4Dviews kasutavad kümneid sünkroniseeritud kaameraid (mõnikord kuni 60), et jäädvustada esinejaid kõigist nurkadest korraga. Masinõpe ja arvutinägemine sulatavad seejärel need pildid üheks holograafiliseks videoks, mis on vaadatav igast nurgast.

Aga AI muudab ka selle kättesaadavamaks. Volograms kasutab tehisintellekti, et luua 3D volumeetrilisi hologramme lihtsalt tavalise video põhjal – ei mingeid spetsiaalseid kaameraid. Imverse HoloLive Cloud võimaldab isegi nutitelefoni sügavuskaameraga edastada reaalajas holograafilisi inimesi, asendades avatare autentsete 3D-kujutistega.

Evercoast Cloudbreak platvorm kasutab uusimaid tehnoloogiaid nagu 4D Gaussian Splatting, et töödelda multimodaalset liikumisandmestikku kõrge täpsusega ruumiliseks videoks. See on skaleeruv mõnest kaamerist sadade kaamerateni.

Reaalajas 3D videogeneraatorid

NVIDIA viimased edusammud näitavad, kui kiiresti see tehnoloogia areneb. Nende LTX-2 mudel võimaldab luua kuni 20 sekundit 4K kvaliteeti videot koos sisseehitatud helioaga. Kombineerides selle Blenderiga, saavad kunstnikud täpselt kontrollida oma stseene 3D keskkonnas ja genereerida seejärel fotorealistlikke kaadripõhiseid võtmeid.

Uue torujuhtme abil on võimalik:

  1. Seadistada stseen Blenderis 3D-s
  2. Genereerida AI-ga fotorealistlikud võtmekaadrid
  3. Lasta AI-l luua nendevaheline animatsioon
  4. Upscale’ida tulemus 4K-ni NVIDIA RTX Video tehnoloogiaga

Ja see kõik töötab kohalikul arvutil, kolm korda kiiremini ja vaid murdosaga VRAM-ist võrreldes varasemate lahendustega.

Rakendused ja tulevik

Kolmemõõtmeline AI-videokunst ei ole enam ainult eksperimentaalne tehnoloogia. See muudab juba praegu:

Kinematograafiat: Režissöörid saavad luua virtuaalseid kaamera proovisõite enne kallite seadmetega filmimist. 4D stseenikonstruktsioon võimaldab testida kõiki võimalikke nurki virtuaalselt.

Mänguarendust: 3D Gaussian Splatting võimaldab luua fotorealistlikke keskkondi mängumootorites reaalajas. Kasutades AI-genereeritud 3D mudeleid saab sisutootmine olla kümneid kordi kiirem.

Arhitektuuri ja disaini: Arhitektid saavad tekstist genereerida 3D visualisatsioone, mida kliendid saavad VR-is läbi kõndida. Volumeetrilised videod võimaldavad näidata projekte enne ehitamist.

Haridust: Keerukaid loodusteaduslikke mõisteid saab nüüd visualiseerida interaktiivsete 3D-stseenidena, mida õpilased saavad uurida kõigist nurkadest.

E-kaubandust: Tooted muutuvad 3D mudeliteks, mida ostjad saavad pöörata, suurendada ja isegi virtuaalselt “katsetada” AR-i kaudu.

Meditsiini: Arstid saavad treenida 3D-stseenide peal, mis on genereeritud meditsiinilistest skanningutest – näiteks kõndida läbi südame 3D mudeli.

Väljakutsed

Muidugi pole kõik probleemid lahendatud. 3D ja 4D videogeneraatorid võivad endiselt:

  • Tekitada artefakte keeruliste stseenide puhul
  • Vajada palju arvutusvõimsust (kuigi see väheneb kiiresti)
  • Võidelda füüsikaseaduste järgimisega (objektid võivad “ujuda” või moonutuda)
  • Kannatada järjepidevuse puudumise käes pikemas sisus

Eetilised ja juriidilised küsimused on samuti lahendamata. Kui AI on treenitud miljonitest reaalsete inimeste videodest, siis kes omab loodud sisu? Kuidas kaitsta privaatsust, kui igaüks saab luua realistlikke 3D kloonide kellestki?

Kokkuvõte

3D AI-videokunst esindab tehnoloogia arengus punkti, kus virtuaalne ja reaalne maailm hakkavad kokku sulama. Me oleme liikumas kahemõõtmelisest ekraanist kolme- ja neljanmõõtmelise, täielikult interaktiivse meediaruumi suunas.

NeRF ja Gaussian Splatting on andnud masinatele võime “mõista” ruumi viisil, mis varem polnud võimalik. 4D videogeneraatorid lisavad aja dimensiooni. Volumeetriline video toob holograafiad kööki. Ja tekst-3D generaatorid demokratiseerivad kogu protsessi – mis kunagi nõudis meeskondi ja kuid tööd, on nüüd võimalik sekunditega.

Nagu alati tehnoloogia arenguga, pole AI tööriist, mis asendab kunstnikku, vaid pintsli pikendus – seekord aga pintsel, mis võimaldab maalida mitte ainult pindadele, vaid ruumi ja aja sisse.

About the Author

Martin Vaik on teoloog, AICortex Invest OÜ juhataja ja kirjanduslik Arhitekt, kes tegutseb Mõttekeskuses – AICortex ThinkCenter. Tema tööd ühendavad esteetika, vaimsus ja tehnoloogiline innovatsioon. Vaik uurib, kuidas inimese loodud keskkonnad peegeldavad sügavamaid eksistentsiaalseid ja teoloogilisi küsimusi. Tema looming Neo Edeni näol on kutsunud esile arutelusid loodu lunastuse, inimese kutsumuse ja tehnoloogia rolli üle vaimses maailmas.

Martin Vaik – www.3dsingular.com – AICortex Invest OÜ Reg. 14222112