南昌左傳實(shí)業(yè)有限公司
移動(dòng)電話:13687088555(張經(jīng)理)
客服QQ:7113911 43955769
傳真:0791-86452423
聯(lián)系電話:0791-86452423
客服信箱:43955769@qq.com
文章目錄
一、Sora模型的發(fā)布
二、Sora模型生成視頻的原理
文本提示生成內(nèi)容
空間時(shí)間補(bǔ)丁
視頻生成過(guò)程
步驟1:視頻壓縮網(wǎng)絡(luò)
步驟2:空間時(shí)間潛在補(bǔ)丁提取
步驟3:視頻生成的Transformer模型
三、Sora模型技術(shù)特點(diǎn)與創(chuàng)新點(diǎn)
Sora支持多種視頻格式
Sora改進(jìn)的視頻構(gòu)圖和框架
語(yǔ)言理解與視頻生成
多模態(tài)輸入處理
一、Sora模型的發(fā)布
Sora模型是OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是叫做“世界模擬器” ),Sora模型于2024年2月15日(美國(guó)當(dāng)?shù)貢r(shí)間)正式對(duì)外發(fā)布。
Sora模型實(shí)現(xiàn)了輸入文本生成高質(zhì)量的視頻功能,Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來(lái)無(wú)限可能,再一次的震撼到我們。
對(duì)于我們這些普通人如何了解Sora呢?我們可以想象一下,你在瀏覽一本展示世界各地名勝的圖片集,里面收錄了來(lái)自不同國(guó)家的風(fēng)景照片。有的展示了一望無(wú)際的海景,有的呈現(xiàn)了狹窄的小巷,還有的描繪了夜晚燈火輝煌的城市景觀。盡管這些照片在內(nèi)容和風(fēng)格上各有千秋,但你能夠輕而易舉地識(shí)別每一張照片所代表的地點(diǎn)和情感,因?yàn)槟愕拇竽X能夠?qū)⑦@些不同的視覺信息整合并理解。
與此類似,Sora面對(duì)的挑戰(zhàn)在于處理和分析來(lái)自全球各地、由不同設(shè)備拍攝的數(shù)以百萬(wàn)計(jì)的圖片和視頻。這些視覺數(shù)據(jù)在分辨率、寬高比、色彩深度等方面存在差異。為了使Sora能夠像人類大腦那樣理解和生成如此豐富的視覺內(nèi)容,OpenAI開發(fā)了一套方法,將這些不同類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示形式。
二、Sora模型生成視頻的原理
首先,Sora利用一種稱為“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖像或視頻數(shù)據(jù)轉(zhuǎn)換成一個(gè)更簡(jiǎn)潔的、低維度的表達(dá)方式。這個(gè)過(guò)程類似于將不同尺寸和分辨率的圖片進(jìn)行“標(biāo)準(zhǔn)化”,以便于進(jìn)行后續(xù)的處理和存儲(chǔ)。這種轉(zhuǎn)換并不是要摒棄原始數(shù)據(jù)的特點(diǎn),而是將其轉(zhuǎn)換成一種對(duì)Sora來(lái)說(shuō)更易于理解和操作的形態(tài)。
然后,Sora將這些壓縮過(guò)的數(shù)據(jù)進(jìn)一步細(xì)分為所謂的“空間時(shí)間補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁可以被視作視覺內(nèi)容的基本單元,就像我們之前提到的相冊(cè)中的每一張照片都可以被拆分成包含獨(dú)特景觀、顏色和紋理的小塊。這樣,無(wú)論原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何,Sora都能將它們轉(zhuǎn)化為一種一致的格式。
通過(guò)這種方式,Sora能夠在保持原始視覺信息多樣性的同時(shí),將來(lái)自不同來(lái)源和風(fēng)格的視覺數(shù)據(jù)整合成一種統(tǒng)一的內(nèi)部表達(dá)形式。這就像你在翻閱世界名勝相冊(cè)時(shí),盡管照片各不相同,但你依然能夠以相同的方式去理解和欣賞它們。
文本提示生成內(nèi)容
Sora是如何根據(jù)文本提示生成內(nèi)容的。這個(gè)過(guò)程主要依賴于一種稱為“文本條件化的Diffusion模型”的技術(shù)。為了解釋這個(gè)技術(shù)的運(yùn)作原理,我們可以用一個(gè)日常生活的例子來(lái)說(shuō)明:設(shè)想你手中有一本充滿隨意涂鴉的草圖本,起初,本子上滿是隨機(jī)的墨跡,看起來(lái)毫無(wú)意義。但如果你按照一個(gè)特定的主題,比如“花園”,逐漸地去修改和細(xì)化這些墨跡,最終,這些雜亂的線條將逐漸演變成一幅描繪花園的美麗畫面。在這個(gè)例子中,你的“特定主題”就是文本提示,而你逐步改善草圖本的過(guò)程,就類似于Diffusion模型的工作機(jī)制。
具體到Sora的應(yīng)用,這個(gè)過(guò)程始于一段與目標(biāo)視頻長(zhǎng)度相同但內(nèi)容完全是隨機(jī)噪聲的視頻,可以將其想象成草圖本上的那些無(wú)意義的墨跡。然后,Sora根據(jù)給定的文本提示(例如“一只貓坐在窗臺(tái)上看日落”)開始“編輯”這段視頻。在這個(gè)過(guò)程中,Sora利用了從大量視頻和圖片數(shù)據(jù)中學(xué)習(xí)到的知識(shí),以決定如何逐步消除噪聲,將這段噪聲視頻轉(zhuǎn)變?yōu)榻咏谋久枋龅膬?nèi)容。
這個(gè)“編輯”過(guò)程是通過(guò)數(shù)百個(gè)連續(xù)的步驟逐漸完成,每一步都使得視頻更接近最終的目標(biāo)。這種方法的一個(gè)顯著優(yōu)勢(shì)在于其靈活性和創(chuàng)新性:即使是相同的文本提示,通過(guò)不同的初始噪聲狀態(tài)或者在轉(zhuǎn)換步驟中進(jìn)行微調(diào),也能夠產(chǎn)生視覺上各具特色、但都與文本提示相契合的視頻內(nèi)容。這就像是多位藝術(shù)家根據(jù)同一主題創(chuàng)作出風(fēng)格迥異的畫作。
利用這種基于文本條件的Diffusion模型,Sora不僅能夠創(chuàng)造出具有極高創(chuàng)意性的視頻和圖像,還能夠確保所生成的內(nèi)容與用戶的文本提示高度吻合。無(wú)論是重現(xiàn)真實(shí)場(chǎng)景還是構(gòu)建幻想世界,Sora都能夠根據(jù)文本提示“繪制”出令人驚嘆的視覺作品。
空間時(shí)間補(bǔ)丁
空間時(shí)間補(bǔ)丁:我們可以理解為將視頻或圖片分解成許多小塊或“補(bǔ)丁”,每個(gè)小塊都攜帶著一定的時(shí)間和空間信息。這種方法的靈感來(lái)自于處理靜態(tài)圖片的技術(shù),其中圖片被分割成小塊以便更高效地進(jìn)行分析。在視頻處理的背景下,這個(gè)概念被擴(kuò)展到了時(shí)間維度上,不僅涉及空間(即圖片的特定區(qū)域),還包括這些區(qū)域隨時(shí)間的變化。
為了讓大家更好地理解空間時(shí)間補(bǔ)丁是如何運(yùn)作的,我們可以用一個(gè)簡(jiǎn)單的日常例子來(lái)說(shuō)明:想象你在觀看一部動(dòng)畫片。如果我們把這部電影切割成單幀的靜態(tài)畫面,并且把這些畫面進(jìn)一步分割成更小的區(qū)塊(即“補(bǔ)丁”),那么每個(gè)小區(qū)塊都會(huì)含有畫面的一部分信息。隨著時(shí)間的前進(jìn),這些小區(qū)域的信息會(huì)隨著角色動(dòng)作或場(chǎng)景轉(zhuǎn)換而改變,這樣就加入了時(shí)間維度上的動(dòng)態(tài)內(nèi)容。在Sora中,這樣的“空間時(shí)間補(bǔ)丁”使得模型能夠更精確地處理視頻內(nèi)容的每一個(gè)小部分,并且同時(shí)考慮到它們隨時(shí)間的變化。
在Sora處理視覺內(nèi)容的流程中,空間時(shí)間補(bǔ)丁最初是通過(guò)視頻壓縮網(wǎng)絡(luò)生成的。這個(gè)網(wǎng)絡(luò)的任務(wù)是將原始視頻數(shù)據(jù)轉(zhuǎn)換成更低的維度表示,也就是由眾多小塊組成的密集網(wǎng)絡(luò)。這些小塊就是我們所稱的“補(bǔ)丁”,每個(gè)補(bǔ)丁都攜帶著視頻的一部分空間和時(shí)間信息。
生成這些空間時(shí)間補(bǔ)丁之后,Sora便可以開始它們的轉(zhuǎn)換過(guò)程。利用已經(jīng)預(yù)先訓(xùn)練好的轉(zhuǎn)換器(Transformer模型),Sora能夠分析每個(gè)補(bǔ)丁的內(nèi)容,并根據(jù)輸入的文本提示進(jìn)行必要的調(diào)整。例如,如果文本提示是“海邊奔跑的馬兒”,Sora將定位到與“海邊”和“奔跑的馬兒”相關(guān)的補(bǔ)丁,并對(duì)它們進(jìn)行相應(yīng)的修改,以創(chuàng)造出與文本提示相符的視頻內(nèi)容。
這種基于空間時(shí)間補(bǔ)丁的處理手段具有幾個(gè)明顯的優(yōu)點(diǎn)。首先,它使Sora能夠以非常細(xì)致的粒度操作視頻內(nèi)容,因?yàn)樗梢元?dú)立處理視頻中的每一個(gè)小部分。其次,這種方法極大地增強(qiáng)了處理視頻的靈活性,讓Sora能夠生成具有復(fù)雜動(dòng)態(tài)的高質(zhì)量視頻,這對(duì)于傳統(tǒng)的視頻生成技術(shù)來(lái)說(shuō)是一項(xiàng)艱巨的任務(wù)。此外,通過(guò)對(duì)這些補(bǔ)丁進(jìn)行有效的管理和轉(zhuǎn)換,Sora能夠在保持視頻內(nèi)容連貫性的同時(shí),制作出多種多樣的視覺效果,滿足用戶的多樣化需求。
視頻生成過(guò)程
我們將Sora在視頻生成過(guò)程分成三個(gè)步驟:視頻壓縮網(wǎng)絡(luò)、空間時(shí)間潛在補(bǔ)丁提取以及視頻生成的Transformer模型。
步驟1:視頻壓縮網(wǎng)絡(luò)
想象一下,你正在整理一間混亂的房間,你的目標(biāo)是以最少的盒子來(lái)收拾所有的物品,并且保證以后能夠迅速找到需要的物品。在這個(gè)過(guò)程中,你可能會(huì)把小物品放入小盒子,然后再把這些小盒子放入更大的箱子。這樣,你就能夠用更少、更有條理的空間來(lái)存放同樣數(shù)量的物品。視頻壓縮網(wǎng)絡(luò)的工作原理與此類似。它將視頻內(nèi)容“整理”成一個(gè)更加緊湊、高效的形式(即降低維度)。這樣,Sora在處理視頻時(shí)能夠更加高效,也能夠保留足夠的信息來(lái)重建原始視頻。
步驟2:空間時(shí)間潛在補(bǔ)丁提取
繼續(xù)上面的比喻,如果你想詳細(xì)記錄每個(gè)盒子里放置了哪些物品,你可能會(huì)為每個(gè)盒子制作一個(gè)清單。這樣,當(dāng)你需要找到某個(gè)特定的物品時(shí),只需要查閱相應(yīng)的清單,就能迅速知道它存放在哪個(gè)盒子里。在Sora的處理過(guò)程中,與之類似的“清單”就是空間時(shí)間潛在補(bǔ)丁。通過(guò)視頻壓縮網(wǎng)絡(luò)的處理,Sora將視頻分割成許多小塊,每個(gè)小塊都包含了視頻中的一小部分空間和時(shí)間信息,這就像是視頻內(nèi)容的詳細(xì)“清單”。這樣的處理使得Sora能夠在后續(xù)的步驟中精確地處理視頻的每一個(gè)部分。
步驟3:視頻生成的Transformer模型
最后,想象你和朋友們一起玩一個(gè)特殊的拼圖游戲,這個(gè)游戲的規(guī)則就是根據(jù)一個(gè)故事來(lái)拼出一幅完整的畫面。你們首先將故事分成了幾個(gè)部分,每個(gè)人負(fù)責(zé)一部分。接著,你們根據(jù)自己負(fù)責(zé)的那部分故事內(nèi)容選擇或者繪制出相應(yīng)的拼圖碎片。最后,你們將各自的拼圖碎片拼接在一起,形成了一幅完整的圖像,展現(xiàn)了整個(gè)故事的內(nèi)容。在Sora生成視頻的過(guò)程中,Transformer模型就扮演了這樣的角色。它接收空間時(shí)間潛在補(bǔ)?。匆曨l內(nèi)容的“拼圖片”)和文本提示(即“故事”),然后決定如何調(diào)整或組合這些拼圖碎片以創(chuàng)造出最終的視頻,從而呈現(xiàn)出文本提示中的故事情節(jié)。
三、Sora模型技術(shù)特點(diǎn)與創(chuàng)新點(diǎn)
Sora支持多種視頻格式
Sora模型對(duì)多種視頻格式的強(qiáng)大兼容性。比如說(shuō),不管是寬屏的1920x1080p視頻、垂直的1080x1920視頻,還是其他任何比例的視頻,Sora都能夠輕松處理。這種兼容性使得Sora能夠直接為不同設(shè)備生成相應(yīng)比例的內(nèi)容,滿足各種不同的觀看需求。此外,Sora還能夠先在低分辨率下快速制作內(nèi)容原型,然后再以全分辨率生成最終產(chǎn)品,這一切都可以在同一個(gè)模型內(nèi)完成。這樣的特性不僅增強(qiáng)了內(nèi)容創(chuàng)作的靈活性,而且極大地簡(jiǎn)化了視頻內(nèi)容的制作過(guò)程。
Sora改進(jìn)的視頻構(gòu)圖和框架
Sora模型在視頻構(gòu)圖和畫面框架方面也有了顯著的提升。由于模型是在原始比例上進(jìn)行訓(xùn)練的,Sora能夠更精準(zhǔn)地理解和設(shè)計(jì)視頻的構(gòu)圖和框架。與那些將所有訓(xùn)練視頻裁剪成方形格式的模型不同,Sora能夠更有效地保持視頻主題的完整性。例如,在處理寬屏視頻時(shí),Sora能夠確保主要的內(nèi)容始終位于觀眾的視野中心,而不是像其他模型那樣只展示主題的一部分。這樣的能力不僅增強(qiáng)了生成視頻的視覺品質(zhì),也優(yōu)化了觀眾的觀看體驗(yàn)。
語(yǔ)言理解與視頻生成
Sora對(duì)文本的深入理解是其一項(xiàng)顯著特性。借助先進(jìn)的文本轉(zhuǎn)化為詞向量的技術(shù),能夠精確解讀用戶的文本指令,并基于這些指令創(chuàng)造出充滿細(xì)節(jié)和情感的角色以及栩栩如生的場(chǎng)景。這種功能使得從簡(jiǎn)短的文本提示到復(fù)雜視頻內(nèi)容的轉(zhuǎn)變更加順暢和自然,無(wú)論是復(fù)雜的動(dòng)作序列還是微妙情感的表現(xiàn),Sora都能夠精準(zhǔn)把握并呈現(xiàn)出來(lái)。
多模態(tài)輸入處理
Sora還能夠接收靜態(tài)圖像或現(xiàn)有視頻作為輸入,進(jìn)行內(nèi)容的擴(kuò)展、填充缺失的幀或進(jìn)行風(fēng)格轉(zhuǎn)換等任務(wù)。這種多功能性極大地拓寬了Sora的應(yīng)用領(lǐng)域,它不僅能夠用于從頭開始創(chuàng)作視頻內(nèi)容,還能夠用于對(duì)現(xiàn)有內(nèi)容的二次加工,為用戶提供了更多的創(chuàng)作靈活性和想象空間。
人工智能,AIGC 的開發(fā)使用離不開算力,模型的訓(xùn)練,結(jié)果的推理都需要不同的算力支撐,如果有AI服務(wù)器,算力租賃和模型訓(xùn)練等問(wèn)題,都可以后臺(tái)私我!
————————————————
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
原文鏈接:計(jì)算機(jī)視覺的應(yīng)用23-OpenAI發(fā)布的文本生成視頻大模型Sora的原理解密-CSDN博客