99国产成人高清在线观看,亚洲日韩欧美综合一区,色综合久久无码中文字幕

南昌左傳實(shí)業(yè)有限公司

移動(dòng)電話：13687088555（張經(jīng)理）

客服QQ：7113911 43955769

傳真：0791-86452423

聯(lián)系電話：0791-86452423

客服信箱：43955769@qq.com

計(jì)算機(jī)視覺的應(yīng)用-OpenAI發(fā)布的文本生成視頻大模型Sora的原理解密

文章目錄

一、Sora模型的發(fā)布

二、Sora模型生成視頻的原理

文本提示生成內(nèi)容

空間時(shí)間補(bǔ)丁

視頻生成過(guò)程

步驟1：視頻壓縮網(wǎng)絡(luò)

步驟2：空間時(shí)間潛在補(bǔ)丁提取

步驟3：視頻生成的Transformer模型

三、Sora模型技術(shù)特點(diǎn)與創(chuàng)新點(diǎn)

Sora支持多種視頻格式

Sora改進(jìn)的視頻構(gòu)圖和框架

語(yǔ)言理解與視頻生成

多模態(tài)輸入處理

一、Sora模型的發(fā)布

Sora模型是OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是叫做“世界模擬器” ），Sora模型于2024年2月15日（美國(guó)當(dāng)?shù)貢r(shí)間）正式對(duì)外發(fā)布。

Sora模型實(shí)現(xiàn)了輸入文本生成高質(zhì)量的視頻功能，Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來(lái)無(wú)限可能，再一次的震撼到我們。

對(duì)于我們這些普通人如何了解Sora呢？我們可以想象一下，你在瀏覽一本展示世界各地名勝的圖片集，里面收錄了來(lái)自不同國(guó)家的風(fēng)景照片。有的展示了一望無(wú)際的海景，有的呈現(xiàn)了狹窄的小巷，還有的描繪了夜晚燈火輝煌的城市景觀。盡管這些照片在內(nèi)容和風(fēng)格上各有千秋，但你能夠輕而易舉地識(shí)別每一張照片所代表的地點(diǎn)和情感，因?yàn)槟愕拇竽X能夠?qū)⑦@些不同的視覺信息整合并理解。

與此類似，Sora面對(duì)的挑戰(zhàn)在于處理和分析來(lái)自全球各地、由不同設(shè)備拍攝的數(shù)以百萬(wàn)計(jì)的圖片和視頻。這些視覺數(shù)據(jù)在分辨率、寬高比、色彩深度等方面存在差異。為了使Sora能夠像人類大腦那樣理解和生成如此豐富的視覺內(nèi)容，OpenAI開發(fā)了一套方法，將這些不同類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示形式。

二、Sora模型生成視頻的原理

首先，Sora利用一種稱為“視頻壓縮網(wǎng)絡(luò)”的技術(shù)，將輸入的圖像或視頻數(shù)據(jù)轉(zhuǎn)換成一個(gè)更簡(jiǎn)潔的、低維度的表達(dá)方式。這個(gè)過(guò)程類似于將不同尺寸和分辨率的圖片進(jìn)行“標(biāo)準(zhǔn)化”，以便于進(jìn)行后續(xù)的處理和存儲(chǔ)。這種轉(zhuǎn)換并不是要摒棄原始數(shù)據(jù)的特點(diǎn)，而是將其轉(zhuǎn)換成一種對(duì)Sora來(lái)說(shuō)更易于理解和操作的形態(tài)。

然后，Sora將這些壓縮過(guò)的數(shù)據(jù)進(jìn)一步細(xì)分為所謂的“空間時(shí)間補(bǔ)丁”（Spacetime Patches），這些補(bǔ)丁可以被視作視覺內(nèi)容的基本單元，就像我們之前提到的相冊(cè)中的每一張照片都可以被拆分成包含獨(dú)特景觀、顏色和紋理的小塊。這樣，無(wú)論原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何，Sora都能將它們轉(zhuǎn)化為一種一致的格式。

通過(guò)這種方式，Sora能夠在保持原始視覺信息多樣性的同時(shí)，將來(lái)自不同來(lái)源和風(fēng)格的視覺數(shù)據(jù)整合成一種統(tǒng)一的內(nèi)部表達(dá)形式。這就像你在翻閱世界名勝相冊(cè)時(shí)，盡管照片各不相同，但你依然能夠以相同的方式去理解和欣賞它們。

文本提示生成內(nèi)容

Sora是如何根據(jù)文本提示生成內(nèi)容的。這個(gè)過(guò)程主要依賴于一種稱為“文本條件化的Diffusion模型”的技術(shù)。為了解釋這個(gè)技術(shù)的運(yùn)作原理，我們可以用一個(gè)日常生活的例子來(lái)說(shuō)明：設(shè)想你手中有一本充滿隨意涂鴉的草圖本，起初，本子上滿是隨機(jī)的墨跡，看起來(lái)毫無(wú)意義。但如果你按照一個(gè)特定的主題，比如“花園”，逐漸地去修改和細(xì)化這些墨跡，最終，這些雜亂的線條將逐漸演變成一幅描繪花園的美麗畫面。在這個(gè)例子中，你的“特定主題”就是文本提示，而你逐步改善草圖本的過(guò)程，就類似于Diffusion模型的工作機(jī)制。

具體到Sora的應(yīng)用，這個(gè)過(guò)程始于一段與目標(biāo)視頻長(zhǎng)度相同但內(nèi)容完全是隨機(jī)噪聲的視頻，可以將其想象成草圖本上的那些無(wú)意義的墨跡。然后，Sora根據(jù)給定的文本提示（例如“一只貓坐在窗臺(tái)上看日落”）開始“編輯”這段視頻。在這個(gè)過(guò)程中，Sora利用了從大量視頻和圖片數(shù)據(jù)中學(xué)習(xí)到的知識(shí)，以決定如何逐步消除噪聲，將這段噪聲視頻轉(zhuǎn)變?yōu)榻咏谋久枋龅膬?nèi)容。

這個(gè)“編輯”過(guò)程是通過(guò)數(shù)百個(gè)連續(xù)的步驟逐漸完成，每一步都使得視頻更接近最終的目標(biāo)。這種方法的一個(gè)顯著優(yōu)勢(shì)在于其靈活性和創(chuàng)新性：即使是相同的文本提示，通過(guò)不同的初始噪聲狀態(tài)或者在轉(zhuǎn)換步驟中進(jìn)行微調(diào)，也能夠產(chǎn)生視覺上各具特色、但都與文本提示相契合的視頻內(nèi)容。這就像是多位藝術(shù)家根據(jù)同一主題創(chuàng)作出風(fēng)格迥異的畫作。

利用這種基于文本條件的Diffusion模型，Sora不僅能夠創(chuàng)造出具有極高創(chuàng)意性的視頻和圖像，還能夠確保所生成的內(nèi)容與用戶的文本提示高度吻合。無(wú)論是重現(xiàn)真實(shí)場(chǎng)景還是構(gòu)建幻想世界，Sora都能夠根據(jù)文本提示“繪制”出令人驚嘆的視覺作品。

空間時(shí)間補(bǔ)丁

空間時(shí)間補(bǔ)丁:我們可以理解為將視頻或圖片分解成許多小塊或“補(bǔ)丁”，每個(gè)小塊都攜帶著一定的時(shí)間和空間信息。這種方法的靈感來(lái)自于處理靜態(tài)圖片的技術(shù)，其中圖片被分割成小塊以便更高效地進(jìn)行分析。在視頻處理的背景下，這個(gè)概念被擴(kuò)展到了時(shí)間維度上，不僅涉及空間（即圖片的特定區(qū)域），還包括這些區(qū)域隨時(shí)間的變化。

為了讓大家更好地理解空間時(shí)間補(bǔ)丁是如何運(yùn)作的，我們可以用一個(gè)簡(jiǎn)單的日常例子來(lái)說(shuō)明：想象你在觀看一部動(dòng)畫片。如果我們把這部電影切割成單幀的靜態(tài)畫面，并且把這些畫面進(jìn)一步分割成更小的區(qū)塊（即“補(bǔ)丁”），那么每個(gè)小區(qū)塊都會(huì)含有畫面的一部分信息。隨著時(shí)間的前進(jìn)，這些小區(qū)域的信息會(huì)隨著角色動(dòng)作或場(chǎng)景轉(zhuǎn)換而改變，這樣就加入了時(shí)間維度上的動(dòng)態(tài)內(nèi)容。在Sora中，這樣的“空間時(shí)間補(bǔ)丁”使得模型能夠更精確地處理視頻內(nèi)容的每一個(gè)小部分，并且同時(shí)考慮到它們隨時(shí)間的變化。

在Sora處理視覺內(nèi)容的流程中，空間時(shí)間補(bǔ)丁最初是通過(guò)視頻壓縮網(wǎng)絡(luò)生成的。這個(gè)網(wǎng)絡(luò)的任務(wù)是將原始視頻數(shù)據(jù)轉(zhuǎn)換成更低的維度表示，也就是由眾多小塊組成的密集網(wǎng)絡(luò)。這些小塊就是我們所稱的“補(bǔ)丁”，每個(gè)補(bǔ)丁都攜帶著視頻的一部分空間和時(shí)間信息。

生成這些空間時(shí)間補(bǔ)丁之后，Sora便可以開始它們的轉(zhuǎn)換過(guò)程。利用已經(jīng)預(yù)先訓(xùn)練好的轉(zhuǎn)換器（Transformer模型），Sora能夠分析每個(gè)補(bǔ)丁的內(nèi)容，并根據(jù)輸入的文本提示進(jìn)行必要的調(diào)整。例如，如果文本提示是“海邊奔跑的馬兒”，Sora將定位到與“海邊”和“奔跑的馬兒”相關(guān)的補(bǔ)丁，并對(duì)它們進(jìn)行相應(yīng)的修改，以創(chuàng)造出與文本提示相符的視頻內(nèi)容。

這種基于空間時(shí)間補(bǔ)丁的處理手段具有幾個(gè)明顯的優(yōu)點(diǎn)。首先，它使Sora能夠以非常細(xì)致的粒度操作視頻內(nèi)容，因?yàn)樗梢元?dú)立處理視頻中的每一個(gè)小部分。其次，這種方法極大地增強(qiáng)了處理視頻的靈活性，讓Sora能夠生成具有復(fù)雜動(dòng)態(tài)的高質(zhì)量視頻，這對(duì)于傳統(tǒng)的視頻生成技術(shù)來(lái)說(shuō)是一項(xiàng)艱巨的任務(wù)。此外，通過(guò)對(duì)這些補(bǔ)丁進(jìn)行有效的管理和轉(zhuǎn)換，Sora能夠在保持視頻內(nèi)容連貫性的同時(shí)，制作出多種多樣的視覺效果，滿足用戶的多樣化需求。

視頻生成過(guò)程

我們將Sora在視頻生成過(guò)程分成三個(gè)步驟：視頻壓縮網(wǎng)絡(luò)、空間時(shí)間潛在補(bǔ)丁提取以及視頻生成的Transformer模型。

步驟1：視頻壓縮網(wǎng)絡(luò)

想象一下，你正在整理一間混亂的房間，你的目標(biāo)是以最少的盒子來(lái)收拾所有的物品，并且保證以后能夠迅速找到需要的物品。在這個(gè)過(guò)程中，你可能會(huì)把小物品放入小盒子，然后再把這些小盒子放入更大的箱子。這樣，你就能夠用更少、更有條理的空間來(lái)存放同樣數(shù)量的物品。視頻壓縮網(wǎng)絡(luò)的工作原理與此類似。它將視頻內(nèi)容“整理”成一個(gè)更加緊湊、高效的形式（即降低維度）。這樣，Sora在處理視頻時(shí)能夠更加高效，也能夠保留足夠的信息來(lái)重建原始視頻。

步驟2：空間時(shí)間潛在補(bǔ)丁提取

繼續(xù)上面的比喻，如果你想詳細(xì)記錄每個(gè)盒子里放置了哪些物品，你可能會(huì)為每個(gè)盒子制作一個(gè)清單。這樣，當(dāng)你需要找到某個(gè)特定的物品時(shí)，只需要查閱相應(yīng)的清單，就能迅速知道它存放在哪個(gè)盒子里。在Sora的處理過(guò)程中，與之類似的“清單”就是空間時(shí)間潛在補(bǔ)丁。通過(guò)視頻壓縮網(wǎng)絡(luò)的處理，Sora將視頻分割成許多小塊，每個(gè)小塊都包含了視頻中的一小部分空間和時(shí)間信息，這就像是視頻內(nèi)容的詳細(xì)“清單”。這樣的處理使得Sora能夠在后續(xù)的步驟中精確地處理視頻的每一個(gè)部分。

步驟3：視頻生成的Transformer模型

最后，想象你和朋友們一起玩一個(gè)特殊的拼圖游戲，這個(gè)游戲的規(guī)則就是根據(jù)一個(gè)故事來(lái)拼出一幅完整的畫面。你們首先將故事分成了幾個(gè)部分，每個(gè)人負(fù)責(zé)一部分。接著，你們根據(jù)自己負(fù)責(zé)的那部分故事內(nèi)容選擇或者繪制出相應(yīng)的拼圖碎片。最后，你們將各自的拼圖碎片拼接在一起，形成了一幅完整的圖像，展現(xiàn)了整個(gè)故事的內(nèi)容。在Sora生成視頻的過(guò)程中，Transformer模型就扮演了這樣的角色。它接收空間時(shí)間潛在補(bǔ)?。匆曨l內(nèi)容的“拼圖片”）和文本提示（即“故事”），然后決定如何調(diào)整或組合這些拼圖碎片以創(chuàng)造出最終的視頻，從而呈現(xiàn)出文本提示中的故事情節(jié)。

三、Sora模型技術(shù)特點(diǎn)與創(chuàng)新點(diǎn)

Sora支持多種視頻格式

Sora模型對(duì)多種視頻格式的強(qiáng)大兼容性。比如說(shuō)，不管是寬屏的1920x1080p視頻、垂直的1080x1920視頻，還是其他任何比例的視頻，Sora都能夠輕松處理。這種兼容性使得Sora能夠直接為不同設(shè)備生成相應(yīng)比例的內(nèi)容，滿足各種不同的觀看需求。此外，Sora還能夠先在低分辨率下快速制作內(nèi)容原型，然后再以全分辨率生成最終產(chǎn)品，這一切都可以在同一個(gè)模型內(nèi)完成。這樣的特性不僅增強(qiáng)了內(nèi)容創(chuàng)作的靈活性，而且極大地簡(jiǎn)化了視頻內(nèi)容的制作過(guò)程。

Sora改進(jìn)的視頻構(gòu)圖和框架

Sora模型在視頻構(gòu)圖和畫面框架方面也有了顯著的提升。由于模型是在原始比例上進(jìn)行訓(xùn)練的，Sora能夠更精準(zhǔn)地理解和設(shè)計(jì)視頻的構(gòu)圖和框架。與那些將所有訓(xùn)練視頻裁剪成方形格式的模型不同，Sora能夠更有效地保持視頻主題的完整性。例如，在處理寬屏視頻時(shí)，Sora能夠確保主要的內(nèi)容始終位于觀眾的視野中心，而不是像其他模型那樣只展示主題的一部分。這樣的能力不僅增強(qiáng)了生成視頻的視覺品質(zhì)，也優(yōu)化了觀眾的觀看體驗(yàn)。

語(yǔ)言理解與視頻生成

Sora對(duì)文本的深入理解是其一項(xiàng)顯著特性。借助先進(jìn)的文本轉(zhuǎn)化為詞向量的技術(shù)，能夠精確解讀用戶的文本指令，并基于這些指令創(chuàng)造出充滿細(xì)節(jié)和情感的角色以及栩栩如生的場(chǎng)景。這種功能使得從簡(jiǎn)短的文本提示到復(fù)雜視頻內(nèi)容的轉(zhuǎn)變更加順暢和自然，無(wú)論是復(fù)雜的動(dòng)作序列還是微妙情感的表現(xiàn)，Sora都能夠精準(zhǔn)把握并呈現(xiàn)出來(lái)。

多模態(tài)輸入處理

Sora還能夠接收靜態(tài)圖像或現(xiàn)有視頻作為輸入，進(jìn)行內(nèi)容的擴(kuò)展、填充缺失的幀或進(jìn)行風(fēng)格轉(zhuǎn)換等任務(wù)。這種多功能性極大地拓寬了Sora的應(yīng)用領(lǐng)域，它不僅能夠用于從頭開始創(chuàng)作視頻內(nèi)容，還能夠用于對(duì)現(xiàn)有內(nèi)容的二次加工，為用戶提供了更多的創(chuàng)作靈活性和想象空間。

人工智能，AIGC 的開發(fā)使用離不開算力，模型的訓(xùn)練，結(jié)果的推理都需要不同的算力支撐，如果有AI服務(wù)器，算力租賃和模型訓(xùn)練等問(wèn)題，都可以后臺(tái)私我！

————————————————

版權(quán)聲明：本文為博主原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。

原文鏈接：計(jì)算機(jī)視覺的應(yīng)用23-OpenAI發(fā)布的文本生成視頻大模型Sora的原理解密-CSDN博客

上一篇：sora人工智能對(duì)人類的影響下一篇：房地產(chǎn)危機(jī)怎么救？

版權(quán)所有：南昌左傳實(shí)業(yè)有限公司　　地址：南昌市南京東路1698號(hào)　　手　機(jī)：13687088555(張經(jīng)理)
電　話：0791-86452423　　傳　真：0791-86452423　　郵　箱：43955769@qq.com　　技術(shù)支持：QQ:7113911　　【后臺(tái)登陸】　備案號(hào)：贛ICP備17015195號(hào)

中文字幕精品免费_日韩AV无码二三区_在线观看免费av福利_国产刺激久久免费