精品免费国产-精品免费国产一区二区三区-精品免费久久-精品免费久久久久久成人影院-精品免费久久久久久久

歡迎來到 禮儀詞典網 , 一個專業的禮儀知識學習網站!

加入收藏

您所在的位置:首頁 > 資訊 > 最新資訊

最新資訊

Sora為何沒能誕生在中國?

分類: 最新資訊 禮儀詞典 編輯 : 禮儀知識 發布 : 03-17

閱讀 :456

沒聲音,再好的戲也出不來。在提示框內輸入“中世紀小號手”,打開音效開關鍵,點擊生成視頻,一個4秒的AI生成視頻便躍然于屏幕上。人們不僅能看到一個身穿中世紀宮廷服飾樂手的畫面,還能聽到樂手吹小號的聲音。北京時間3月10日,硅谷一家AI初創公司Pika lab(以下簡稱Pika),推出自研視頻生成模型的新功能,可同時生成畫面和聲音。此前,人們看到的所有AI生成的視頻都沒有聲音。此功能尚未向公眾開放,但足以讓人見識到AI的進化之快。今年2月16日,OpenAI發布文字生成視頻的大模型Sora。根據簡單幾句提示,Sora便能準確“理解”文本,生成長達60秒的視頻,引發全球關注。一些業內人士將Sora的問世稱為視頻生成領域的“ChatGPT 時刻”。當地時間3月8日,歷經幾個月的“宮斗”大戲后,OpenAI的創始人山姆·奧特曼重回董事會,繼續推進公司實現通用人工智能(AGI)的使命。Sora的橫空出世到底意味著什么,我們距離AGI還有多遠,AI的下一步將走向何方?OpenAI的創始人山姆·奧特曼在社交平臺發出的由文字生成的視頻。圖/IC“大力出奇跡”的再次驗證發布Sora之前,OpenAI并未向外界透露入局文生視頻的想法。直到今年年初,全球文字生成視頻賽道的焦點,仍集中在Pika、Runway、Stability AI等初創企業身上。去年11月底,Pika初代文生視頻產品發布,用戶輸入關鍵詞“馬斯克穿著太空服,3D動畫”,卡通版的馬斯克隨即出現,在他身后,美國太空探索技術公司(SpaceX)的火箭升入空中,視頻只有三四秒,清晰度和流暢度已遠超其他產品。彼時,Pika聯合創始人孟晨琳接受采訪時分析說,“為什么GPT沒有用于視頻,可能因為他們的資源、人力都集中到了文本模型上。”兩個多月后,Sora驚艷亮相。其技術負責人最新展示的視頻中,輸入“穿越博物館的飛行之旅,沿途欣賞眾多繪畫、雕塑以及各式各樣的美麗藝術作品”,AI便生成60秒的長視頻,人們跟隨鏡頭,從空中俯沖至博物館內,在多個畫廊、房間穿梭,還會從雕塑邊擦身而過。新加坡南洋理工大學計算機學院助理教授劉子緯對《中國新聞周刊》說,OpenAI入局文生視頻賽道,并不令人意外。OpenAI始終標榜要實現通用AGI。“朝著AGI發展,AI不僅要‘讀萬卷書’,還要看到世界上的種種物理現象。OpenAI一定會在文本、圖像、音頻、視頻等多模態領域發展。視頻是發展多模態最重要的一步,包含了世界運轉的基本規律。”Sora生成的視頻效果仍令劉子緯感到震撼。劉子緯3年前便開始研究AI視頻生成。相較文字和圖片,AI視頻生成的技術難度最大,對視頻數據的分辨率、內容流暢度、一致性要求高,算力需求大。Sora之前,市面上的同類型產品,大多生成的視頻清晰度不高,還會出現畫面閃爍、人物變形的情況。Sora生成的視頻能保持很好的三維一致性。生成的內容,比如水、云的運動,小鳥在林中飛翔等,主體與環境的交互能一定程度上展現物理世界的真實性。OpenAI在其官網發布的Sora的技術報告中,強調了Diffusion Transformer(基于Transformer架構的擴散模型,以下簡稱DiT)的重要性,這是由兩種模型合成的新模型。兩種模型的“合璧”是Sora得以成為爆款的關鍵。Diffusion(擴散模型)是一種有效的內容生成模型,此前在圖片生成領域已展現出強大能力,能生成逼真且高質量的圖片。Transformer是GPT這類大語言模型的基礎架構。ChatGPT能對答如流,便是因為這一架構能通過預測下一個token(文本的最小單元)出現的概率,更好捕捉上下文信息,生成更符合邏輯的文本。清華大學智能產業研究院首席研究員聶再清對《中國新聞周刊》解釋稱,OpenAI進行視頻數據訓練的一大“秘籍”,就是將不同尺寸、分辨率的視頻拆分成patch(視覺補丁,相當于token),然后直接輸入模型學習。OpenAI官方介紹,Sora可以采樣寬屏1920x1080p、垂直屏1080x1920p及介于兩者間的所有視頻。此外,OpenAI還為訓練的視頻集中生成字幕,可以提高文本保真度及視頻的整體質量。但業內共識是,DiT模型是個公開的秘密,底層技術上,Sora并沒有創新。早在2022年年底,DiT就被提出。當時,美國加利福尼亞大學伯克利分校博士生威廉·皮布爾斯和紐約大學計算機學院助理教授謝賽寧聯合發表論文,在文生圖領域,創造性地將Transformer與Diffusion融合,一度引發學界轟動。劉子緯向《中國新聞周刊》介紹,去年起,國際上已有團隊在探索利用DiT架構訓練文生視頻模型,包括其所在團隊。“這是很自然的選擇。”Sora官網發布的部分由文字生成的視頻(截圖)。彼時,文生視頻模型有多條技術路徑,但受限于算力和數據,DiT路徑尚未走通,學術團隊和創業公司難以全力投入。OpenAI選擇了一條少有人走的路。在劉子緯看來,“Sora背后,與其說是模型的突破,不如說是OpenAI大模型系統設計的勝利”。大模型系統設計,涵蓋訓練數據的細節,OpenAI在算力、人才組織架構上的積累等。這些因素最為關鍵,但OpenAI在公開信息中幾乎只字未提。Sora復制了ChatGPT的成功經驗,再次驗證了“大力出奇跡”的暴力美學,以及OpenAI“遇事不決,擴大模型”核心價值觀的可行性。在清華大學計算機系副教授、人工智能初創公司壁智能聯合創始人劉知遠看來,Sora像是AI視頻生成的“GPT-3時刻”,它證明數據的價值,高質量、大規模的數據能訓練出一個文生視頻模型。中國科學院深圳先進技術研究院數字所研究員董超長期研究底層機器視覺,目前,正與團隊研發多模態模型。他向《中國新聞周刊》強調,選取哪些數據、如何篩選、如何標注,直接影響模型生成的效果。想要大模型生成高質量的視頻,要求訓練數據分辨率高,場景細節豐富,人、物、景占比協調等,如果一些場景轉場太快,也要被剔除。Pika聯合創始人孟晨琳也提到,一些電影中有很多漂亮的視頻,但如果大部分都是人站著說話,動作單一,也不是訓練大模型的優質數據。此外,版權問題,也會影響企業收集到足夠多高質量的視頻。在董超看來,數據背后,人才團隊極為重要,“大模型的訓練絕不是看上去那么簡單,沒有經驗根本調不通,通常要團隊里最優秀的人來做這件事。國外許多科技公司的頂尖AI人才,都會在一線親自處理數據,寫代碼”。據OpenAI官網介紹,Sora的核心團隊共15人。公開資料顯示,團隊的成立時間尚未超過1年,三位研發負責人中,兩人都是2023年從加利福尼亞大學伯克利分校博士畢業,其中一人便是前述DiT論文的作者之一威廉·皮布爾斯,另一位蒂姆·布魯克斯曾在谷歌工作近兩年,在伯克利讀博期間,主要研究方向就是圖片與視頻生成。布魯克斯和另外一位研發負責人阿迪亞·拉梅什都是OpenAI開發的文生圖模型DALL-E 3的創造者。從GPT-3、GPT-3.5再到GPT-4,OpenAI積累了豐富的大數據訓練、生成與治理能力,這是支持Sora的“基礎設施”。“Sora團隊只有十幾人,就說明,OpenAI給他們提供了重要的底層支持,組織架構、人才管理、基礎設施,這才能讓有想法的人,真正做出能影響世界的成果。”劉子緯對《中國新聞周刊》說。通用人工智能加速到來?現階段的Sora并不完美。OpenAI官網公開的生成視頻中,Sora會產生不符合常識的幻覺,比如生成的椅子會變形,水杯摔碎前,水已灑在了桌面,明顯不符合物理學原理。公開的技術報告中,OpenAI寫道:Sora可能難以準確模擬復雜場景的物理原理,或難以理解因果關系,分不清左右,也可能難以精確描述隨著時間推移發生的事件等。這與ChatGPT一本正經地胡說八道相似。清華大學人工智能研究院常務副院長、計算機系自然語言處理與社會人文計算實驗室負責人孫茂松向《中國新聞周刊》解釋,這是基于Transformer架構模型的“硬傷”。科學家曾希望人工智能像人類一樣能“演繹推理”,但努力多年,依然無法實現。Transformer成功讓AI產生了令人驚艷的生成能力。但硬幣的另一面,它不會像人類一樣思考,會產生幻覺。在孫茂松看來,Sora目前的另一個短板在于可控性差。如果讓Sora生成一個復雜的場景,比如根據寫好的劇本或小說生成電影,Sora目前還做不好。Sora模型的運行方式與人類思考方式截然不同,模型根本不知道有物體存在。孫茂松舉例說,比如要生成的故事中有5個人,有不同的故事線。Sora之后有可能只生成了4個人,或者隨著時間發展,無法準確連貫地呈現某個人應做的動作。Pika lab官網展示的由文字生成的視頻(截圖)。但從另一層面看,1分鐘的視頻雖然不長,對AI文生成視頻已算巨大飛躍。“如果按照目前生成的水平,將時長從1分鐘延長到5分鐘,只需增加算力就可實現。本質上是讓模型不斷地預測下一幀。”孫茂松說,但如果要對生成視頻進行精準地控制,就不只是算力的問題,對算法也提出了更高要求,技術還要發展若干年,如果這一問題解決,這將是超越ChatGPT的突破。Sora引發業內轟動,更在于OpenAI將其定義為“世界模擬器”。OpenAI寫道:經過大規模數據訓練后,Sora涌現了新的能力,能模擬一些來自物理世界的人、動物和環境的某些方面。比如Sora生成一個人在吃漢堡,不僅會呈現人吃漢堡的動作,還會考慮到生成咬痕。這些能力的涌現,是在沒有明確數據標記的情況下產生的。OpenAI堅信,持續擴大視頻模型,是開發高性能物理和數字世界模擬器的有力路徑。劉子緯解釋,OpenAI強調世界模擬器,與其要實現AGI相關。但Sora是不是世界模擬器,仍存在爭議。英偉達人工智能研究院首席研究科學家Jim Fan表示,“Sora能模擬出無數個真實或虛構的世界”。圖靈獎得主、Meta首席科學家楊立昆認為,“通過生成像素來對世界進行建模是一種浪費……注定會失敗。”上海人工智能實驗室領軍科學家林達華表示,“Sora 是一個視頻生成方面的里程碑式突破。但是生成逼真的視頻,跟掌握物理規律,以至實現 AGI,那是完全不一樣的事情,之間有著巨大的鴻溝……我們測試 GPT-4 越深入,就越覺得人類離 AGI 還很遙遠。”目前,學界和業界對于什么是世界模擬器,還沒有定論。這背后更本質的分歧,還在于如何定義AGI。以楊立昆為代表的科學家認為,AI要系統去理解人類世界的運作原理,而不是一臺學習了大量人類知識的超級機器。以OpenAI為代表的一方認為,AI不用知道背后的物理規律,只要能不斷地很好地預測下一幀,還原世界的變化,就能幫助人類達到 AGI。Runway官網展示的由文字生成的視頻(截圖)。今年全國兩會中,對于何為AGI,全國政協委員、北京通用人工智能研究院院長朱松純給出的答案是:人工智能在日常物理和社會場景中能完成無限任務、能自主發現任務,即“眼里有活”、有自主價值驅動。今年1月底,北京通用人工智能研究院在京展出了全球首個通用智能人的雛形——小女孩“通通”。朱松純稱,“通通”具備三四歲兒童完備的心智和價值體系,目前還在快速迭代中。在他看來,日常生活中最習以為常的能力背后,其實都是AGI要研究的核心技術問題。“實現通用人工智能,關鍵在于為機器‘立心’。”一個共識是,Sora一定程度上體現了真實世界的物理規律。“但并沒有上升到成為它的行為準則,讓它能理性地去建構世界。”劉知遠對《中國新聞周刊》說。劉知遠并未完全否認Sora這一模式,他類比人類理解世界的方式,同樣分為不同層次和階段。人們上學前,通過與世界交互,比如扔一個蘋果,蘋果掉在地上,從感性上感知重力;上學后,從課本上學習萬有引力、相對論等物理規律,認知會升華。當一個模型初步具備了語言能力,并具備了較強的感性知識,像OpenAI這樣不斷擴大模型,是否是走向世界模擬器的唯一出路?劉知遠認為,從長期來看,“大力出奇跡”顯然不可持續。科學家有沒有可能通過其他方式,讓大模型建立起對世界的理性認識,更值得探討。劉子緯也提到,如果短期內,OpenAI希望Sora做得更好,可能需要兩條腿走路,讓模型靠數據驅動的同時,輸入一些教科書里的物理世界規律等理論知識,探索更多可能。2022年下半年,孫茂松便在許多場合預測,多模態大模型,尤其是文生視頻模型在2024年會迎來一個突破。他向《中國新聞周刊》解釋,從文字、圖片再到視頻生成,這是多模態技術合乎邏輯的走向,但接下來AI會在哪一領域突破,他不敢確定。具身智能,可以理解為在物理世界運行的不同形態的機器人,融合了AI各種能力,被不少人看作AI的下一個進化方向。當地時間3月1日,OpenAI公開發文稱,正在和人形機器人初創公司Figure合作,開發下一代人形機器人的人工智能模型,將他們的多模態模型擴展到機器人感知、推理和交互。在孫茂松看來,多模態大模型可以通過預測下一個token,判斷機器人接下來的行動軌跡,這在專用場景有可能實現。但現實世界太復雜了,能否在通用場景下走通,還要打個問號。與此同時,Sora的出現,再度加深了人們對深度偽造的恐慌。AI生成視頻的門檻變得更低,足以以假亂真,鑒定難度也在增大。劉子緯向《中國新聞周刊》提到,近兩年,他們團隊也曾和一些機構合作,做深度偽造的檢測,“當時相對好辨別,一個普通人如果對著視頻看足夠久,可以發現其中的破綻”。目前,Sora生成的視頻雖有破綻,但質量明顯提升。在劉子緯看來,整個社會需要提升對AI安全性的認識,學界或業界目前可以做的是,在設計時就提高對AI安全性的考量,比如為AI生成的視頻添加數字水印或用于安全認證的二維碼等。ChatGPT的發布曾引發全球對生成式AI監管的討論,因此,OpenAI如今更加謹慎。設計大模型時,為了提升安全性,技術人員會與“紅隊”人員(生成錯誤信息,仇恨、偏見等內容的專家)合作,對模型進行對抗性測試,以便從中發現系統中潛在的危險性,以及可能被濫用的種種可能。放棄“打籃球”,學會“下圍棋”“OpenAI在不斷前進,Sora讓大家又一次感受到,他們沒有停下,而且,前進的速度看似更快。我們之間的差距仍然存在。”國內知名大模型公司智譜AI相關負責人在接受《中國新聞周刊》采訪時坦言,Sora發布后,公司最關注的是,認清差距和方向,繼續追趕。劉知遠也向《中國新聞周刊》提到,中美AI的差距始終存在,中國也面臨算力等“卡脖子”問題。不過,與十年前相比,近年來,中國在AI人才儲備、科研成果等方面,與美國的差距已經縮小。從全球范圍看,其他國家乃至美國的其他科技公司,也在追趕OpenAI。OpenAI的先發優勢決定了,其他競爭者想要復刻Sora,并不簡單。在劉子緯看來,如果只是從模型層面復刻并不難,Dit有開源代碼,許多團隊也都探索過。但模型就像冰山一角,冰山底下很龐大,如何把聰明的人才聚集在一起——有人擅長做數據,有人擅長訓練模型等,每個人發揮出最大的聰明才智,才是關鍵。劉子緯估計,如果想要復刻Sora的80%,認真搭建底層系統,大概在1年內能實現。中國為何沒有做出Sora?在董超看來,首先是人才的差距。Sora團隊的幾位博士生都有在一線訓練文生圖大模型的豐富經驗,這類人才在國內,一個人往往要帶幾十人的團隊,很難在一線。其次,OpenAI人均算力資源量非常大,OpenAI團隊共700多人,即便是內部的小團隊,也可以用幾千張GPU(圖形處理器),嘗試各種創新方案,OpenAI也有足夠的耐心。今年2月,《華爾街日報》曝出,OpenAI正計劃募資高達5萬億到7萬億美元,打算親自下場造芯片,為GPT的發展打造更充足的算力。相比之下,國內算力資源緊張,如果一個團隊拿到1000張GPU,相當于占用了很大的資源,所做的項目會被外界格外關注,如果3~6個月還在訓練最初的模型,不出成果,資源很可能就會被收走,這導致研發人員很難冒險做一些創新。2月21日,谷歌發布新一代開源模型Gemma。董超還提到,正確的道路往往風險大、周期長,一般團隊很難敢做這樣的決策。“文生視頻模型就是典型案例,OpenAI走的就是完全純粹的文生視頻模型,重新訓練,收集大量數據,經過近一年嘗試才出成果,一旦成功,必然是顛覆性的。”相比之下,國內科研氛圍浮躁,想三五個月就趕超國外,這樣只能在人家的工作上修修補補,套殼做山寨,也容易造成內卷,難以形成技術壁壘。2022年底, ChatGPT爆紅之后,國內涌現出上百家大模型廠商,試圖打造中國版的ChatGPT。但一年后,在大語言模型上中國企業仍未真正追趕上GPT-4。在劉知遠看來,如果一些投資者或從業者因為驚嘆Sora的能力,只看到表象,便一窩蜂要做中國版Sora,那只是頭痛醫頭,腳痛醫腳。如果國內只是跟隨OpenAI在商業模式上的創新,不在底層技術上持續投入,那中國就永遠做不出GPT-4和Sora。“哪怕我們是復制,也要在對的方向上追趕。”劉知遠說。在董超看來,不要高估Sora的作用,低估OpenAI的技術儲備,更要關注其為何能產出Sora背后的邏輯。如果只是盯著Sora本身,很可能一年后,OpenAI又會扔出另一個“炸彈”。趕超OpenAI并不容易。自2019年OpenAI轉為營利性公司后,公司就放棄了開源策略,發布的GPT-3、GPT-3.5、GPT-4都不再開源,甚至不再公開模型參數。OpenAI甚至被埃隆·馬斯克戲稱為ClosedAI。今年2月底,OpenAI原董事會成員馬斯克甚至起訴OpenAI及公司CEO和總裁,馬斯克斥責OpenAI違背“初心”,要求OpenAI恢復開源并給予賠償。隨后,OpenAI回應稱,隨著大模型能力的增強,如果開源,會讓一些不道德的人使用大量硬件來構建不安全的人工智能,因此,減少開放是有意義的。大模型是否開源,在國內外引發巨大爭議。AI的發展離不開開源,依托于開發者社區,全球科研人員都能持續貢獻代碼,幫助解決問題,打造更透明的人工智能,并對抗大公司的壟斷,OpenAI創立時也是開源的堅定支持者。但閉源大模型路徑能集中公司的資源,通過內部用戶數據的迭代實現持續發展。AI未來的發展方向是全球共同關注的話題。圖/視覺中國去年以來,Meta、法國新興AI公司Mistral等AI公司相繼推出開源大模型。2月21日,谷歌發布號稱“全球性能最強大、輕量級”的新一代開源模型Gemma,都有向OpenAI宣戰的意味。不過,公認的現實是,目前,開源模型的實力仍不及閉源模型,甚至有從業者曾直言,開源模型永遠無法趕超閉源模型。在劉子緯看來,開源大模型有重要價值,它就像電力系統一樣,為更多研發者提供一個“基礎設施”,來對抗大科技公司的壟斷。他判斷,開源模型的發展會越來越好,盡管達不到閉源模型的水平,但未來開源大模型在某些特色能力上可能會趕超閉源大模型。多位受訪者提到,與美國相比,中國的優勢在于,商業應用場景多,國內一些大模型廠商可以更好思考如何服務用戶,但仍需要有企業在自研大模型上修煉好“內功”。沿著當前大模型“大力出奇跡”的趨勢,OpenAI“技術爆炸”不會長期持續。雖有先發優勢,但不代表它無法被追趕,如果一步步打好基礎設施,未來差距會逐漸彌合。2023年一次關于科技創新的討論中,朱松純提到,如果繼續沿用過去“跟跑—并跑—領跑”的路線,就形成一種“打籃球”的科研模式。籃球代表科技熱點,控球方始終是科技強國,我們的隊伍一直追著籃球滿場跑,不但會失去定力,頻繁更換方向與技術過程中還會跑散了隊伍。更重要的是,控球方已完成了軟硬件生態的布局,形成了新興產業“卡脖子”勢態。朱松純認為,要放棄“打籃球”的戰術,學會“下圍棋”的戰略,注重全局,不盲目“跟跑”當前以“大數據、大算力、大模型”為特征的人工智能熱點,要從一味忙于“補短板”的防御戰略,轉為同時注重“構筑長板”的進攻戰略,獨辟蹊徑,探索一條自己的創新道路。發于2024.3.18總第1132期《中國新聞周刊》雜志雜志標題:Sora將把AI帶向何方?記者:楊智杰編輯:杜瑋
最新資訊 03-17

下一篇:在國內HR眼里,英國什么樣的大學才算的上世界名校? 下一篇 【方向鍵 ( → )下一篇】

上一篇:頭顯賣2.5萬元!蘋果VisionPro應用商店網頁版上線 上一篇 【方向鍵 ( ← )上一篇】

主站蜘蛛池模板: 国产精品亚洲午夜一区二区三区 | 欧美一级久久久久久久大 | 中文字幕日韩欧美一区二区三区 | 特黄特色一级aa毛片免费观看 | 精品国产一区二区三区www | 在线观看高清免费 | 我要看一级毛片 | 色婷婷婷丁香亚洲综合不卡 | 99精品免费在线 | 亚洲国产品综合人成综合网站 | 久久三级国产 | 日产国产欧美视频一区精品 | 乱淫的女高中h | 亚洲国产精品一区二区第一页 | 欧美视频一区二区专区 | 亚洲精品视频区 | 欧洲免费极品videos | 免费国产视频 | 小明免费视频 | 欧美黑人巨大白妞出浆 | 黑人激情视频 | 精品一区国产 | 日本在线黄色 | 天天影视欲香欲色成人网 | 成年女人a毛片免费视频 | 91在线免费公开视频 | 俄罗斯一级毛片免费播放 | 91久久综合九色综合欧美亚洲 | 国产欧美另类久久久品 | 香蕉视频网址 | 99欧美视频 | 国产一级性生活片 | 免费黄色在线 | 国产精品亚洲片在线不卡 | 日本中文字幕乱码aa高清电影 | 亚洲欧洲国产视频 | 一 级 黄 色蝶 片 | 欧美一级日韩 | 国产精品一区二区三区高清在线 | 久久精品视频在线 | 人人狠狠 |