日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

首頁 熱點 要聞 國內(nèi) 產(chǎn)業(yè) 財經(jīng) 滾動 理財 股票

全球百事通!逐浪AIGC?|大模型“開源”成勢 許可費厘定和數(shù)據(jù)壁壘成發(fā)展關鍵

2023-06-14 06:52:11 來源 : 21世紀經(jīng)濟報道

南方財經(jīng)全媒體記者江月 上海報道自從ChatGPT走紅以來,不少企業(yè)和機構(gòu)競相開發(fā)大語言模型。然而,這種分散資源、能耗巨大的開發(fā)模式正為業(yè)內(nèi)反思,“開源”成為一種替代性出路。

開源大模型正在發(fā)展中,它能提供“巨人的肩膀”,也能促進技術(shù)破壁和跨界交流。5月末,“獵鷹(falcon)”模型進行開源,迅速在全球開發(fā)者中掀起使用旋風。

6月12日,中國國產(chǎn)開源大模型也又添一子。智源研究院發(fā)布了“悟道3.0”,進入全面開源新階段,反映開源形式對大模型的推動力量受到更多重視。


【資料圖】

然而,“開源”也有其弊端。南方財經(jīng)全媒體記者在采訪中了解到,“獵鷹”模型的開源帶來了商業(yè)權(quán)益的爭議,“開源”是否也可通過許可證方式進行利潤分割?此外,“開源”的技術(shù)范疇應包括哪些?業(yè)內(nèi)期盼的重點開源資源是什么?受訪者表示,“開源”是業(yè)內(nèi)迫切的需求,但發(fā)展階段仍然比較初期。

開源下的商業(yè)爭議

自從5月25日宣布對研究和商用領域進行開源以來,“獵鷹 40B”大語言模型便成為了軟件屆最熱門的大模型之一。不過直到6月上旬,圍繞這種創(chuàng)新開源形式的商業(yè)化許可證仍正在引發(fā)業(yè)內(nèi)激烈的爭議。

以往多數(shù)已開源的大模型僅對研究目的開源,而獵鷹 40B的商用開源具有“打破壁壘”的意義。此外,通過包含推理、一小組科學問題、常識推理、真實性等在內(nèi)的系列測試后,獵鷹 40B和DeepMind、Google和Anthropic的最先進大語言模型表現(xiàn)相當。

因此,獵鷹 40B在開源社區(qū)Hugging Face的開源模型排行榜上迅速登頂成為人氣第一名,直至6月13日,這個排名也不曾動搖。

“獵鷹 40B”開發(fā)者是阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所(Technology Innovation Institute,簡稱TII)。該所介紹,該模型參數(shù)(parameter)量為400億,可見它一反此前大模型追求大參數(shù)的趨勢,走了一條不尋常的道路。

TII稱,“獵鷹 40B”特別關注數(shù)據(jù)質(zhì)量,數(shù)據(jù)管道擴展到數(shù)萬個CPU內(nèi)核進行快速處理,通過過濾和重復數(shù)據(jù)刪除,從而提取高質(zhì)量內(nèi)容。

這個模型在今年3月首次亮相,但在5月25日進行了開源,這意味著TII提供了對模型權(quán)重的訪問。“在當前的人工智能生態(tài)系統(tǒng)中,開發(fā)人員發(fā)現(xiàn)提供模型權(quán)重訪問的LLM更具吸引力,因為與沒有模型權(quán)重相比,它們提供了增強的微調(diào)功能?!盩II在官網(wǎng)上寫道。

為何采取開源方式?TII稱,開源技術(shù)允許全球開發(fā)人員分享他們的專業(yè)知識,從而促進軟件增長和增強,促進協(xié)作并推動創(chuàng)新;它還促進了透明度,使用戶能夠檢查和驗證代碼的安全性和可靠性。

不過,在這個開源舉動之后,“獵鷹”陷入一場爭議。按照最初的商用協(xié)議,TII規(guī)定對獵鷹 40B“收入超過100萬美元的任何商業(yè)應用要收取10%的授權(quán)費”。

開源軟件通常使用的是Apache 2.0軟件許可證。AI數(shù)據(jù)及模型解決方案供應商工程師林涌告訴南方財經(jīng)全媒體記者:“Apache 2.0是一種廣泛使用的開源協(xié)議,它允許使用者進行使用、復制、修改、分發(fā)甚至商用,唯需要包含原著的license(著作權(quán))信息。”由于這種共享屬性,一般來說,業(yè)內(nèi)稱原著作者為“貢獻者”。

林涌指出,TII當時宣稱自己使用Apache 2.0,但又修改了其中關鍵的部分,令業(yè)界嘩然。因此,甚至有業(yè)內(nèi)聲音認為,修改后的獵鷹 40B不再具有真正的開源性質(zhì)。

出于對業(yè)內(nèi)反對聲音的回應,TII已經(jīng)在5月31日宣布,“獵鷹 40B”免除所有商業(yè)和研究用途的版稅(royalty),以應對全球?qū)Π菪匀斯ぶ悄艿男枨蟆?/p>

不過,也有業(yè)內(nèi)評價指出,由知名游戲開發(fā)商Epic開發(fā)的開源游戲引擎“Unreal Engine(虛幻引擎)”也采取了類似的許可證方法。虛幻引擎的許可證分為標準化和定制化兩種,在標準化許可證下,小型項目、業(yè)余愛好者、學習者可以訪問虛幻引擎的所有特性和材料;在企業(yè)項目和定制化項目下,收取每年每席1500美元或者協(xié)商后的其他價格。通過這種方法,基于虛幻引擎進行的游戲開發(fā)商給Epic繳納了大量使用費。

虛幻引擎的做法,給基礎大模型開發(fā)商平衡成本提供了一條思路,但顯然在大模型界,這種思路的具體實行還沒有達成共識。

“開源”關鍵點為何?

在AIGC的浪潮中,“開源”的使用群體正在變得越來越強大。激發(fā)業(yè)界使用“開源”,也需要業(yè)內(nèi)共創(chuàng)良好的互助環(huán)境,并爭取寶貴的開源資源。

“開源需求應該說迫在眉睫。”某通訊公司開源戰(zhàn)略總監(jiān)陳實(化名)告訴南方財經(jīng)全媒體記者,“面對搶跑的海外巨頭,其他人不能只做跟隨者,也要團結(jié)起來做創(chuàng)新者。”

隨著GPT-4未能公布訓練集內(nèi)容,行業(yè)龍頭OpenAI被冠上一個諷刺的外號“ClosedAI”。而大模型的開源之路,似乎變得有點堵塞。

近期,智源研究院副院長兼總工程師林詠華也指出了開源大模型的必要性?!霸诨A大模型上重復‘造輪子’,是很昂貴的,不僅是算力和數(shù)據(jù)本身很昂貴,而且還耗費了大量的電力能源?!彼赋觥_M一步地,每個基礎大模型還要不斷進行版本迭代,意味著上述成本和投入要持續(xù)增加。

不過現(xiàn)實情況是,已開源、能商用的基礎大模型通常沒有那么好用。對此問題,陳實表示:“可以走兩條路,開源的走to B(面向企業(yè)),閉源的走to C(面向個體)?!彼忉尫Q,to C的意思是“定制化”,根據(jù)使用者公司的特定需要、內(nèi)部數(shù)據(jù)集進行模型開發(fā)訓練,從而最終產(chǎn)品能產(chǎn)生“生產(chǎn)力”;to B的意思是“普及化”,給業(yè)界用于學習和代碼參考,或者用于開發(fā)一些簡單應用,例如“讓每個企業(yè)都用上對話機器人”。

為何開源會在質(zhì)量上產(chǎn)生參差、如何才能提升開源質(zhì)量呢?目前,業(yè)界將問題關鍵指向了“數(shù)據(jù)開源”。

算力、算法、數(shù)據(jù)被稱為AI的“三駕馬車”,前期生成式AI爆發(fā)中,業(yè)內(nèi)對于算力、算法關注度較高,但相對忽視了數(shù)據(jù)的重要性?!矮C鷹”模型此次反而提醒了數(shù)據(jù)質(zhì)量在模型質(zhì)量中的關鍵作用。

基于一萬億個tokens和400億個參數(shù)訓練出來的獵鷹 40B,不僅在性能媲美其他高性能大語言模型,而且使用的訓練算力只相當于GPT-3的75%、Chinchilla的40%、谷歌PaLM-62B的80%。

“其實模型只是數(shù)據(jù)的一個投影,數(shù)據(jù)質(zhì)量的高低具有決定性的因素?!标悓嵵赋觥?/p>

然而,為何高質(zhì)量數(shù)據(jù)難以獲得?陳實告訴南方財經(jīng)全媒體記者,這主要因為數(shù)據(jù)天然的隱私性。

“真正高質(zhì)量的數(shù)據(jù),存在于公司里、在一線機構(gòu)里,但它們普遍都受到數(shù)據(jù)墻的保護?!标悓嵔忉?。例如,醫(yī)院數(shù)據(jù)是生物制藥企業(yè)最為渴求的一線資源,但這顯然牽涉病人隱私,也有后續(xù)使用上的不少隱患。

眼下,大模型開源已經(jīng)在底座、訓練方法和工具鏈上相繼實現(xiàn),未來一大核心將在“數(shù)據(jù)開源”。

“一大問題是,龍頭人工智能開發(fā)公司是否愿意參與到數(shù)據(jù)開源中?!标悓嵄硎緫岩桑捎邶堫^公司往往能占據(jù)行業(yè)絕大多數(shù)的利潤,它們通常很難與同行達成合作、分享成果。

建立第三方機構(gòu)作為數(shù)據(jù)中介,可能是“數(shù)據(jù)開源”的一種解決思路?!皵?shù)據(jù)中介可以一定程度消除信任問題,也能增加數(shù)據(jù)的流通性?!标悓嵄硎尽?/p>

(應受訪者要求,林涌、陳實為化名)

關鍵詞:
相關文章

最近更新
精彩推送