2023-05-25 21:04:21 來源 : 21世紀經(jīng)濟報道
21世紀經(jīng)濟報道記者駱軼琪、郭美婷 廣州報道
回看人工智能發(fā)展的歷史浪潮,上一次備受關注的是由深度學習、CNN(卷積神經(jīng)網(wǎng)絡)技術突破,實現(xiàn)對文字和圖像識別的良好成果。但相比之下,此次由Transformer架構推動的AI大模型成效更是為人驚艷。
(資料圖)
近日,香港科技大學(廣州)(以下簡稱“港科廣”)信息樞紐院長、講座教授陳雷接受21世紀經(jīng)濟報道記者專訪,談到當前AI大模型構建的核心要點,后續(xù)競爭賽道以及由此對學科教育體系帶來的影響和變革。
陳雷教授是IEEE(電氣與電子工程師協(xié)會)會士,ACM(美國計算機協(xié)會)杰出科學家,也是IEEE旗下專注計算機領域數(shù)據(jù)挖掘方向TKDE期刊主編。
他認為,當前構建AI大模型面臨著數(shù)據(jù)、算法模型、算力三方面難題,可以考慮通過算力交換、數(shù)據(jù)共享、軟硬件協(xié)同等方式幫助實現(xiàn)能力優(yōu)化,但當前在執(zhí)行中還面臨一定挑戰(zhàn)。而AI大模型興起對學科教育和人才培養(yǎng)也提出新的思考。
陳雷教授分析道,此前深度學習和CNN主要是在解決時序數(shù)據(jù)、圖像等方面取得了很大成績。但是在解決長文本,尤其是語言文本理解、長序列、視頻的時候,就顯示出了弊端。
Transformer架構解決了這些弊端,是在于其通過encoder-decoder(編碼-解碼模型)方式,在另一個空間生成內(nèi)容,再通過人類反饋強化學習的方式構建獎勵模型,由模型學習其中的反饋打分機制,因此可以有廣泛的應用空間,也打破了原本壁壘,對長序列、長文本可以有更好理解。
尤為重要的是,Open AI引入1000多名語言學家對生成的文章進行打分。其要點就在于用Transformer架構+強化學習的方式,讓大模型學習人類對所生成內(nèi)容的打分機制,那么機器可以自己對生成的內(nèi)容進行打分,就有無限多“高分”的內(nèi)容被生成出來。
這也導致AI大模型容易出現(xiàn)“胡言亂語”的現(xiàn)象:因為GPT的工作機制,就是把內(nèi)部生成分數(shù)最高的內(nèi)容作為答案輸出,不會不給出答案,且這些預訓練模型利用的訓練信息是收錄在某一個時間段內(nèi),因此就會出現(xiàn)并不正確的信息。
但由此意味著在落地到場景中會面臨挑戰(zhàn)。比如在對精度要求高的自動駕駛場景,容錯機制會更為嚴苛。實際上業(yè)界認為,GPT此番成果更多是驗證了該生成式AI的可行性,那么后續(xù)具體應用中可以進一步對其進行改善。
陳雷教授分析認為,構建大模型目前面臨的難題包括數(shù)據(jù)、算法模型、算力三個方面。
第一重困難是數(shù)據(jù)質(zhì)量。在抽取數(shù)據(jù)時要進行數(shù)據(jù)清洗、標注,剔除諸如廣告等內(nèi)容?!霸趺磳崿F(xiàn)以一當十的標注效果,就是我們所在學域探究的問題。比如進行數(shù)據(jù)分析時,把數(shù)據(jù)集合起來,相似的數(shù)據(jù)放在一起,標注一個數(shù)據(jù)頭,其他數(shù)據(jù)都有類似標簽,把冗余的數(shù)據(jù)清除掉?!彼赋觯宰詣玉{駛場景為例,比如相比雷達的信息,有些攝像頭捕捉的信息就是冗余部分。在數(shù)據(jù)分析時,如果不清除冗余數(shù)據(jù),將極大加重模型訓練的時間。
他介紹道,現(xiàn)有的一些實驗表明,假如對一個基本模型用原始數(shù)據(jù)訓練要花費超過200個小時,但是完成數(shù)據(jù)精細化抽取后,只需要6秒左右即可完成訓練。因此數(shù)據(jù)清洗和抽取的過程就需要人來干預,以期用相對精簡的數(shù)據(jù),讓訓練效率進一步提升。
第二重難題是算法模型改善。比如要實現(xiàn)自動駕駛更高的穩(wěn)健度和魯棒性,遇到緊急問題不僅僅是直接選擇暫停,需要對算法模型進行優(yōu)化,提出安全的解決方案。
第三重就是備受關注的算力問題。Open AI訓練GPT耗費了數(shù)萬塊GPU芯片,這所需要的采購成本不是一般學校和小機構可以擔負得起。借助探索軟件協(xié)同、算力交易等方式就變得重要。
Open AI通過“暴力美學”方式構建出讓人驚艷的AI大模型,但背后所需的算力成本也讓人瞠目。尋找更多元化的方式訓練和計算正成為重要命題。
“算力交換是很好的課題。”陳雷教授指出,業(yè)界在探索研究,能否借助諸如區(qū)塊鏈等平臺實現(xiàn)算力交換。“比如把算力放在區(qū)塊鏈上,用token自主交換。那么要用到大模型訓練、需要算力的時候,用token‘買’過來算力,用完了再釋放出去算力,還可以掙一些token?!?/p>
但這是理想狀態(tài),在實際應用中還需要面臨算力定價、政策監(jiān)管等問題。很多人不愿意交換算力,根本原因在于擔心被惡意使用而報廢。因此倘若完全在烏托邦一般的區(qū)塊鏈空間中交換使用并不現(xiàn)實,需要借助聯(lián)盟鏈等方式實現(xiàn)。這就需要有機構牽頭,把算力聯(lián)合起來并落實。
除了算力,數(shù)據(jù)共享也是搭建大模型要攻克的一個難題。因為不同的數(shù)據(jù)對不同所有人的意義有差異,數(shù)據(jù)本身的質(zhì)、量也不同,那么按照什么標準進行數(shù)據(jù)定價還需要界定。
同時交易雙方面臨的客觀環(huán)境不同,帶寬、傳輸?shù)炔町惪赡芤矔绊懙剿懔蚕硇Ч?。這些背后都涉及對交易進程進行監(jiān)管。
在搭建大模型過程中,除了算力這種底層硬件,軟件也發(fā)揮著重要作用。倘若能實現(xiàn)軟硬件優(yōu)化協(xié)同,最終或許能通過更少的GPU芯片來實現(xiàn)同樣好的訓練和應用效果。
陳雷教授指出,如何與硬件更好匹配,這就對云計算資源提出要求。這也是微軟選擇收購Open AI的原因,用軟件反推對硬件的能力調(diào)優(yōu)。
舉例來說,在未來,人與手機的交互可能將不只是通過觸控鍵盤,而是僅通過語音。這時候手機硬件就需要實現(xiàn),如何在噪聲環(huán)境下,明確手機主人的聲音、準確收音并實現(xiàn)功能。這就同時對軟硬件提出新要求。
AI大模型無可避免會對既有日常工作和生活模式帶來一定程度變化。首要關注的就是人才培養(yǎng),過往一股腦刷題的模式可能要思變。
大模型工具與教學的邊界到底在哪里也受到爭議。此前在大學校園就曾有兩大陣營:一方對GPT嚴防死守,一方對GPT充分擁抱。香港科技大學就是后者。
陳雷教授介紹,港科廣正籌備在校園內(nèi)大規(guī)模使用GPT4,已經(jīng)在通過向微軟購買云服務的方式鋪設。
“這對老師提出的挑戰(zhàn)是,一成不變的教學和考試方式該怎么改變。”他舉例道,比如今年的期中考試,港科廣允許借助GPT工具,采用開放式提問的評估方式,而不是有固定答案評判正誤。
據(jù)介紹,在教學設計方面,港科廣今年開始招收本科生,在入校后前兩年不會安排選擇專業(yè),而是給學生提供更多空間,讓他們持續(xù)與教授磨合研習,自己發(fā)掘感興趣的專業(yè)領域。
對于人才能力培養(yǎng),陳雷教授認為,大模型提供了大量數(shù)據(jù),提問能力會很重要;培養(yǎng)交叉學習研究能力也很關鍵。
“我們的研究生和博士生都采用雙導師制度,不可以只跟著一位導師,要交叉學習?!彼e例道,比如讓學生同時跟隨數(shù)據(jù)分析和生物學兩個專業(yè)的老師學習,做交叉的學科研究,如此也讓學生更有學習動力?!案劭茝V信息樞紐學院陸續(xù)與工業(yè)界成立了聯(lián)合實驗室,宗旨就是把工業(yè)界的問題拿來探討?!?/p>
對于基礎教學來說,AI大模型也可以提供幫助。比如通過學生做錯的題目,AI判斷到底是哪些前序基礎教學內(nèi)容沒有被消化,就通過大模型生成相關基礎教學題型,而不是死記硬背錯題的方式解決問題。由此實現(xiàn)對學生的個性化教學和訓練。
同時業(yè)界也在探討,如何在AI大模型大規(guī)模應用后,防范學術造假等問題。諸如用生成文本的方式,比較學術文本和生成文本的相似性來判別,這背后就需要數(shù)據(jù)庫支撐。
目前看,AI大模型對既有產(chǎn)業(yè)角色的改變和替代已經(jīng)在發(fā)生。智能客服就是當前最大的落地應用,通過收集歷史問題放在大模型中訓練,可以減少大量人工客服的體量。
但這是否意味著所有企業(yè)都需要搭建一個自己的大模型?“AI大模型在智能問答、網(wǎng)絡零售、金融科技、辦公自動化、無人駕駛、元宇宙等很多新領域都將很有價值。”陳雷教授分析道,但對于一些傳統(tǒng)產(chǎn)業(yè)如制造、制衣、機械等怎樣利用大模型還是一個值得討論的問題。