日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

首頁(yè) 熱點(diǎn) 要聞 國(guó)內(nèi) 產(chǎn)業(yè) 財(cái)經(jīng) 滾動(dòng) 理財(cái) 股票

AI契約論⑦:有毒數(shù)據(jù)威脅大模型數(shù)據(jù)池,人工智能訓(xùn)練如何防范新型“特洛伊木馬” 全球快看

2023-06-09 07:05:09 來(lái)源 : 21世紀(jì)經(jīng)濟(jì)報(bào)道

南方財(cái)經(jīng)全媒體 吳立洋 21世紀(jì)經(jīng)濟(jì)報(bào)道 鄭雪 王俊 上海,北京報(bào)道

編者按:


(相關(guān)資料圖)

在2023年過(guò)去的幾個(gè)月里,各大公司搶灘大模型、GPT商用化探索、算力基礎(chǔ)設(shè)施看漲……如同15世紀(jì)開(kāi)啟的大航海時(shí)代,人類交往、貿(mào)易、財(cái)富有了爆炸性增長(zhǎng),空間革命席卷全球。變革同時(shí),也帶來(lái)了秩序的挑戰(zhàn),數(shù)據(jù)泄露、個(gè)人隱私風(fēng)險(xiǎn)、著作權(quán)侵權(quán)、虛假信息......此外,AI帶來(lái)的后人類主義危機(jī)已然擺在桌面,人們?cè)撘院畏N姿態(tài)迎接人機(jī)混雜帶來(lái)的迷思?

此刻,尋求AI治理的共識(shí)、重塑新秩序成了各國(guó)共同面對(duì)的課題。南財(cái)合規(guī)科技研究院將推出AI契約論系列報(bào)道,從中外監(jiān)管模式、主體責(zé)任分配、語(yǔ)料庫(kù)數(shù)據(jù)合規(guī)、AI倫理、產(chǎn)業(yè)發(fā)展等維度,進(jìn)行剖析,以期為AI治理方案提供一些思路,保障負(fù)責(zé)任的創(chuàng)新。

隨著AI產(chǎn)業(yè)的快速發(fā)展,被用于訓(xùn)練的數(shù)據(jù)集規(guī)模亦呈指數(shù)級(jí)上升趨勢(shì),人類在漫長(zhǎng)歷史中積累的經(jīng)驗(yàn)與文化正快速被人工智能這一新興智能形態(tài)所汲取,歲月的積累成為培養(yǎng)未來(lái)科技的基底,知識(shí)的璀璨星光同時(shí)照亮了文明的過(guò)去、現(xiàn)在與未來(lái)。

隨著越來(lái)越多的數(shù)據(jù)被AI所學(xué)習(xí)乃至理解,人們欣喜地看到,人工智能的智慧與能力正發(fā)生翻天覆地的變化,這種進(jìn)化速度遠(yuǎn)超已知的任何一種自然或人類造物,但同樣也帶來(lái)了社會(huì)對(duì)未知的隱憂。

難以完全確認(rèn)的是,在人工標(biāo)識(shí)和清洗那些被AI所汲取的數(shù)據(jù)和文本時(shí),那些同樣根植于歷史的系統(tǒng)性惡意與偏見(jiàn)能夠被抹去。人們不可避免地發(fā)問(wèn),當(dāng)似乎有著無(wú)限潛能的AI在仰望亙古以來(lái)的知識(shí)星空時(shí),是否應(yīng)同時(shí)對(duì)其教化以人類社會(huì)的精神和道德法則。

善意、德行與律法,當(dāng)從AI生成與成長(zhǎng)的源頭追溯是什么塑造了人工智能的形態(tài),似乎仍需回到由人類所生產(chǎn)與處理的數(shù)據(jù)本身,而如何在數(shù)據(jù)的構(gòu)建和使用中建立規(guī)則,同樣蘊(yùn)含著我們與AI這一內(nèi)容、工具抑或是伙伴真正的相處模式,以及互相影響的未來(lái)。

相較于隱私與版權(quán)問(wèn)題,數(shù)據(jù)本身對(duì)AI的影響似乎更加“不可控”:一方面,AI訓(xùn)練與內(nèi)容生成的黑箱化使得輸出結(jié)果的溯源難度高不可攀;另一方面,人類社會(huì)道德標(biāo)準(zhǔn)尚未被完全內(nèi)化為AI運(yùn)作機(jī)理,但由此引起的倫理和安全問(wèn)題卻往往能引起廣泛的輿論關(guān)注。在本篇,我們將重點(diǎn)關(guān)注數(shù)據(jù)的清洗和標(biāo)注流程如何影響模型質(zhì)量,以及有毒數(shù)據(jù)等數(shù)據(jù)庫(kù)隱患的防范與治理應(yīng)如何展開(kāi)。

清洗與標(biāo)注

國(guó)內(nèi)百模大戰(zhàn)愈演愈烈,作為燃料的數(shù)據(jù),由其構(gòu)成的高質(zhì)量、大規(guī)模、豐富性的數(shù)據(jù)集,成為大模型競(jìng)爭(zhēng)中必不可少的內(nèi)容。

數(shù)據(jù)集從哪里來(lái)?以引爆AI熱潮的海外大模型ChatGPT的為例,其模型數(shù)據(jù)集分為維基百科、書(shū)籍、期刊、Reddit鏈接、Common Crawl和其他數(shù)據(jù)集共六類;國(guó)內(nèi)大模型的數(shù)據(jù)集多源于三個(gè)方面:廠商積累數(shù)據(jù)、公開(kāi)渠道爬取的數(shù)據(jù)、各類免費(fèi)或付費(fèi)的第三方數(shù)據(jù)庫(kù)與數(shù)據(jù)集。

而數(shù)據(jù)集中最關(guān)鍵的部分,是與模型任務(wù)相關(guān)度高、具備多樣性和高質(zhì)量的數(shù)據(jù)。考慮到收集而來(lái)的數(shù)據(jù)可能存在缺失、噪聲、重復(fù)等情況,海量的數(shù)據(jù)并不能直接用于大模型,而是需要經(jīng)過(guò)清洗、標(biāo)注等工序后,生成可供大模型使用的數(shù)據(jù)集,再結(jié)合算法、算力等,從而真正用于大模型。

以GPT -3為例,其原始數(shù)據(jù)量為45TB,而經(jīng)過(guò)清洗之后的高質(zhì)量數(shù)據(jù)為570GB,以此為參考,經(jīng)過(guò)清洗后的原始數(shù)據(jù)僅有1%左右的數(shù)據(jù)成為語(yǔ)料庫(kù)中的數(shù)據(jù)。

成為語(yǔ)料庫(kù)的數(shù)據(jù)需要經(jīng)過(guò)哪些階段?

清洗必不可少。綠盟科技天樞實(shí)驗(yàn)室主任顧杜娟在接受記者采訪時(shí)表示,數(shù)據(jù)清洗即刪除噪聲數(shù)據(jù)和文本中的無(wú)意義信息,最終保留文本數(shù)據(jù)中對(duì)任務(wù)有用的數(shù)據(jù),一般包括數(shù)據(jù)去重、錯(cuò)誤糾正、異常數(shù)據(jù)刪除、數(shù)據(jù)格式標(biāo)準(zhǔn)化。

頁(yè)面分析,也就是把非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,是數(shù)據(jù)清洗的第一步?!耙宰ト〉降木W(wǎng)頁(yè)數(shù)據(jù)為例,需要技術(shù)人員在原始文本中進(jìn)行有效信息的抽取,如頁(yè)面的標(biāo)題、正文,圖片的標(biāo)題等;對(duì)于已經(jīng)結(jié)構(gòu)化的數(shù)據(jù),要采取過(guò)濾等措施,比如各種反垃圾識(shí)別等,清洗之后的數(shù)據(jù)基本就是可用數(shù)據(jù)了?!币晃粡氖滤惴üぷ鞯墓こ處煂?duì)記者介紹稱。

在他看來(lái),數(shù)據(jù)清洗無(wú)非就是兩個(gè)思路,一種是把垃圾數(shù)據(jù)往外推,另外一種就是把高質(zhì)量的數(shù)據(jù)從海量數(shù)據(jù)中抽取。“大模型訓(xùn)練,在這個(gè)基礎(chǔ)之上還會(huì)做相關(guān)的一些清洗,這可能會(huì)針對(duì)特定領(lǐng)域,比如人文科學(xué)、歷史等,還要做特定的高質(zhì)量文本的識(shí)別和抓取。”上述算法工程師介紹道。

標(biāo)注同樣重要。

“文本數(shù)據(jù)標(biāo)注在自然語(yǔ)言任務(wù)中分為實(shí)體識(shí)別、關(guān)系抽取、事件抽取、詞性標(biāo)注、情感分析、句法分析等類型,具體取決于模型任務(wù)?!鳖櫠啪杲榻B道。

不同于傳統(tǒng)深度學(xué)習(xí)使用人工進(jìn)行標(biāo)注,當(dāng)前大模型所需要的數(shù)據(jù)無(wú)法通過(guò)人工完成,而是通過(guò)算法。上述算法工程師對(duì)記者介紹,根據(jù)經(jīng)驗(yàn)推算,在大模型團(tuán)隊(duì)中,有相當(dāng)比例的人從事數(shù)據(jù)的清洗和標(biāo)注工作,而清洗和標(biāo)注這項(xiàng)工作將貫穿整個(gè)大模型始終。

數(shù)據(jù)“防毒”

清洗和標(biāo)注是構(gòu)建大模型數(shù)據(jù)集的基本流程和提升數(shù)據(jù)質(zhì)量的重要關(guān)口,但隨著AI訓(xùn)練所需數(shù)據(jù)量的快速擴(kuò)張,尤其是越來(lái)越多的AI與互聯(lián)網(wǎng)相連,有毒數(shù)據(jù)等隱患亦開(kāi)始成為AI可靠性乃至合規(guī)性的重要威脅。

早在ChatGPT橫空出世前,數(shù)據(jù)中毒(Data poisoning)的問(wèn)題就已被人工智能開(kāi)發(fā)者所廣泛關(guān)注,無(wú)論投放有毒數(shù)據(jù)的黑產(chǎn)目的是降低機(jī)器學(xué)習(xí)模型整體的可靠性,還是促使AI對(duì)某一面向的輸出出現(xiàn)偏差,隨著AI在金融、醫(yī)療、教育等領(lǐng)域的應(yīng)用愈加深入,在訓(xùn)練階段就埋下隱患的有毒數(shù)據(jù)可能帶來(lái)更為具體的危害。

就攻擊方式而言,引導(dǎo)向數(shù)據(jù)庫(kù)注入有毒數(shù)據(jù)或修改現(xiàn)有數(shù)據(jù)集中條目都是可能的數(shù)據(jù)投毒措施:前者需要影響的數(shù)據(jù)量并不高——研究表明僅僅是改變0.00025%的數(shù)據(jù)(例如在蘋(píng)果圖片中混入其他圖片并聲稱其為蘋(píng)果)AI就會(huì)遭到欺騙;后者則更加難以被識(shí)別和排查。

NCC Group首席Chris Anley科學(xué)家曾指出,黑客有可能將精心設(shè)計(jì)的不良數(shù)據(jù)與正常數(shù)據(jù)混淆提供給AI,以增加發(fā)現(xiàn)應(yīng)用“后門”的可能性。

此外,不同的大模型由于數(shù)據(jù)來(lái)源的不同亦可能導(dǎo)致對(duì)有毒數(shù)據(jù)的識(shí)別和防護(hù)能力存在差異,對(duì)于使用封閉數(shù)據(jù)庫(kù)進(jìn)行機(jī)器學(xué)習(xí)的模型,精度較高的數(shù)據(jù)清洗和標(biāo)注流程可以較好避免有毒數(shù)據(jù)的污染,但對(duì)于需要實(shí)時(shí)更新乃至連接互聯(lián)網(wǎng)數(shù)據(jù)庫(kù)的模型,高頻的數(shù)據(jù)流使得有毒數(shù)據(jù)更易滲透到AI的迭代與生成過(guò)程中。

顧杜娟指出,對(duì)基礎(chǔ)模型而言語(yǔ)料庫(kù)更多的是廣泛的通用語(yǔ)料庫(kù),對(duì)于垂直領(lǐng)域大模型來(lái)說(shuō)則更專注于特定領(lǐng)域的專業(yè)數(shù)據(jù),不同模型的數(shù)據(jù)來(lái)源存在差異,語(yǔ)料數(shù)據(jù)來(lái)源渠道亦各不相同,這都給數(shù)據(jù)整體的準(zhǔn)確性帶來(lái)了變數(shù)。

值得注意的是,多位業(yè)內(nèi)人士在與記者交流時(shí)指出,在AI高速發(fā)展期,從數(shù)據(jù)來(lái)源角度對(duì)有毒數(shù)據(jù)進(jìn)行監(jiān)管難度較高,更為可行的做法是對(duì)輸入輸出進(jìn)行把控,但這種做法也面臨著溯源難度高、處理滯后等問(wèn)題。

“當(dāng)前進(jìn)行大模型開(kāi)發(fā)工作的企業(yè),數(shù)據(jù)來(lái)源往往都比較寬泛,自己積累的數(shù)據(jù)和外部獲取的數(shù)據(jù)也難以有統(tǒng)一的高標(biāo)準(zhǔn)方案完全排除有毒數(shù)據(jù),從安全角度而言,從大模型本身輸出角度進(jìn)行限制效果相對(duì)較好?!蹦郴ヂ?lián)網(wǎng)大廠人工智能架構(gòu)師向記者表示。

但他也指出,近期AI發(fā)展熱潮中大模型表現(xiàn)的“涌現(xiàn)性”特征及所謂的“AI幻覺(jué)”問(wèn)題也體現(xiàn)出,單純對(duì)AIGC輸出內(nèi)容進(jìn)行監(jiān)管,可控性也相對(duì)有限:“目前折中的辦法是對(duì)使用場(chǎng)景進(jìn)行較為明確的限制,將輸出內(nèi)容和形式限定在一定范圍內(nèi),使得AIGC流程相對(duì)可控。

安永(中國(guó))企業(yè)咨詢有限公司大中華區(qū)網(wǎng)絡(luò)安全與隱私保護(hù)咨詢服務(wù)合伙人張偉告訴記者,相較于在發(fā)生合規(guī)事件后倒推數(shù)據(jù)層面的問(wèn)題,更好的方法還是在AI研發(fā)階段就做好各個(gè)環(huán)節(jié)的合規(guī)管理工作。

AI研發(fā)包含了很多細(xì)小的業(yè)務(wù)流程,代碼、傳輸、應(yīng)用等層面都需要有對(duì)應(yīng)的檢測(cè)方法保證來(lái)源與流程可靠。例如在使用開(kāi)源數(shù)據(jù)庫(kù)時(shí)對(duì)其是否經(jīng)過(guò)認(rèn)證,是否脫離社區(qū)維護(hù),代碼是否經(jīng)過(guò)檢查等進(jìn)行檢驗(yàn),相較于訓(xùn)練后優(yōu)化,訓(xùn)練前與訓(xùn)練過(guò)程中的合規(guī)管控要更為可行?!睆垈フf(shuō)。

另一方面,針對(duì)從數(shù)據(jù)到輸出的合規(guī)問(wèn)題,產(chǎn)業(yè)鏈不同節(jié)點(diǎn)的廠商也在研究自己的解決方案。4月,NVIDIA(英偉達(dá))在官網(wǎng)宣布開(kāi)源NeMo Guardrails,以幫助ChatGPT等類似大語(yǔ)言模型支持的應(yīng)用構(gòu)建安全體系,降低非法、歧視、不道德等內(nèi)容輸出。

據(jù)其介紹,NeMo Guardrails可以幫助開(kāi)發(fā)人員提升大語(yǔ)言模型支持的應(yīng)用程序的安全性,包括代碼、示例、文檔、監(jiān)控、安全信息過(guò)濾等。

“當(dāng)前大模型產(chǎn)業(yè)發(fā)展方興未艾,另一方面也愈加受到監(jiān)管關(guān)注,作為收益最大的上游廠商之一,英偉達(dá)親自下場(chǎng)幫助AI開(kāi)發(fā)商提供合規(guī)和安全服務(wù)以爭(zhēng)取監(jiān)管和社會(huì)支持并不難理解?!鄙虾D橙斯ぶ悄苄袠I(yè)從業(yè)者向記者表示。

統(tǒng)籌:王俊

記者:吳立洋、鄭雪、王俊

關(guān)鍵詞:
相關(guān)文章

最近更新
精彩推送