日韩av无码中文字幕,国产午夜亚洲精品国产成人小说,成人影院午夜男女爽爽爽,欧美 亚洲 中文 国产 综合

首頁 熱點 要聞 國內(nèi) 產(chǎn)業(yè) 財經(jīng) 滾動 理財 股票

AI契約論⑦:有毒數(shù)據(jù)威脅大模型數(shù)據(jù)池,人工智能訓(xùn)練如何防范新型“特洛伊木馬” 全球快看

2023-06-09 07:05:09 來源 : 21世紀(jì)經(jīng)濟報道

南方財經(jīng)全媒體 吳立洋 21世紀(jì)經(jīng)濟報道 鄭雪 王俊 上海,北京報道

編者按:


(相關(guān)資料圖)

在2023年過去的幾個月里,各大公司搶灘大模型、GPT商用化探索、算力基礎(chǔ)設(shè)施看漲……如同15世紀(jì)開啟的大航海時代,人類交往、貿(mào)易、財富有了爆炸性增長,空間革命席卷全球。變革同時,也帶來了秩序的挑戰(zhàn),數(shù)據(jù)泄露、個人隱私風(fēng)險、著作權(quán)侵權(quán)、虛假信息......此外,AI帶來的后人類主義危機已然擺在桌面,人們該以何種姿態(tài)迎接人機混雜帶來的迷思?

此刻,尋求AI治理的共識、重塑新秩序成了各國共同面對的課題。南財合規(guī)科技研究院將推出AI契約論系列報道,從中外監(jiān)管模式、主體責(zé)任分配、語料庫數(shù)據(jù)合規(guī)、AI倫理、產(chǎn)業(yè)發(fā)展等維度,進行剖析,以期為AI治理方案提供一些思路,保障負(fù)責(zé)任的創(chuàng)新。

隨著AI產(chǎn)業(yè)的快速發(fā)展,被用于訓(xùn)練的數(shù)據(jù)集規(guī)模亦呈指數(shù)級上升趨勢,人類在漫長歷史中積累的經(jīng)驗與文化正快速被人工智能這一新興智能形態(tài)所汲取,歲月的積累成為培養(yǎng)未來科技的基底,知識的璀璨星光同時照亮了文明的過去、現(xiàn)在與未來。

隨著越來越多的數(shù)據(jù)被AI所學(xué)習(xí)乃至理解,人們欣喜地看到,人工智能的智慧與能力正發(fā)生翻天覆地的變化,這種進化速度遠(yuǎn)超已知的任何一種自然或人類造物,但同樣也帶來了社會對未知的隱憂。

難以完全確認(rèn)的是,在人工標(biāo)識和清洗那些被AI所汲取的數(shù)據(jù)和文本時,那些同樣根植于歷史的系統(tǒng)性惡意與偏見能夠被抹去。人們不可避免地發(fā)問,當(dāng)似乎有著無限潛能的AI在仰望亙古以來的知識星空時,是否應(yīng)同時對其教化以人類社會的精神和道德法則。

善意、德行與律法,當(dāng)從AI生成與成長的源頭追溯是什么塑造了人工智能的形態(tài),似乎仍需回到由人類所生產(chǎn)與處理的數(shù)據(jù)本身,而如何在數(shù)據(jù)的構(gòu)建和使用中建立規(guī)則,同樣蘊含著我們與AI這一內(nèi)容、工具抑或是伙伴真正的相處模式,以及互相影響的未來。

相較于隱私與版權(quán)問題,數(shù)據(jù)本身對AI的影響似乎更加“不可控”:一方面,AI訓(xùn)練與內(nèi)容生成的黑箱化使得輸出結(jié)果的溯源難度高不可攀;另一方面,人類社會道德標(biāo)準(zhǔn)尚未被完全內(nèi)化為AI運作機理,但由此引起的倫理和安全問題卻往往能引起廣泛的輿論關(guān)注。在本篇,我們將重點關(guān)注數(shù)據(jù)的清洗和標(biāo)注流程如何影響模型質(zhì)量,以及有毒數(shù)據(jù)等數(shù)據(jù)庫隱患的防范與治理應(yīng)如何展開。

清洗與標(biāo)注

國內(nèi)百模大戰(zhàn)愈演愈烈,作為燃料的數(shù)據(jù),由其構(gòu)成的高質(zhì)量、大規(guī)模、豐富性的數(shù)據(jù)集,成為大模型競爭中必不可少的內(nèi)容。

數(shù)據(jù)集從哪里來?以引爆AI熱潮的海外大模型ChatGPT的為例,其模型數(shù)據(jù)集分為維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數(shù)據(jù)集共六類;國內(nèi)大模型的數(shù)據(jù)集多源于三個方面:廠商積累數(shù)據(jù)、公開渠道爬取的數(shù)據(jù)、各類免費或付費的第三方數(shù)據(jù)庫與數(shù)據(jù)集。

而數(shù)據(jù)集中最關(guān)鍵的部分,是與模型任務(wù)相關(guān)度高、具備多樣性和高質(zhì)量的數(shù)據(jù)。考慮到收集而來的數(shù)據(jù)可能存在缺失、噪聲、重復(fù)等情況,海量的數(shù)據(jù)并不能直接用于大模型,而是需要經(jīng)過清洗、標(biāo)注等工序后,生成可供大模型使用的數(shù)據(jù)集,再結(jié)合算法、算力等,從而真正用于大模型。

以GPT -3為例,其原始數(shù)據(jù)量為45TB,而經(jīng)過清洗之后的高質(zhì)量數(shù)據(jù)為570GB,以此為參考,經(jīng)過清洗后的原始數(shù)據(jù)僅有1%左右的數(shù)據(jù)成為語料庫中的數(shù)據(jù)。

成為語料庫的數(shù)據(jù)需要經(jīng)過哪些階段?

清洗必不可少。綠盟科技天樞實驗室主任顧杜娟在接受記者采訪時表示,數(shù)據(jù)清洗即刪除噪聲數(shù)據(jù)和文本中的無意義信息,最終保留文本數(shù)據(jù)中對任務(wù)有用的數(shù)據(jù),一般包括數(shù)據(jù)去重、錯誤糾正、異常數(shù)據(jù)刪除、數(shù)據(jù)格式標(biāo)準(zhǔn)化。

頁面分析,也就是把非結(jié)構(gòu)化的數(shù)據(jù)進行結(jié)構(gòu)化,是數(shù)據(jù)清洗的第一步?!耙宰ト〉降木W(wǎng)頁數(shù)據(jù)為例,需要技術(shù)人員在原始文本中進行有效信息的抽取,如頁面的標(biāo)題、正文,圖片的標(biāo)題等;對于已經(jīng)結(jié)構(gòu)化的數(shù)據(jù),要采取過濾等措施,比如各種反垃圾識別等,清洗之后的數(shù)據(jù)基本就是可用數(shù)據(jù)了?!币晃粡氖滤惴üぷ鞯墓こ處煂τ浾呓榻B稱。

在他看來,數(shù)據(jù)清洗無非就是兩個思路,一種是把垃圾數(shù)據(jù)往外推,另外一種就是把高質(zhì)量的數(shù)據(jù)從海量數(shù)據(jù)中抽取。“大模型訓(xùn)練,在這個基礎(chǔ)之上還會做相關(guān)的一些清洗,這可能會針對特定領(lǐng)域,比如人文科學(xué)、歷史等,還要做特定的高質(zhì)量文本的識別和抓取?!鄙鲜鏊惴üこ處熃榻B道。

標(biāo)注同樣重要。

“文本數(shù)據(jù)標(biāo)注在自然語言任務(wù)中分為實體識別、關(guān)系抽取、事件抽取、詞性標(biāo)注、情感分析、句法分析等類型,具體取決于模型任務(wù)。”顧杜娟介紹道。

不同于傳統(tǒng)深度學(xué)習(xí)使用人工進行標(biāo)注,當(dāng)前大模型所需要的數(shù)據(jù)無法通過人工完成,而是通過算法。上述算法工程師對記者介紹,根據(jù)經(jīng)驗推算,在大模型團隊中,有相當(dāng)比例的人從事數(shù)據(jù)的清洗和標(biāo)注工作,而清洗和標(biāo)注這項工作將貫穿整個大模型始終。

數(shù)據(jù)“防毒”

清洗和標(biāo)注是構(gòu)建大模型數(shù)據(jù)集的基本流程和提升數(shù)據(jù)質(zhì)量的重要關(guān)口,但隨著AI訓(xùn)練所需數(shù)據(jù)量的快速擴張,尤其是越來越多的AI與互聯(lián)網(wǎng)相連,有毒數(shù)據(jù)等隱患亦開始成為AI可靠性乃至合規(guī)性的重要威脅。

早在ChatGPT橫空出世前,數(shù)據(jù)中毒(Data poisoning)的問題就已被人工智能開發(fā)者所廣泛關(guān)注,無論投放有毒數(shù)據(jù)的黑產(chǎn)目的是降低機器學(xué)習(xí)模型整體的可靠性,還是促使AI對某一面向的輸出出現(xiàn)偏差,隨著AI在金融、醫(yī)療、教育等領(lǐng)域的應(yīng)用愈加深入,在訓(xùn)練階段就埋下隱患的有毒數(shù)據(jù)可能帶來更為具體的危害。

就攻擊方式而言,引導(dǎo)向數(shù)據(jù)庫注入有毒數(shù)據(jù)或修改現(xiàn)有數(shù)據(jù)集中條目都是可能的數(shù)據(jù)投毒措施:前者需要影響的數(shù)據(jù)量并不高——研究表明僅僅是改變0.00025%的數(shù)據(jù)(例如在蘋果圖片中混入其他圖片并聲稱其為蘋果)AI就會遭到欺騙;后者則更加難以被識別和排查。

NCC Group首席Chris Anley科學(xué)家曾指出,黑客有可能將精心設(shè)計的不良數(shù)據(jù)與正常數(shù)據(jù)混淆提供給AI,以增加發(fā)現(xiàn)應(yīng)用“后門”的可能性。

此外,不同的大模型由于數(shù)據(jù)來源的不同亦可能導(dǎo)致對有毒數(shù)據(jù)的識別和防護能力存在差異,對于使用封閉數(shù)據(jù)庫進行機器學(xué)習(xí)的模型,精度較高的數(shù)據(jù)清洗和標(biāo)注流程可以較好避免有毒數(shù)據(jù)的污染,但對于需要實時更新乃至連接互聯(lián)網(wǎng)數(shù)據(jù)庫的模型,高頻的數(shù)據(jù)流使得有毒數(shù)據(jù)更易滲透到AI的迭代與生成過程中。

顧杜娟指出,對基礎(chǔ)模型而言語料庫更多的是廣泛的通用語料庫,對于垂直領(lǐng)域大模型來說則更專注于特定領(lǐng)域的專業(yè)數(shù)據(jù),不同模型的數(shù)據(jù)來源存在差異,語料數(shù)據(jù)來源渠道亦各不相同,這都給數(shù)據(jù)整體的準(zhǔn)確性帶來了變數(shù)。

值得注意的是,多位業(yè)內(nèi)人士在與記者交流時指出,在AI高速發(fā)展期,從數(shù)據(jù)來源角度對有毒數(shù)據(jù)進行監(jiān)管難度較高,更為可行的做法是對輸入輸出進行把控,但這種做法也面臨著溯源難度高、處理滯后等問題。

“當(dāng)前進行大模型開發(fā)工作的企業(yè),數(shù)據(jù)來源往往都比較寬泛,自己積累的數(shù)據(jù)和外部獲取的數(shù)據(jù)也難以有統(tǒng)一的高標(biāo)準(zhǔn)方案完全排除有毒數(shù)據(jù),從安全角度而言,從大模型本身輸出角度進行限制效果相對較好?!蹦郴ヂ?lián)網(wǎng)大廠人工智能架構(gòu)師向記者表示。

但他也指出,近期AI發(fā)展熱潮中大模型表現(xiàn)的“涌現(xiàn)性”特征及所謂的“AI幻覺”問題也體現(xiàn)出,單純對AIGC輸出內(nèi)容進行監(jiān)管,可控性也相對有限:“目前折中的辦法是對使用場景進行較為明確的限制,將輸出內(nèi)容和形式限定在一定范圍內(nèi),使得AIGC流程相對可控。

安永(中國)企業(yè)咨詢有限公司大中華區(qū)網(wǎng)絡(luò)安全與隱私保護咨詢服務(wù)合伙人張偉告訴記者,相較于在發(fā)生合規(guī)事件后倒推數(shù)據(jù)層面的問題,更好的方法還是在AI研發(fā)階段就做好各個環(huán)節(jié)的合規(guī)管理工作。

AI研發(fā)包含了很多細(xì)小的業(yè)務(wù)流程,代碼、傳輸、應(yīng)用等層面都需要有對應(yīng)的檢測方法保證來源與流程可靠。例如在使用開源數(shù)據(jù)庫時對其是否經(jīng)過認(rèn)證,是否脫離社區(qū)維護,代碼是否經(jīng)過檢查等進行檢驗,相較于訓(xùn)練后優(yōu)化,訓(xùn)練前與訓(xùn)練過程中的合規(guī)管控要更為可行。”張偉說。

另一方面,針對從數(shù)據(jù)到輸出的合規(guī)問題,產(chǎn)業(yè)鏈不同節(jié)點的廠商也在研究自己的解決方案。4月,NVIDIA(英偉達(dá))在官網(wǎng)宣布開源NeMo Guardrails,以幫助ChatGPT等類似大語言模型支持的應(yīng)用構(gòu)建安全體系,降低非法、歧視、不道德等內(nèi)容輸出。

據(jù)其介紹,NeMo Guardrails可以幫助開發(fā)人員提升大語言模型支持的應(yīng)用程序的安全性,包括代碼、示例、文檔、監(jiān)控、安全信息過濾等。

“當(dāng)前大模型產(chǎn)業(yè)發(fā)展方興未艾,另一方面也愈加受到監(jiān)管關(guān)注,作為收益最大的上游廠商之一,英偉達(dá)親自下場幫助AI開發(fā)商提供合規(guī)和安全服務(wù)以爭取監(jiān)管和社會支持并不難理解。”上海某人工智能行業(yè)從業(yè)者向記者表示。

統(tǒng)籌:王俊

記者:吳立洋、鄭雪、王俊

關(guān)鍵詞:
相關(guān)文章

最近更新
精彩推送
安然納米會員登陸 2023-06-09 04:47:35