周伯文:探索人工智能45°平衡律
7月4日,2024世界人工智能大會(huì )暨人工智能全球治理高級別會(huì )議(WAIC 2024)在上海開(kāi)幕。上海人工智能實(shí)驗室主任、首席科學(xué)家,清華大學(xué)惠妍講席教授,銜遠科技創(chuàng )始人周伯文在WAIC 2024全體會(huì )議上發(fā)表演講。以下為演講全文。
尊敬的各位領(lǐng)導,各位嘉賓,大家上午好,非常榮幸在WAIC大會(huì )上、在上海,與大家分享人工智能安全的前沿技術(shù)話(huà)題,我想提出一個(gè)技術(shù)主張:探索人工智能45°平衡律——Towards AI-45°Law。
當前,以大模型為代表的生成式人工智能快速發(fā)展,但隨著(zhù)能力的不斷提升,模型自身及其應用也帶來(lái)了一系列潛在風(fēng)險的顧慮。
從公眾對AI風(fēng)險的關(guān)注程度來(lái)看,首先是數據泄露、濫用、隱私及版權相關(guān)的內容風(fēng)險;其次是惡意使用帶來(lái)偽造、虛假信息等相關(guān)的使用風(fēng)險;當然也誘發(fā)了偏見(jiàn)歧視等倫理相關(guān)問(wèn)題;此外還有人擔心:人工智能是否會(huì )對就業(yè)結構等社會(huì )系統性問(wèn)題帶來(lái)挑戰。在一系列關(guān)于人工智能的科幻電影中,甚至出現了AI失控、人類(lèi)喪失自主權等設定。
這些由AI帶來(lái)的風(fēng)險已初露端倪,但更多的是潛在風(fēng)險,防范這些風(fēng)險需要各界共同努力,需要科學(xué)社區做出更多貢獻。
去年5月,國際上數百名AI科學(xué)家和公眾人物共同簽署了一份公開(kāi)信《Statement of AI Risk》,表達了對AI風(fēng)險的擔憂(yōu),并呼吁,應該像對待流行病和核戰爭等其他大規模的風(fēng)險一樣,把防范人工智能帶來(lái)的風(fēng)險作為全球優(yōu)先事項。
出現對這些風(fēng)險擔憂(yōu),根本原因是我們目前的AI發(fā)展是失衡的。
先讓我們來(lái)看一下目前的AI發(fā)展趨勢:
在Transformer為代表的基礎模型架構下,加以(大數據-大參數量與大計算)的尺度定律(Scaling Law),目前AI性能呈指數級增長(cháng)。
與此形成對比的是,在A(yíng)I安全維度典型的技術(shù),如:紅隊測試、安全標識、安全護欄與評估測量等,呈現零散化、碎片化,且后置性的特性。
最近的一些對齊技術(shù)兼顧了性能和安全性。比如:監督式微調SFT、人類(lèi)反饋的強化學(xué)習RLHF等技術(shù),RLAIF、SuperAlignment等。這些方法幫助將人類(lèi)的偏好傳遞給AI,助推涌現出了ChatGPT、GPT-4等令人興奮的AI系統,以及我們上海AI實(shí)驗室的書(shū)生Intern大模型等等。雖然瞄準的是安全和性能同時(shí)提升,但這些方法在實(shí)際使用中往往還是性能優(yōu)先。
所以總體上,我們在A(yíng)I模型安全能力方面的提升,還遠遠落后于性能的提升,這種失衡導致AI的發(fā)展是跛腳的,我們稱(chēng)之為Crippled AI。
不均衡的背后是二者投入上的巨大差異。如果對比一下,從研究是否體系化,以及人才密集度、商業(yè)驅動(dòng)力、算力的投入度等方面來(lái)看,安全方面的投入是遠遠落后于A(yíng)I能力的。
李強總理剛才提出“智能向善”。AI要確??煽?,統籌發(fā)展與安全。毫無(wú)疑問(wèn)地,我們要避免這樣的Crippled AI發(fā)展,我們應該追求的是:TrustWorthy AGI,可信的AI,可信的通用人工智能。
實(shí)現安全與性能共同增長(cháng)的“AI-45°平衡律”
可信AGI需要能夠兼顧安全與性能,我們需要找到AI安全優(yōu)先,但又能保證AI性能長(cháng)期發(fā)展的技術(shù)體系。我們把這樣一種技術(shù)思想體系叫做“AI-45°平衡律”(AI-45° Law)。
AI-45°平衡律是指從長(cháng)期的角度來(lái)看,我們要大體上沿著(zhù)45度安全與性能平衡發(fā)展,平衡是指短期可以有波動(dòng),但不能長(cháng)期低于45°(如同現在),也不能長(cháng)期高于45度(這將阻礙發(fā)展與產(chǎn)業(yè)應用)。這個(gè)技術(shù)思想體系要求強技術(shù)驅動(dòng)、全流程優(yōu)化、多主體參與以及敏捷治理。
實(shí)現AI-45°平衡律也許有多種技術(shù)路徑。我們上海AI實(shí)驗室最近在探索一條以因果為核心的路徑,我們把它取名為:可信AGI的“因果之梯”,致敬因果推理領(lǐng)域的先驅——圖靈獎得主Judea Pearl。
可信AGI的“因果之梯”將可信AGI的發(fā)展分為三個(gè)遞進(jìn)階段:泛對齊、可干預、能反思。
“泛對齊”主要包含當前最前沿的人類(lèi)偏好對齊技術(shù)。但需要注意的是,這些安全對齊技術(shù)僅依賴(lài)統計相關(guān)性而忽視真正的因果關(guān)系,可能導致錯誤推理和潛在危險。一個(gè)典型的例子是巴甫洛夫的狗:當狗僅僅基于鈴聲和食物的統計相關(guān)性形成條件反射時(shí),它可能在任何聽(tīng)到鈴聲的場(chǎng)合都觸發(fā)行為分泌唾液。
“可干預”主要包含通過(guò)對AI系統進(jìn)行干預,探究其因果機制的安全技術(shù),例如人在回路、機械可解釋性,以及我們提出的對抗演練等,它以通過(guò)提高可解釋性和泛化性來(lái)提升安全性,同時(shí)也能提升AI能力。
“能反思”則要求AI系統不僅追求高效執行任務(wù),還能審視自身行為的影響和潛在風(fēng)險,從而在追求性能的同時(shí),確保安全和道德邊界不被突破。這個(gè)階段的技術(shù),包括基于價(jià)值的訓練、因果可解釋性、反事實(shí)推理等。
目前,AI安全和性能技術(shù)發(fā)展主要停留第一階段,部分在嘗試第二階段,但要真正實(shí)現AI的安全與性能平衡,我們必須完善第二階段并勇于攀登第三階段。沿著(zhù)可信AGI的“因果之梯”拾級而上,我們相信可以構建真正可信AGI,實(shí)現人工智能的安全與卓越性能的完美平衡。
最終,像安全可控的核聚變技術(shù)為全人類(lèi)帶來(lái)清潔、豐富的能源一樣,我們希望通過(guò)深入理解AI的內在機理和因果過(guò)程,從而安全且有效地開(kāi)發(fā)和使用這項革命性技術(shù)。
也正如可控核聚變對全人類(lèi)都是共同利益一樣,我們堅信AI的安全也是全球性的公共福祉,陳吉寧書(shū)記剛剛在發(fā)布的《人工智能全球治理上海宣言》中提到“要推動(dòng)各國加強交流和對話(huà)”,我們愿與大家一起攜手推進(jìn)AI-45°平衡律的發(fā)展,共享AI安全技術(shù)、加強全球AI安全人才交流與合作,平衡AI安全與能力的投入,共同構建開(kāi)放、安全的通用人工智能創(chuàng )新生態(tài)和人才發(fā)展環(huán)境。
謝謝大家!
關(guān)于上海人工智能實(shí)驗室
上海人工智能實(shí)驗室是我國人工智能領(lǐng)域的新型科研機構,開(kāi)展戰略性、原創(chuàng )性、前瞻性的科學(xué)研究與技術(shù)攻關(guān),突破人工智能的重要基礎理論和關(guān)鍵核心技術(shù),打造“突破型、引領(lǐng)型、平臺型”一體化的大型綜合性研究基地,支撐我國人工智能產(chǎn)業(yè)實(shí)現跨越式發(fā)展,目標建成國際一流的人工智能實(shí)驗室,成為享譽(yù)全球的人工智能原創(chuàng )理論和技術(shù)的策源地。