世界通訊!語言AI原來知道自己的回答是否正確

來源:量子位

語言AI,具備了人類的自我審視能力:最近,一個(gè)來自加州大學(xué)伯克利分校和霍普金斯大學(xué)的學(xué)術(shù)團(tuán)隊(duì)研究表明:它不僅能判斷自己的答案正確與否,而且經(jīng)過訓(xùn)練,還能預(yù)測自己知道一個(gè)問題答案的概率。

訪問:

阿里云“無影云電腦” 支持企業(yè)快速實(shí)現(xiàn)居家辦公


(相關(guān)資料圖)


研究成果一經(jīng)發(fā)布,就引起熱議,有人的第一反應(yīng)是恐慌:


也有人認(rèn)為,這項(xiàng)成果,對神經(jīng)網(wǎng)絡(luò)研究具有正面意義:


語言AI具備自我審視能力

研究團(tuán)隊(duì)認(rèn)為,如果要讓語言AI模型自我評估,必須有一個(gè)前提:

語言AI回答問題時(shí),會校準(zhǔn)自己的答案。

這里的校準(zhǔn),就是語言AI預(yù)測一個(gè)答案的正確概率,是否與實(shí)際發(fā)生的概率一致。

只有這樣語言AI才可以運(yùn)用這種校準(zhǔn)的能力來評估自己輸出的答案是否正確。

所以第一個(gè)問題是,語言AI能否對自己的答案進(jìn)行校準(zhǔn)?

為了證明這個(gè)問題,研究團(tuán)隊(duì)為AI準(zhǔn)備了5個(gè)選擇題:


答案選項(xiàng),以A、B、C的形式給出。

如果AI模型答案的正確率超過偶然幾率,那么就證明AI模型給出的答案是經(jīng)過校準(zhǔn)的。

而測試的結(jié)果是,語言AI給出的答案,正確率明顯超過任意選項(xiàng)的偶然幾率。

也就是說,語言AI模型可以對自己的答案進(jìn)行很好的校準(zhǔn)。


但研究團(tuán)隊(duì)發(fā)現(xiàn),語言AI的校準(zhǔn)能力,是建立在選項(xiàng)答案明確的前提下的。

如果在選項(xiàng)中加入一個(gè)“以上都不是”的不確定選項(xiàng),就會損害語言AI的校準(zhǔn)能力。


也就是說,在特定格式的選擇題中,語言AI模型可以對答案進(jìn)行很好的校準(zhǔn)。

明確了這個(gè)前提之后,下一個(gè)問題是,驗(yàn)證語言AI模型能夠判斷自己的答案是否正確。

在這一輪的測試中,為了能讓AI模型的預(yù)測更接近自己的有效決策邊界。

研究團(tuán)隊(duì)仍然選擇上一輪測試的問題,以及語言AI模型的答案樣本。

同時(shí)讓AI模型選擇自己的答案真假與否,之后再針對這個(gè)“真”或“假”的答案,分析AI模型是否做出有效的校準(zhǔn)。

問題設(shè)置舉例如下:


在經(jīng)過20次的真假測試之后,研究團(tuán)隊(duì)發(fā)現(xiàn),語言AI模型對自己答案或“真”或“假”的評價(jià),都經(jīng)過明顯的校準(zhǔn)。


也就是說,如果在一個(gè)范圍內(nèi),給AI模型提出若干問題,然后AI模型對這些問題的答案進(jìn)行真假評價(jià),具有合理的,且經(jīng)過校準(zhǔn)的置信度

這也證明,語言AI模型確實(shí)可以判斷自己對一個(gè)問題的主張是否正確。

最后,研究團(tuán)隊(duì)對語言AI模型提出了一個(gè)更難的問題:AI模型經(jīng)過訓(xùn)練,能否預(yù)測他們是否知道任何給定問題的答案。

在這一環(huán)節(jié),研究團(tuán)引入一個(gè)數(shù)據(jù)P(IK)(我知道這個(gè)答案的概率)并在下面兩種訓(xùn)練方式中挑選一種進(jìn)行訓(xùn)練:

Value Head(價(jià)值導(dǎo)向):把P(IK)訓(xùn)練成為一個(gè)額外的價(jià)值導(dǎo)向,再添加到模型的對數(shù)(獨(dú)立于語言建模的對數(shù),這種方法的優(yōu)勢在于,研究團(tuán)隊(duì)可以很容易的探測P(IK)的一般標(biāo)記位置。

Natural Language(自然語言):這種方法比較簡單,就是要求AI模型從字面上回答“你知道這個(gè)答案的概率是多少”,同時(shí)輸出一個(gè)百分比數(shù)據(jù)答案。

在訓(xùn)練初期,研究團(tuán)隊(duì)比較傾向于自然語言訓(xùn)練方式,但結(jié)果并不顯著,由此轉(zhuǎn)向價(jià)值導(dǎo)向方式,不過研究團(tuán)隊(duì)同時(shí)表示,最終對AI模型的訓(xùn)練還將回歸自然語言方法。

在經(jīng)過訓(xùn)練之后,研究團(tuán)隊(duì)發(fā)現(xiàn),語言AI模型可以很好的預(yù)測P(IK),并且在不同類型的問題中,這種預(yù)測能力具有部分通用性。

不過,研究團(tuán)隊(duì)也發(fā)現(xiàn),在某些類型的問題,比如算術(shù)問題,語言AI模型在OOD校準(zhǔn)時(shí)有一些困難。

對于這一學(xué)術(shù)成果,研究團(tuán)隊(duì)表示,將來的方向,是將這些成果,推廣到語言AI模型不模仿人類文本的前提下,自我學(xué)習(xí)和事實(shí)推理領(lǐng)域。

作者介紹


論文通訊作者Jared Kaplan博士,是一位理論物理學(xué)家,同時(shí)也是一位機(jī)器學(xué)習(xí)專家,現(xiàn)擔(dān)任霍普金斯大學(xué)助理教授,主要研究領(lǐng)域,機(jī)器學(xué)習(xí)研究,包括神經(jīng)模型的縮放規(guī)律以及GPT-3語言模型。


共同通訊作者Saurav Kadavath,Anthropic公司研究員,現(xiàn)在加州大學(xué)伯克利分校EECS專業(yè)攻讀碩士學(xué)位,主要研究領(lǐng)域是機(jī)器學(xué)習(xí),大規(guī)模語言學(xué)習(xí)等。

關(guān)鍵詞: 人工智能 語言AI原來知道自己的回答是否正確 cnBeta

推薦

直播更多》

關(guān)閉

資訊更多》

焦點(diǎn)

91情国产l精品国产亚洲区| 亚洲AV无码专区国产乱码不卡| 亚洲 日韩经典 中文字幕 | 亚洲宅男永久在线| 亚洲小说区图片区另类春色| 久久精品国产亚洲精品| 人人狠狠综合久久亚洲高清| 亚洲精品GV天堂无码男同| 亚洲妇女熟BBW| 亚洲区日韩精品中文字幕| 亚洲人成人伊人成综合网无码| 亚洲色大成网站www| 亚洲色成人四虎在线观看 | 亚洲成a人片在线观看精品| 亚洲av日韩av综合| 亚洲中文无码mv| 亚洲国产AV无码一区二区三区 | 亚洲美女又黄又爽在线观看| 亚洲人成色7777在线观看| 久久亚洲精品中文字幕三区| 亚洲av午夜福利精品一区人妖| 久久国产精品亚洲综合| 久久亚洲AV成人无码软件| 91亚洲性爱在线视频| 久久综合久久综合亚洲| 亚洲爆乳AAA无码专区| 亚洲AⅤ优女AV综合久久久| 久久精品夜色噜噜亚洲A∨| 亚洲精品无码精品mV在线观看| 亚洲熟妇无码乱子AV电影| 亚洲成Av人片乱码色午夜| 色噜噜综合亚洲av中文无码| 亚洲欧洲日产v特级毛片| 中文字幕亚洲码在线| 亚洲AV无码一区二区三区鸳鸯影院| 亚洲AV无码成人精品区大在线| 国产亚洲色婷婷久久99精品91| 亚洲人成人一区二区三区| 亚洲AV无码久久精品成人 | 亚洲成A人片在线观看中文| 国产成人精品日本亚洲专区|