最資訊丨工聯院大模型測評:文心一言在工業領域表現超過GPT3.5

來源:經濟參考網

近期,中國工業互聯網研究院(簡稱“工聯院”)針對人工智能大模型在中文工業領域的知識問答能力進行系統性評測。結果顯示,百度文心一言表現超過GPT3.5,綜合評價指數在國內排名第一。

工聯院本次評測選取了工業領域典型的八大行業。百度文心一言在電子設備、裝備、鋼鐵、采礦、電力、石化、建材等七大行業均獲國內第一。

據悉,評測對象涵蓋GPT4、GPT3.5、文心一言、ChatGLM等國內外具有代表性的頭部大模型。評估結果選取性能前六名的模型進行公布。


(資料圖片)

百度文心一言測評表現超過GPT3.5

本次工業知識問答測試主要分為客觀題與主觀題兩大類,總計超過1100個問題。主觀題主要考察四大維度:基礎能力、語句能力、概括能力和邏輯能力。

評測結果顯示,GPT4表現最佳。國內頭部大模型表現亮眼,整體與GPT3.5相當。其中百度文心一言表現超過GPT3.5,在國內大模型中排名第一。

在客觀題環節,評測結果顯示,GPT4與文心一言表現好于其他大模型。但評測結果也同時指出,大模型普遍準確率有較大的提升空間。

主觀題方面,國內大模型的基礎能力、語句能力與GPT4接近,概括能力、邏輯能力與GPT4有一定差距。

在大模型的自我認知能力和污染問題分析能力上,GPT4相較于其他大模型表現出更好的能力。

大模型發展新熱點:豐富特定行業專業知識

雖然國內大模型在本次評測表現較好,甚至在部分行業趕超GPT3.5,但工聯院評測報告也指出,國內外通用大模型在工業知識問答領域探索仍處于初級階段,國內大模型與GPT4有差距,比如行業間的泛化能力有待加強。

實際上,工聯院評測報告揭示出通用大模型落地垂直行業的痛點,缺乏特定行業的專業知識。

關于解決難題的方法,工聯院評測報告給出的建議是,進一步豐富相關專業領域的數據訓練集,進一步進行專業化的微調。

當前,國內科技公司紛紛加強與工業企業合作,期望通過在實際場景中探索應用大模型,彌補差距,趕超GPT4.0。

比如百度文心一言與南方電網電力調度控制中心在電力調度場景探索使用調度AI大模型。在汽車行業,長安汽車基于百度文心大模型正在開發生成式人工智能產品,賦能一款量產車型,實現提升用戶體驗的目標。除了能源、汽車制造,百度智能云還在建筑、采礦、物流、紡織等領域,探索使用大模型提升運營效率和用戶體驗效果。

據悉,未來,工聯院將持續開展通用大模型在工業領域更多維度的性能評測,包括但不限于大模型的魯棒性、安全性以及人類大價值觀等。(肖智)

關鍵詞:

推薦

直播更多》

關閉

資訊更多》

焦點

国产精品亚洲а∨无码播放 | 亚洲偷偷自拍高清| 亚洲好看的理论片电影| 国产亚洲精品a在线观看app| 在线亚洲97se亚洲综合在线| 国产亚洲精品成人AA片新蒲金| 亚洲国产精品成人AV无码久久综合影院| 日本亚洲欧美色视频在线播放| 亚洲免费网站观看视频| 亚洲成AV人片高潮喷水| 亚洲av最新在线观看网址| 国产精品亚洲av色欲三区| 色天使色婷婷在线影院亚洲| 九月婷婷亚洲综合在线| 亚洲乱码日产精品a级毛片久久| 亚洲欧洲国产成人综合在线观看 | 亚洲熟妇av一区二区三区下载| 亚洲熟妇av一区二区三区下载| 亚洲熟妇av一区二区三区下载 | 亚洲国产精品一区二区九九| 亚洲精品和日本精品| 综合亚洲伊人午夜网 | 亚洲精品无码永久在线观看你懂的| 国产亚洲综合一区柠檬导航| 亚洲av无码一区二区乱子伦as| 亚洲ⅴ国产v天堂a无码二区| 久久精品国产精品亚洲毛片| 亚洲特级aaaaaa毛片| 亚洲男人天堂2022| 色窝窝亚洲AV网在线观看| 亚洲日本va午夜中文字幕久久| 区久久AAA片69亚洲| 亚洲AV无码成人精品区天堂| 中文字幕亚洲第一在线| 亚洲视频一区二区三区四区| 亚洲日韩国产一区二区三区在线| 毛片亚洲AV无码精品国产午夜| 亚洲乱码中文字幕综合234| 国产v亚洲v天堂无码网站| 亚洲视频在线一区二区三区| 亚洲三级视频在线观看|