Transformer六周年:8位作者已創(chuàng)辦數(shù)家AI獨角獸
從 ChatGPT 到 AI 畫圖技術(shù),人工智能領(lǐng)域最近的這波突破或許都要感謝一下 Transformer。
(相關(guān)資料圖)
今天是著名的 transformer 論文提交六周年的日子。
六年前,一篇名字有點浮夸的論文被上傳到了預(yù)印版論文平臺 arXiv 上,「xx is All You Need」這句話被 AI 領(lǐng)域的開發(fā)者們不斷復(fù)述,甚至已經(jīng)成了論文標(biāo)題的潮流,而 Transformer 也不再是變形金剛的意思,它現(xiàn)在代表著 AI 領(lǐng)域最先進的技術(shù)。
六年后,回看當(dāng)年的這篇論文,我們可以發(fā)現(xiàn)很多有趣或鮮為人知的地方,正如英偉達 AI 科學(xué)家 Jim Fan 所總結(jié)的那樣。
「注意力機制」并不是 Transformer 作者所提出的
Transformer 模型拋棄了傳統(tǒng)的 CNN 和 RNN 單元,整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力機制組成。
雖然 Transformer 論文的名字是《Attention is All You Need》,我們也因它而不斷推崇注意力機制,但請注意一個有趣的事實:并不是 Transformer 的研究者發(fā)明了注意力,而是他們把這種機制推向了極致。
注意力機制(Attention Mechanism)是由深度學(xué)習(xí)先驅(qū) Yoshua Bengio 帶領(lǐng)的團隊于 2014 年提出的:
《Neural Machine Translation by Jointly Learning to Align and Translate》,標(biāo)題比較樸實。
在這篇 ICLR 2015 論文中,Bengio 等人提出了一種 RNN +「上下文向量」(即注意力)的組合。雖然它是 NLP 領(lǐng)域最偉大的里程碑之一,但相比 transformer,其知名度要低得多,Bengio 團隊的論文至今已被引用 2.9 萬次,Transformer 有 7.7 萬次。
AI 的注意力機制,自然是仿照人類的視覺注意力而來。人類大腦里有一種天生能力:當(dāng)我們看一幅圖時,先是快速掃過圖片,然后鎖定需要重點關(guān)注的目標(biāo)區(qū)域。
如果不放過任何局部信息,必然會作很多無用功,不利于生存。同樣地,在深度學(xué)習(xí)網(wǎng)絡(luò)中引入類似的機制可以簡化模型,加速計算。從本質(zhì)上說,Attention 就是從大量信息中有篩選出少量重要信息,并聚焦到這些重要信息上,忽略大多不重要的信息。
近年來,注意力機制被廣泛應(yīng)用在深度學(xué)習(xí)的各個領(lǐng)域,如在計算機視覺方向用于捕捉圖像上的感受野,或者 NLP 中用于定位關(guān)鍵 token 或者特征。大量實驗證明,添加了注意力機制的模型在圖像分類、分割、追蹤、增強以及自然語言識別、理解、問答、翻譯中任務(wù)中均取得了明顯的性能提升。
引入了注意力機制的 Transformer 模型可以看做一種通用序列計算機(general-purpose sequence computer),注意力機制允許模型在處理輸入序列時根據(jù)序列中不同位置的相關(guān)性分配不同的注意力權(quán)重,這使得 Transformer 能夠捕捉到長距離的依賴關(guān)系和上下文信息,從而提高序列處理的效果。
但在當(dāng)年,不論是 Transformer 還是最初的 attention 論文都沒有談到通用序列計算機。相反,作者們認(rèn)為它是解決一個狹窄而具體的問題 —— 機器翻譯的機制。所以未來的我們追溯起 AGI 的起源時,說不定可以追溯到「不起眼」的谷歌翻譯。
雖然被 NeurIPS 2017 接收,但連個 Oral 都沒拿到
Transformer 這篇論文雖然現(xiàn)在影響力很大,但在當(dāng)年的全球頂級 AI 會議 NeurIPS 2017 上,連個 Oral 都沒拿到,更不用說拿到獎項了。當(dāng)年大會共收到 3240 篇論文投稿,其中 678 篇被選為大會論文,Transformer 論文就是被接收的論文之一,在這些論文中,40 篇為 Oral 論文,112 篇為 Spotlight 論文,3 篇最佳論文,一篇 Test of time award 獎項,Transformer 無緣獎項。
雖然無緣 NeurIPS 2017 論文獎項,但 Transformer 的影響力大家也是有目共睹的。
Jim Fan 評價說:在一項有影響力的研究變得有影響力之前,人們很難意識到它的重要性,這不是評委的錯。不過,也有論文足夠幸運,能夠第一時間被發(fā)現(xiàn),比如何愷明等人提出的 ResNet,當(dāng)年獲得了 CVPR 2016 最佳論文,這一研究當(dāng)之無愧,得到了 AI 頂會的正確認(rèn)可。但在 2017 年那個當(dāng)下,非常聰明的研究者也未必能夠預(yù)測現(xiàn)在 LLM 帶來的變革,就像 20 世紀(jì) 80 年代一樣,很少有人能預(yù)見到 2012 年以來深度學(xué)習(xí)帶來的海嘯。
八位作者,人生各自精彩
當(dāng)時這篇論文的作者共有 8 位,他們分別來自谷歌和多倫多大學(xué),五年過去了,大部分論文作者都已離開了原機構(gòu)。
2022 年 4 月 26 日,一家名為「Adept」的公司官宣成立,共同創(chuàng)始人有 9 位,其中就包括 Transformer 論文作者中的兩位 Ashish Vaswani 和 Niki Parmar。
Ashish Vaswani在南加州大學(xué)拿到博士學(xué)位,師從華人學(xué)者蔣偉(David Chiang)和黃亮(Liang Huang),主要研究現(xiàn)代深度學(xué)習(xí)在語言建模中的早期應(yīng)用。2016 年,他加入了谷歌大腦并領(lǐng)導(dǎo)了 Transformer 的研究,2021 年離開谷歌。
Niki Parmar 碩士畢業(yè)于南加州大學(xué),2016 年加入谷歌。工作期間,她為谷歌搜索和廣告研發(fā)了一些成功的問答和文本相似度模型。她領(lǐng)導(dǎo)了擴展 Transformer 模型的早期工作,將其擴展到了圖像生成、計算機視覺等領(lǐng)域。2021 年,她也離開谷歌。
在離開之后,兩人參與創(chuàng)立了 Adept,并分別擔(dān)任首席科學(xué)家(Ashish Vaswani)和首席技術(shù)官(Niki Parmar)。Adept 的愿景是創(chuàng)建一個被稱為「人工智能隊友」的 AI,該 AI 經(jīng)過訓(xùn)練,可以使用各種不同的軟件工具和 API。
2023 年 3 月,Adept 宣布完成 3.5 億美元的 B 輪融資,公司估值超過 10 億美元,晉升獨角獸。不過,在 Adept 公開融資的時候,Niki Parmar 和 Ashish Vaswani 已經(jīng)離開了 Adept,并創(chuàng)立了自己的 AI 新公司。不過,這家新公司目前還處于保密階段,我們無法獲取該公司的詳細信息。
另一位論文作者 Noam Shazeer 是谷歌最重要的早期員工之一。他在 2000 年底加入谷歌,直到 2021 年最終離職,之后成為了一家初創(chuàng)企業(yè)的 CEO,名字叫做「Character.AI」。
Character.AI 創(chuàng)始人除了 Noam Shazeer,還有一位是 Daniel De Freitas,他們都來自谷歌的 LaMDA 團隊。此前,他們在谷歌構(gòu)建了支持對話程序的語言模型 LaMDA。
今年三月,Character.AI 宣布完成 1.5 億美元融資,估值達到 10 億美元,是為數(shù)不多有潛力與 ChatGPT 所屬機構(gòu) OpenAI 競爭的初創(chuàng)公司之一,也是罕見的僅用 16 個月時間就成長為獨角獸的公司。其應(yīng)用程序 Character.AI 是一個神經(jīng)語言模型聊天機器人,可以生成類似人類的文本響應(yīng)并參與上下文對話。
Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 發(fā)布,第一周下載量超過 170 萬次。2023 年 5 月,該服務(wù)增加了每月 9.99 美元的付費訂閱,稱為 c.ai+,該訂閱允許用戶優(yōu)先聊天訪問,獲得更快的響應(yīng)時間和早期訪問新功能等特權(quán)。
Aidan N. Gomez早在 2019 年就已離開谷歌,之后擔(dān)任 FOR.ai 研究員,現(xiàn)在是 Cohere 的聯(lián)合創(chuàng)始人兼 CEO。
Cohere 是一家生成式 AI 初創(chuàng)公司,于 2019 年成立,其核心業(yè)務(wù)包括提供 NLP 模型,并幫助企業(yè)改進人機交互。三位創(chuàng)始人分別為 Ivan Zhang、Nick Frosst 和 Aidan Gomez,其中 Gomez 和 Frosst 是谷歌大腦團隊的前成員。2021 年 11 月,Google Cloud 宣布他們將與 Cohere 合作,Google Cloud 將使用其強大的基礎(chǔ)設(shè)施為 Cohere 平臺提供動力,而 Cohere 將使用 Cloud 的 TPU 來開發(fā)和部署其產(chǎn)品。
值得注意的是,Cohere 剛剛獲得 2.7 億美元 C 輪融資,成為市值 22 億美元的獨角獸。
?ukasz Kaiser在 2021 年離開谷歌,在谷歌工作了 7 年零 9 個月,現(xiàn)在是 OpenAI 一名研究員。在谷歌擔(dān)任研究科學(xué)家期間,他參與了機器翻譯、解析及其他算法和生成任務(wù)的 SOTA 神經(jīng)模型設(shè)計,是 TensorFlow 系統(tǒng)、Tensor2Tensor 庫的共同作者。
Jakob Uszkoreit于 2021 年離開谷歌,在谷歌工作時間長達 13 年,之后加入 Inceptive,成為聯(lián)合創(chuàng)始人。Inceptive 是一家 AI 制藥公司,致力于運用深度學(xué)習(xí)去設(shè)計 RNA 藥物。
在谷歌工作期間,Jakob Uszkoreit 參與了組建谷歌助理的語言理解團隊,早期還曾從事過谷歌翻譯的工作。
Illia Polosukhin 于 2017 年離開谷歌,現(xiàn)在是 NEAR.AI(一家區(qū)塊鏈底層技術(shù)公司)的聯(lián)合創(chuàng)始人兼 CTO。
唯一還留在谷歌的是Llion Jones,今年是他在谷歌工作的第 9 年。
如今,距離《 Attention Is All You Need 》論文發(fā)表已經(jīng)過去 6 年了,原創(chuàng)作者們有的選擇離開,有的選擇繼續(xù)留在谷歌,不管怎樣,Transformer 的影響力還在繼續(xù)。
關(guān)鍵詞:
推薦
-
【IPO觀察】宏鑫科技:報材料存疑點,客戶情況被問詢
2022年12月1日,創(chuàng)業(yè)板上市委2022年第84次審議會議通過了浙江宏鑫科技股份有限公司(下稱:宏鑫科技)的創(chuàng)...
來源:中國日報中文網(wǎng) -
【基金看點】招商品質(zhì)領(lǐng)航?jīng)]能撐住,“周歲宴”竟是散伙飯
5月10日,招商基 金官網(wǎng)披露了招商品質(zhì)領(lǐng)航混合型證券投 資基 金清算報告提示性公告。這只于2022年5...
來源:中國日報中文網(wǎng) -
2023上海車展:極狐考拉首次公眾亮相 主打母嬰市場
極狐旗下車型考拉在上海車展首次在大眾面前亮相,該車型主打母嬰市場,定位為一款小型MPV,預(yù)計年內(nèi)上市...
來源:TechWeb -
華為智慧屏S3Pro系列正式發(fā)布:4K投屏 5999元起
在華為 nova11 系列及春季新品發(fā)布會上,華為智慧屏 S3 Pro 正式發(fā)布,支持超級投屏,可看 4K;家...
來源:迪族網(wǎng) -
-
榮耀筆記本三叉戟首秀 榮耀MagicBook14系列2023上市
榮耀舉行榮耀MagicBook 14系列新品發(fā)布會,推出榮耀MagicBook 14 2023和榮耀MagicBook 14 Pro 202...
來源:TechWeb -
消息稱三星顯示一直在同寶馬洽談OLED面板供應(yīng)協(xié)議
據(jù)外媒報道,在智能手機普遍采用之后,相關(guān)廠商也在嘗試將顯示效果更好、價格及利潤也更高的OLED面板,...
來源:TechWeb -
iPhone15Pro機模諜照曝光:固態(tài)按鍵設(shè)計無懸念
這段時間以來,外界越來越將目光轉(zhuǎn)移到新一代的iPhone 15系列上,這段時間已經(jīng)有關(guān)于該機外觀和配置的...
來源:TechWeb -
蘋果iPhone15Pro機模視頻展示新按鈕 USB-C等外觀設(shè)計
日前一個 iPhone 15 Pro 機模出現(xiàn)在抖音分享的視頻中,提供了對該設(shè)備傳聞中的設(shè)計的近距離觀察。預(yù)...
來源:TechWeb -
曝中興Axon50Ultra衛(wèi)星通信支持短信及語音對講
中興官方日前宣布,Axon 50 Ultra將于4月12日在中興行業(yè)終端論壇上正式亮相。而這款手機最大的亮點之...
來源:TechWeb
直播更多》
-
小米13Ultra發(fā)布:告別數(shù)碼味 回歸影像光學(xué)原點
小米集團在京召開新品發(fā)布會,正式發(fā)布...
-
小米13Ultra發(fā)布:告別數(shù)碼味 回歸影像光學(xué)原點
小米集團在京召開新品發(fā)布會,正式發(fā)布...
-
華為超聯(lián)接筆記本MateBookD14發(fā)布 這才是大學(xué)生與新銳白領(lǐng)的夢中情本!
在當(dāng)代大學(xué)生和新銳職場人士的眼中,如...
-
庫克擔(dān)任蘋果CEO已4250天 成蘋果任職時間最長正式CEO
據(jù)外媒報道,自2011年8月25日接替喬布斯...
-
小米13Ultra將首發(fā)索尼IMX858傳感器:所有副攝與主攝嚴(yán)格拉齊
據(jù)官方日前確認(rèn),全新的小米13 Ultra將...
-
多款重磅新品及解決方案發(fā)布 中興通訊舉辦2023年度云網(wǎng)生態(tài)峰會
2023年度中興通訊云網(wǎng)生態(tài)峰會在深圳成...
資訊更多》
-
2023上海車展:博...
-
蔚來首批15座500kW...
-
星曜半導(dǎo)體5G射頻...
-
華為nova11正面照...
-
OPPOFindX6Pro霸榜...
-
HAOMO發(fā)布自動駕駛...
焦點
- Transformer六周年:8位作者已創(chuàng)辦數(shù)家AI獨角獸
- continually怎么讀(continuously和continually的區(qū)別) 天天精選
- AI大模型驅(qū)動金融創(chuàng)新
- 迅游加速找不到路徑怎么辦?迅雷網(wǎng)游加速器怎么換節(jié)點?
- 2345好壓怎么壓縮文件?2345好壓怎么查找文件?
- 環(huán)球?qū)崟r:我們該如何評價2022-23賽季的熱火?
- 廣東省安徽宣城商會:開拓商會新路徑
- 全球報道:美ONE批量制造“李佳琦”
- 每日快訊!【老夏論金】黃金1957多在1967獲利,今天反彈開始做空!
- 為K60 Ultra讓路!Redmi K50至尊版512G頂配到手2629元