阿里也想做个“卖铲子”的人

?阿里也想做個“賣鏟子”的人

鋅產業 ·

山竹

2023/11/08

在大模型時代，阿里既想像英偉達一樣，成為那個“賣鏟子”的人，也想通過“賣鏟子”，繼續成為下一個時代的平臺型企業。

本文來自于微信公眾號“鋅產業”（ID：xinchanye2021），作者：山竹，投融界經授權發布。

2023年的大模型之(zhi)(zhi)戰，因算(suan)力需求之(zhi)(zhi)大，投入成(cheng)本之(zhi)(zhi)高，被不少(shao)人視為巨頭(tou)之(zhi)(zhi)間的掰手腕。

阿里的(de)大(da)模型(xing)是在(zai)今年(nian)4月(yue)面世(shi)，同年(nian)9月(yue)，阿里對外開源了7B/14B的(de)通義千問大(da)模型(xing)。

阿(a)里云CTO周靖人說(shuo)，“阿(a)里是唯一一家主動(dong)宣布大(da)(da)模型開源的大(da)(da)公司。”

開(kai)源讓阿里的大模型(xing)有了不一樣(yang)。

不過(guo)，這一年，阿里在大模型(xing)上(shang)的(de)重(zhong)重(zhong)布局，不只是想做(zuo)個開(kai)源社區(qu)，而是也想成為那(nei)個“賣鏟子”的(de)人。

?阿里也想做個“賣鏟子”的人

大模型的阿里往事

和國內(nei)大多數科技(ji)巨(ju)頭一(yi)樣，阿里涉足大模型(xing)相關(guan)技(ji)術領域，也并非從今年開始(shi)，而是可以追溯到四(si)年前(qian)。

2018年10月，谷歌預訓練大模型(xing)BERT發布，作為基于自家2017年發布的(de)(de)Transformer框架研發出(chu)的(de)(de)一種新型(xing)AI模型(xing)，BERT跳(tiao)出(chu)了循環網絡和(he)卷積(ji)網絡的(de)(de)經典AI范式，很好地發揮了“注意力機(ji)制”的(de)(de)結構(gou)特性，讓AI模型(xing)第(di)一次有了“通用”能力。

當時(shi)研發(fa)出BERT的谷歌兩(liang)位科(ke)學家絲毫不留情(qing)面，狠狠地(di)與(yu)OpenAI當時(shi)還慘不忍睹的初代GPT進(jin)行了一(yi)波對比(bi)。

BERT在當時風靡程(cheng)度(du)可以從兩個方面窺見一斑：

首先，在AI刷榜成(cheng)(cheng)癮的(de)那幾年，作為一(yi)個全(quan)新的(de)NLP模(mo)型(xing)(xing)，BERT刷新了11項NLP性能(neng)紀錄(lu)，成(cheng)(cheng)為了當年名副其實的(de)最強NLP預(yu)訓練(lian)模(mo)型(xing)(xing)；

其次(ci)是產(chan)業的(de)瘋狂跟(gen)進。

BERT發(fa)布僅(jin)(jin)僅(jin)(jin)一年后，Facebook的(de)RoBERTa模(mo)型、斯坦福的(de)ELECTRA模(mo)型，以及國內(nei)百度的(de)ERNIE模(mo)型等就(jiu)蜂擁而至。

阿里(li)達摩院(yuan)也是在(zai)2019年(nian)，在(zai)BERT基礎上，推演出的預訓練大語言模型structBERT。

自(zi)此(ci)之后(hou)，新的AI范式，也就(jiu)是現在所(suo)謂的大模型(xing)，開始在不確定中悄(qiao)悄(qiao)成長。

在2019年踏足這一領域(yu)后(hou)，阿里在2021年推出(chu)了(le)多(duo)模(mo)態大模(mo)型(xing)M6，又在2022年推出(chu)了(le)“通義”大模(mo)型(xing)。

與(yu)此同時，為了研究大模型，阿(a)里在達摩院內(nei)部整合機器智能、數據(ju)計算等(deng)實(shi)驗(yan)室(shi)資(zi)源，以“通義(yi)(yi)千(qian)問”之名，構建起了通義(yi)(yi)實(shi)驗(yan)室(shi)。

實際上(shang)，自M6開始，阿里大模型(xing)開啟(qi)了自我(wo)進化之(zhi)路(lu)，通(tong)義(yi)(yi)實驗室通(tong)義(yi)(yi)千問負責人周暢在(zai)2023云(yun)棲大會上(shang)稱，“我(wo)們最開始其實只是想做一個能看、聽、說、使用(yong)工具的通(tong)用(yong)智能體(ti)。”

圖片

而這，也是(shi)自1956年(nian)人工智能(neng)發展(zhan)至今(jin)的幾十年(nian)里(li)，所有AI研究(jiu)團(tuan)隊都在追逐的一(yi)個終極目標。

大模型新范式(shi)的出現，讓這一(yi)領域不少科學家第一(yi)次感(gan)受到(dao)，他們(men)離這一(yi)終極(ji)目標的距(ju)離，似乎已經很近。

從M6到通義千問

達摩院是阿(a)里在2017年(nian)成立的(de)一個(ge)科研(yan)屬性的(de)研(yan)究機構，背靠(kao)國內(nei)科技巨頭，達摩院陸(lu)續匯(hui)聚了來自(zi)全球各領域的(de)技術(shu)大牛。

尤(you)其是人工(gong)智能領域，不少華人AI科學家，都曾被(bei)達摩院招入麾下。

這就不難理(li)解(jie)，為什么2022年年初，達摩院能(neng)夠對外(wai)發(fa)布(bu)模型、任務、結構統(tong)一的通(tong)用(yong)多模態模型M6-OFA。

在2022年9月(yue)的WAIC 2022上，時任達摩院副(fu)院長(chang)的周靖人稱，M6-OFA正(zheng)是通義大(da)模型的底座。

然而，盡管這一(yi)模型在通用性上(shang)有(you)了不小的進步，但就語言(yan)(yan)理解能力而言(yan)(yan)，這一(yi)模型始(shi)終無(wu)法(fa)很好地與人類進行自然交(jiao)互。

直(zhi)到(dao)這年11月，ChatGPT的出(chu)現(xian)，讓達摩院同樣(yang)在做大模型的AI科學家(jia)興奮了(le)起(qi)來，也是(shi)在這時(shi)，他們有了(le)做通義(yi)千問的念頭。

而阿(a)里(li)真(zhen)正意(yi)義上的(de)(de)類ChatGPT大模型——通義千問的(de)(de)問世，是在阿(a)里(li)身(shen)處動(dong)蕩(dang)之年(nian)的(de)(de)2023年(nian)。

2023年，從(cong)內部來看，阿(a)里經歷(li)了(le)架(jia)構調整(zheng)、業務(wu)拆分、集團換帥，達摩院也經歷(li)了(le)不小的人員流動和調整(zheng)。

尤其是(shi)繼楊(yang)紅霞之(zhi)后，原達摩院(yuan)大模型團(tuan)隊另外兩位核心(xin)人物司羅、徐盈(ying)輝的(de)相(xiang)繼離職，讓阿里新(xin)的(de)大模型團(tuan)隊在百模大戰(zhan)前，進(jin)行了一次緊張的(de)重新(xin)梳理。

從外部來看，在ChatGPT問(wen)世(shi)后，短短幾個月里，迅(xun)國內速(su)涌現出不少大(da)模型明星(xing)團隊，李開復、王慧文(wen)、李志飛(fei)、王小(xiao)川等AI大(da)牛帶資入場，百度(du)文(wen)心一言更是在這(zhe)年3月迅(xun)速(su)上線開啟(qi)邀測，百模大(da)戰幾乎(hu)瞬(shun)發。

阿(a)里是在(zai)今年4月11日正式(shi)對外發布的(de)(de)類(lei)ChatGPT產(chan)品(pin)——通義千(qian)問，通義千(qian)問的(de)(de)發布，也(ye)宣(xuan)告著阿(a)里正式(shi)加入到了(le)這場堪稱(cheng)“AI革命(ming)”的(de)(de)百(bai)模(mo)大戰中。

時(shi)任阿(a)里CEO的張(zhang)勇這樣解釋這場變革：

“(大(da)模(mo)型是)今(jin)天(tian)真正一項(xiang)技(ji)術(shu)可(ke)能在未來十年二十年，形成重大(da)歷史契(qi)機、創(chuang)造新(xin)產業的關(guan)頭(tou)。”

于是，我們看到，在這之后(hou)，無論(lun)內(nei)部(bu)組織架構經(jing)歷(li)怎(zen)樣復雜的調整，都(dou)沒有影響阿里對大(da)模(mo)型的團隊(dui)、資源的巨量投入。

邀測(ce)順(shun)利開啟、新(xin)產品(pin)通義聽(ting)悟(wu)、通義萬相等相繼發(fa)布，阿里(li)核(he)心業(ye)務釘釘、淘寶逐漸導入(ru)大模型(xing)，就連相對獨立的(de)(de)C端品(pin)牌天貓(mao)精靈，也成了(le)通義千問的(de)(de)試驗(yan)田，早早傳出(chu)了(le)接入(ru)通義千問大模型(xing)的(de)(de)消(xiao)息。

一切就像張勇在(zai)4月發布通(tong)義(yi)千(qian)問時說的那樣，“阿里所有產品(pin)都將接入(ru)大模型(xing)(重新做一遍)已經成為阿里內部的共(gong)識。”

輪到釘釘做“試驗田”

2023年，大模型急速發展，但不可(ke)否認的是，如(ru)今(jin)的大模型，仍處于(yu)商(shang)業(ye)化前夜。

要(yao)想將大模型(xing)生意(yi)做起來(lai)，各大公司必然(ran)需要(yao)一塊試驗田。和十年前云計算浪潮來(lai)臨(lin)時，阿里(li)首先將阿里(li)云用到(dao)自(zi)家核心業務(wu)淘寶上一樣，這次(ci)阿里(li)再次(ci)對(dui)內下手。

只不過，這(zhe)次(ci)最先被阿里選中(zhong)的是釘(ding)釘(ding)。

被選上的釘(ding)釘(ding)受(shou)寵(chong)若(ruo)驚，在通義千問發布僅(jin)僅(jin)一(yi)周后的春釘(ding)發布會上，釘(ding)釘(ding)總裁葉軍笑稱：

“以(yi)往我(wo)們(men)(men)釘釘做(zuo)個(ge)產(chan)品，天天都是求著人(ren)家用(yong)，最近這一個(ge)月，每天都有人(ren)在(zai)在(zai)釘釘、微信上(shang)找我(wo)們(men)(men)說(shuo)，能(neng)不能(neng)趕快(用(yong)大模(mo)型)做(zuo)點功能(neng)給我(wo)們(men)(men)。”

也(ye)是在這場發布會上，葉軍正式官宣(xuan)“釘(ding)(ding)釘(ding)(ding)全面接入通義千問大模型(xing)”，并討(tao)巧地用(yong)了一個程(cheng)序員的標志性符號——“/”來命名(ming)嵌(qian)入到釘(ding)(ding)釘(ding)(ding)中(zhong)的這一“大模型(xing)”功能。

這一被(bei)嵌入到(dao)釘釘中的(de)名為“/”的(de)功(gong)能當時被(bei)應用到(dao)了IM、文(wen)檔(dang)、視頻會(hui)議、應用開發等內嵌功(gong)能中，用以實(shi)現(xian)諸如寫(xie)推(tui)廣文(wen)案、生成配圖、提取會(hui)議紀(ji)要、生成視頻會(hui)議議程回顧、創建待辦事項(xiang)、發起群(qun)投票(piao)、生成表情包(bao)等功(gong)能。

可以看到，“釘釘”接(jie)入“通義千問”的過(guo)程和能(neng)力(li)，與(yu)“微軟(ruan)Bing”接(jie)入“ChatGPT”本質類似，功能(neng)也相同。

不同的是，大模型為釘釘這樣的應用帶來了一次重(zhong)生的機(ji)會。

作為釘釘的大(da)家長，葉軍對此(ci)深有體會(hui)。

“大家(jia)一(yi)直都(dou)說釘(ding)(ding)釘(ding)(ding)是一(yi)個非常(chang)臃腫的軟(ruan)件，釘(ding)(ding)釘(ding)(ding)的功能確實非常(chang)多，多到有時候我們都(dou)找(zhao)不到在(zai)哪(na)里，大模型為釘(ding)(ding)釘(ding)(ding)帶來了一(yi)次躍遷(qian)的機會。”

也是借著這次(ci)大模型的機會，曾經在(zai)消(xiao)費市場沒什么存在(zai)感(gan)的釘(ding)釘(ding)，在(zai)這一年，收(shou)購了(le)我來的釘(ding)釘(ding)推出了(le)“釘(ding)釘(ding)個人版”。

釘釘個(ge)(ge)人版(ban)(ban)的獨特之處(chu)在于(yu)，官(guan)方(fang)基于(yu)我來(釘釘收購(gou)的協同辦公團隊)在這個(ge)(ge)版(ban)(ban)本上(shang)打(da)造了一個(ge)(ge)個(ge)(ge)人空(kong)間，用戶在釘釘上(shang)通過大模型檢索或生成的內(nei)容，都可以存到這個(ge)(ge)個(ge)(ge)人空(kong)間中。

葉軍說(shuo)，“將AI創(chuang)作(zuo)的內容(rong)存下來，基于AI創(chuang)作(zuo)的內容(rong)編輯修改(應用到編寫郵(you)件、方案創(chuang)作(zuo)中)，可(ke)能將是未來每個人工作(zuo)的常態。”

這是釘(ding)釘(ding)基于大模型(xing)做(zuo)出的改變(bian)，是葉軍看(kan)到的釘(ding)釘(ding)的機會。

而釘釘，也成為阿里口中(zhong)“國內第(di)一個將大模型規模落(luo)地的(de)應用(yong)”。

模型迭代兩三事

互(hu)聯網公(gong)司對(dui)技(ji)術感知度足(zu)夠高，于(yu)是有(you)了(le)阿里快速跟進類ChatGPT大模型;

釘釘跑得足(zu)夠(gou)快(kuai)，于是有了(le)幾乎與阿里發布(bu)通義千問同時的官宣接入，甚至還手把手教了(le)一遍(bian)各位(wei)“看官”如何在(zai)釘釘中用大模型。

不(bu)過，這些只是百模大戰的開始。

在(zai)ChatGPT一(yi)路小步快跑(pao)，迅速更新(xin)到到了GPT-3.5、GPT-4一(yi)樣，國內(nei)的大模(mo)(mo)型也(ye)一(yi)邊公測、一(yi)邊應用，一(yi)邊也(ye)在(zai)快速進行(xing)模(mo)(mo)型迭代。

阿里是在上周的云(yun)棲(qi)大(da)會上正式對外(wai)發布的通義(yi)千問(wen)2.0版(ban)本(ben)，在此之(zhi)前，包括華(hua)為、百(bai)度、科(ke)大(da)訊飛等大(da)廠和(he)獨角獸都陸續更新了大(da)模型的版(ban)本(ben)和(he)能力。

從通(tong)義千問面世到(dao)2.0版本發布，中間經歷了半年(nian)的時間，這半年(nian)是阿(a)里(li)與全球其(qi)他大模(mo)型團隊(dui)緊張競速的半年(nian)。

在這半年里(li)，阿里(li)從各個渠道不斷努(nu)力(li)招人來擴充通義實驗室(shi)的戰力(li)，加(jia)緊技術研發和(he)模型訓(xun)練。

據(ju)周暢在云棲(qi)大會上透露，“由于資源有限，我們這半年整體(ti)是在圍(wei)繞Scalling Law做技術探(tan)索。”

所謂(wei)Scalling Law(規(gui)模定理)，指的是算力、參(can)數規(gui)模與模型測(ce)試損(sun)失之間的函數關系。

周暢(chang)所說的“圍繞(rao)Scalling Law做技術探索(suo)”，實(shi)際上(shang)就(jiu)是基于小模(mo)(mo)型(xing)研究(jiu)數(shu)據(ju)分布、清(qing)晰規則、數(shu)據(ju)配比，在模(mo)(mo)型(xing)算力和參(can)數(shu)規模(mo)(mo)擴大時，如何提升模(mo)(mo)型(xing)能力。

基于這些工作，周暢(chang)和他的(de)團隊將通義千問的(de)預訓練語(yu)料提升了一(yi)倍。

在(zai)預訓(xun)(xun)練語料(liao)得(de)到提升后，模型(xing)訓(xun)(xun)練效率成(cheng)了阻礙算(suan)法迭代的(de)又(you)一關鍵(jian)問題，而在(zai)大規(gui)模集群里(li)，任務穩(wen)定性也存在(zai)很大挑(tiao)戰。

于是，阿里(li)通義千問(wen)團隊又通過對底層(ceng)靈(ling)駿集(ji)群的穩(wen)定性、網絡效率，中間(jian)層(ceng)各(ge)種算子(zi)優化，以(yi)及框架層(ceng)的設計機制(zhi)進行了著重攻關。

基于(yu)這(zhe)些工作，阿里通義(yi)千問團隊又將模型訓(xun)練效率提(ti)升了30%，訓(xun)練穩定性提(ti)升了15%。

圖片

而通(tong)過對Scalling Law的探索，通(tong)義千(qian)問(wen)(wen)團隊最終將積累(lei)下來的這些經驗應用到(dao)通(tong)義千(qian)問(wen)(wen)模型(xing)訓練(lian)中，由(you)此(ci)也就有了阿里上周發布的通(tong)義千(qian)問(wen)(wen)2.0。

不為模型，為工具

在上(shang)周云棲大會(hui)上(shang)，隨著通義千(qian)問2.0的發布(bu)(bu)，周靖人還對外做了另外兩項發布(bu)(bu)：

一(yi)項(xiang)是整合了此前阿里基于通(tong)義千問的(de)各類模(mo)型，統(tong)一(yi)對(dui)外梳理并發布了8大(da)行業(ye)模(mo)型；

另一項則(ze)是更新并發(fa)布(bu)了阿里的(de)大(da)模(mo)(mo)型基礎設施，包括模(mo)(mo)型訓(xun)練平(ping)臺PAI靈駿、模(mo)(mo)型推理與服(fu)務平(ping)臺PAI靈積(ji)，以及大(da)模(mo)(mo)型應用(yong)開發(fa)平(ping)臺百煉。

然而，這些(xie)并不是最重要的(de)。

鋅產業(ye)認為，作為蔡(cai)崇(chong)信(xin)、王堅兩位(wei)重回(hui)舞(wu)臺(tai)見(jian)證阿里(li)(li)新時期的(de)這(zhe)場云棲大會，最重要的(de)是，作為阿里(li)(li)大模型研發一(yi)號位(wei)的(de)周靖人，明確了大模型時代阿里(li)(li)的(de)定(ding)位(wei)：

——不是做一個(ge)C端產(chan)品(通義千問)，而(er)是要將(jiang)模型的能力(li)釋放出去，繼續做B端生(sheng)意。

基于這樣的(de)定位，周靖人也明確了阿里大(da)模(mo)型的(de)三個商業模(mo)式(shi)：

第一，為創業(ye)公司、高校和機構(gou)開發自己的通用大模(mo)型，提供算力、工具(ju)和服務；

第(di)二，為(wei)有(you)較強AI能力的(de)(de)團(tuan)隊和(he)開(kai)發(fa)者(zhe)提供(gong)模(mo)型(xing)(xing)開(kai)發(fa)平臺，供(gong)這些團(tuan)隊和(he)開(kai)發(fa)者(zhe)結(jie)合(he)自己的(de)(de)行業知識、第(di)三方通(tong)用(yong)大模(mo)型(xing)(xing)，開(kai)發(fa)自己的(de)(de)專用(yong)大模(mo)型(xing)(xing)(基礎(chu)模(mo)型(xing)(xing))；

第(di)三，為希(xi)望基于基礎模(mo)型(xing)(xing)做二次開發的團隊，提供基礎模(mo)型(xing)(xing)和服務。

總結(jie)來看就(jiu)是(shi)，阿里在大模(mo)型(xing)時代想做(zuo)的(de)是(shi)為(wei)想要開發“通用大模(mo)型(xing)”、“行業(ye)大模(mo)型(xing)”和“基于大模(mo)型(xing)的(de)應用”的(de)三類人群(qun)提供三樣東西(xi)：

一(yi)曰(yue)工具，即算力平(ping)臺、訓練(lian)平(ping)臺、開發平(ping)臺，當然(ran)也包括其他(ta)各種(zhong)云服務；

二曰模(mo)型(xing)，即(ji)“通義”家族，以(yi)及其他三(san)方開發者開發出(chu)的各種基(ji)礎模(mo)型(xing)；

三曰生態，即(ji)魔搭社區，通過魔搭社區既要做一個豐(feng)富的模型生態，也要做模型背(bei)后的開發者生態。

顯然(ran)，在大模型時(shi)代，阿(a)里既想(xiang)(xiang)像(xiang)英偉達一樣，成(cheng)為那(nei)個“賣鏟子(zi)”的人(ren)，也想(xiang)(xiang)通過(guo)“賣鏟子(zi)”，繼續成(cheng)為下(xia)一個時(shi)代的平臺型企(qi)業。

大模型平臺(tai)企業人工智能

評論

還可輸入300個字

發布留言

2018高清国产一区二区三区-国产黄色视频免费在线观看-欧美激情欧美精品一区二区-免费国产一级片内射老妇