大模型掀起诸神之战，我们更需要人人可用的“普惠模型”

大模型掀起諸神之戰，我們更需要人人可用的“普惠模型”

2023/04/18

“人人都會大模型開發”，這才是AI大模型技術普惠的必經之路，也是我國AI大模型實現趕超的關鍵。

本文來自于微信公眾號“羅超頻道”（ID：luochaotmt），投融界經授權發布。

大模(mo)型(xing)(xing)(xing)行業越(yue)來越(yue)熱鬧。國外，馬斯克為Twitter搶(qiang)購1萬塊(kuai)GPU籌備大模(mo)型(xing)(xing)(xing)項目、亞馬遜大力投資大型(xing)(xing)(xing)語言模(mo)型(xing)(xing)(xing)和生成式AI、OpenAI推出了(le)ChatGPTiOS版本(ben)；國內，百度發布(bu)文(wen)心一言、阿(a)里發布(bu)通義(yi)千問(wen)，王小川、王慧文(wen)、閆(yan)俊杰等“有背(bei)景”的創業者(zhe)跑步進(jin)場。

大模型掀起諸神之戰，我們更需要人人可用的“普惠模型”

相(xiang)較于深度(du)學習而言，大(da)模(mo)型讓AI的認知(zhi)能力更(geng)上一層樓，進而實現(xian)所謂的“智能涌現(xian)”，催(cui)生出ChatGPT、AutoGPT、AIGC等新型應用，讓AI全面進入工業(ye)化(hua)大(da)生產階段。英偉達(da)創始(shi)人(ren)、CEO黃仁勛說：AI的“iPhone時刻”來臨(lin)。在激動人(ren)心的“iPhone時刻”，行業(ye)缺什么？

百模大戰

AI的門檻一下變高了

跟當年的AI創業(ye)以及互聯網創業(ye)生態不(bu)同，大模型成為“頭號玩家(jia)”的游戲，活(huo)躍的玩家(jia)要(yao)么是大廠，要(yao)么是有(you)資金加持(chi)的“有(you)背景”創業(ye)者，“草根創業(ye)者”尚(shang)未(wei)出現。

大(da)模型具有“巨量(liang)(liang)數據、巨量(liang)(liang)算(suan)法、巨量(liang)(liang)算(suan)力(li)(li)”三大(da)“巨量(liang)(liang)”特征，對任何企業(ye)包括巨頭(tou)來說，打造(zao)一(yi)個大(da)模型都不是一(yi)件(jian)容(rong)易的事情(qing)，需(xu)要收集海量(liang)(liang)數據、需(xu)要采買海量(liang)(liang)算(suan)力(li)(li)、需(xu)要進行大(da)量(liang)(liang)研發，金(jin)錢、時間(jian)、人力(li)(li)投入同(tong)樣“巨量(liang)(liang)”。ChatGPT是創業(ye)公(gong)司OpenAI做的，這家公(gong)司在2015年成立后低調耕耘8年，且有微軟(ruan)等巨頭(tou)/大(da)佬支持，底層硬件(jian)投入高達(da)10億美元以上，每次訓(xun)練消耗(hao)的電力(li)(li)足夠3000輛特斯拉汽車(che)每輛跑20萬(wan)英里。

“巨量”特征(zheng)讓大(da)(da)模(mo)型(xing)研發(fa)門檻極高(gao)，但(dan)任何技術生(sheng)態要走向(xiang)繁(fan)榮都離不開(kai)社會化(hua)創(chuang)新。移動互聯網的崛起源自于iOS和安卓的出現，但(dan)也(ye)離不開(kai)應用市場數百萬開(kai)發(fa)者(zhe)(zhe)的創(chuang)新。同理(li)，大(da)(da)模(mo)型(xing)上“長出”的應用也(ye)都得靠開(kai)發(fa)者(zhe)(zhe)來定(ding)義，讓AI大(da)(da)模(mo)型(xing)為(wei)所(suo)有開(kai)發(fa)者(zhe)(zhe)（技術服務商、企(qi)業、組(zu)織、個體(ti)開(kai)發(fa)者(zhe)(zhe)等）所(suo)用，是加速大(da)(da)模(mo)型(xing)產業發(fa)展(zhan)的關鍵。

截(jie)至目(mu)前，大(da)模型還處在“只(zhi)聽其(qi)(qi)聲(sheng)不聞其(qi)(qi)人(ren)”的階(jie)段，大(da)廠的大(da)模型已在開(kai)放(fang)，但需要使用(yong)者有較高的人(ren)才(cai)、算力等(deng)(deng)資源配置，當下市面上(shang)急缺一款讓開(kai)發者乃至大(da)學生(sheng)等(deng)(deng)群體“人(ren)人(ren)可(ke)用(yong)”的大(da)模型。

62億(yi)參數規格

大模型也(ye)能“小而美”

最近我在朋(peng)友圈看(kan)到有(you)人(ren)分享了一個(ge)輕(qing)量級開源大(da)模型(xing)：中英雙語對(dui)話模型(xing)ChatGLM-6B，它(ta)的(de)(de)最大(da)特(te)點是(shi)輕(qing)量化(hua)，支持(chi)在單張消費(fei)級顯卡上進行(xing)部(bu)署推理使用，這讓它(ta)具備人(ren)人(ren)可用的(de)(de)基礎——千億(yi)規格的(de)(de)大(da)模型(xing)往(wang)往(wang)需要成百上千張顯卡才能(neng)部(bu)署。

ChatGLM-6B來(lai)自智譜AI這(zhe)家公司，它由清華(hua)技術成果轉(zhuan)化(hua)而(er)來(lai)。2022年(nian)8月，智譜AI旗下的千(qian)億級參數模(mo)型(xing)GLM-130B中(zhong)英雙(shuang)語(yu)稠密模(mo)型(xing)正式向研究界(jie)和(he)工業界(jie)開放——“130B”是130billion的縮寫(xie)，即1300億參數。據官網(wang)介紹稱，GLM-130B與BERT、GPT-3和(he)T5有(you)著不同的架構，是一個(ge)包(bao)含多(duo)目標函數的自回歸(gui)預(yu)訓(xun)練模(mo)型(xing)，具有(you)雙(shuang)語(yu)支持、高精度和(he)快速推理等(deng)特(te)性(xing)。

2022年11月(yue)，斯坦(tan)福大(da)學大(da)模(mo)型(xing)(xing)中心對(dui)全球30個主流大(da)模(mo)型(xing)(xing)進行了全方位的(de)(de)評(ping)測，GLM-130B是亞(ya)洲唯一入(ru)選的(de)(de)大(da)模(mo)型(xing)(xing)。在與OpenAI、谷歌大(da)腦(nao)、微軟、英偉達、臉書(shu)的(de)(de)各大(da)模(mo)型(xing)(xing)對(dui)比(bi)中，評(ping)測報告顯示GLM-130B在準確(que)性(xing)和惡意性(xing)指標(biao)上與GPT-3175B（davinci）接近或持(chi)平，魯棒性(xing)和校(xiao)準誤(wu)差在所有千億規模(mo)的(de)(de)基座大(da)模(mo)型(xing)(xing)（作(zuo)為公平對(dui)比(bi)，只對(dui)比(bi)無指令提示微調模(mo)型(xing)(xing)）中表現不(bu)錯。

大模型掀起諸神之戰，我們更需要人人可用的“普惠模型”

2023年3月14日，智(zhi)譜(pu)AI基于GLM-130B推(tui)出的千億對話模(mo)型(xing)ChatGLM開始內測(ce)，ChatGLM對標ChatGPT，具(ju)備問(wen)答和對話功能且針對中文進行了優化，第三方評(ping)測(ce)顯(xian)示其具(ju)備ChatGPT3.5至少70%的能力水(shui)平。同一天，智(zhi)譜(pu)AI還開源了62億參數(shu)的ChatGLM-6B模(mo)型(xing)。根據官(guan)方Blog顯(xian)示，ChatGLM-6B采取跟GLM-130B一樣的架構與(yu)技(ji)術，其將參數(shu)規格從(cong)千億精(jing)簡到(dao)62億，具(ju)有如下特征：

第一，輕量(liang)級(ji)。結合(he)模(mo)型量(liang)化技術，ChatGLM-6B參(can)數(shu)大(da)(da)幅精簡(jian)，INT4量(liang)化級(ji)別下最低只需6GB顯存(cun)，支持在單張消(xiao)費級(ji)顯卡上進行(xing)本地部署(shu)，部署(shu)門檻與推理成(cheng)本大(da)(da)幅降低。

第二，中(zhong)英雙語對話(hua)。進(jin)行(xing)了充分的中(zhong)英雙語預訓(xun)練，經過約(yue)1T標識(shi)符(fu)的中(zhong)英雙語訓(xun)練，輔(fu)以監督微調、反饋(kui)自助(zhu)、人類反饋(kui)強化學(xue)習等訓(xun)練方式，它更能對齊(qi)人類意圖，進(jin)而擁有不錯的智(zhi)能表現。

第(di)三，國(guo)產(chan)(chan)自主。GLM-130B對(dui)國(guo)產(chan)(chan)信控生(sheng)態有較好的(de)支持(chi)，可(ke)在國(guo)產(chan)(chan)的(de)海光DCU、華為(wei)昇騰910和申威處理器(qi)及(ji)美國(guo)的(de)英偉達芯(xin)片上進行訓練與(yu)推理。ChatGLM-6B作為(wei)國(guo)產(chan)(chan)自主的(de)輕量(liang)級大(da)模型也支持(chi)信控平臺，可(ke)助力我國(guo)AI技(ji)術(shu)特別是大(da)模型自主化(hua)。

截至目前ChatGPT、文心(xin)一(yi)言、通義千(qian)問的體(ti)驗門檻都很高，而(er)ChatGLM-6B支持公眾(zhong)體(ti)驗（http：//open.bigmodel.ai/trialcenter），簡單注冊(ce)后，我體(ti)驗了一(yi)下它的能(neng)力。對近期AI型圈沸(fei)沸(fei)揚揚的口水戰，它回(hui)答(da)得很得體(ti)。

我打算(suan)做一(yi)個華為最新折疊屏手機(ji)MateX3的評(ping)測，讓ChatGLM-6B幫忙寫一(yi)個提綱(gang)，結果中(zhong)(zhong)規中(zhong)(zhong)矩，思路沒問題：

寫詩這樣的(de)常規任(ren)務(wu)不在(zai)話下。

商(shang)業文案創作比如(ru)取名(ming)、想廣告詞都可以做，“喝蜜(mi)雪，不舔蓋”，很有創意了(le)。

體(ti)驗中大(da)部分時候ChatGLM-6B的表現相比ChatGPT、文心一言、通義(yi)千問并不(bu)遜色，考(kao)慮(lv)到它(ta)是一個只有(you)62億參數的“輕量版”大(da)模型，哪怕“遜色”也都可以原諒了。特(te)別值得一提的是，智譜(pu)AI針對(dui)取標題、寫(xie)文章等不(bu)同場景(jing)進行(xing)了調優(you)，讓(rang)它(ta)在滿足對(dui)應(ying)AIGC需求(qiu)時有(you)更出色的表現。

ChatGLM-6B的(de)參數規(gui)格只有62億(yi)，因此也存在一些不(bu)容回(hui)避(bi)的(de)問題，比如在面對許多事實性知識(shi)任務時(shi)可能會生(sheng)成(cheng)不(bu)正確的(de)信息，不(bu)擅(shan)長邏輯類問題（如數學、編程）的(de)解(jie)答，對多輪(lun)對話(hua)的(de)支持很一般。

要真正(zheng)擁有人的(de)智商(shang)，AI大(da)模(mo)(mo)型依然任重道遠。AI大(da)模(mo)(mo)型的(de)完整稱(cheng)呼是“AI預(yu)(yu)訓練(lian)大(da)模(mo)(mo)型”，“預(yu)(yu)訓練(lian)”的(de)字(zi)面意思很容易理解：預(yu)(yu)先訓練(lian)好，這樣(yang)應(ying)(ying)用(yong)(yong)開(kai)發者可得(de)到相(xiang)對現成的(de)訓練(lian)結(jie)果，基(ji)于此直接開(kai)發AI應(ying)(ying)用(yong)(yong)，不再需要從(cong)0到1訓練(lian)數據、建立模(mo)(mo)型。它通過(guo)堆疊數據集“貪婪式”地訓練(lian)模(mo)(mo)式，擁有較強的(de)通用(yong)(yong)性，理論上可泛化(hua)到多種應(ying)(ying)用(yong)(yong)場景(jing)，而小樣(yang)本或零樣(yang)本的(de)技術(shu)實(shi)現，則可讓應(ying)(ying)用(yong)(yong)開(kai)發者快速基(ji)于其構建工程應(ying)(ying)用(yong)(yong)。

顯而易見(jian)，ChatGLM-6B的(de)(de)出現(xian)體(ti)現(xian)出了(le)大模(mo)(mo)型(xing)預(yu)訓(xun)練與泛化通(tong)用的(de)(de)精(jing)髓，它的(de)(de)理念(nian)是“有舍才有得”，弱(ruo)化一些能力，但降低了(le)部署(shu)門檻，讓開發者(zhe)、研究者(zhe)在本(ben)地計算機上進(jin)行(xing)大模(mo)(mo)型(xing)的(de)(de)微調(diao)、部署(shu)、訓(xun)練成了(le)可(ke)能，進(jin)而可(ke)更(geng)好地支持大模(mo)(mo)型(xing)落地到(dao)海(hai)量(liang)場景。

在(zai)前幾天的(de)一次(ci)公開活動上，智譜AICEO張鵬(peng)曾表達一個(ge)觀點，“AIGC產(chan)業(ye)基座是預訓練大(da)模(mo)型，原因(yin)在(zai)于兩個(ge)方面(mian)：第一、通(tong)用泛化(hua)(hua)能力，為AI研發(fa)降(jiang)本增效，這是非(fei)常關鍵的(de)特(te)性(xing)；第二，融(rong)入更多知識，讓(rang)大(da)模(mo)型能更好模(mo)擬人的(de)智能。但與(yu)(yu)此(ci)同時也面(mian)臨著一些挑(tiao)戰(zhan)，比如(ru)成本高昂、訓練數據巨大(da)，周(zhou)期長等。”ChatGLM-6B的(de)開源正是智譜AI實(shi)現通(tong)用泛化(hua)(hua)、降(jiang)低AI研發(fa)門(men)檻與(yu)(yu)成本的(de)實(shi)踐。

開(kai)源(yuan)一個月后，ChatGLM-6B的Huggingface全球(qiu)下載量(liang)已超(chao)過75萬(wan)，持續兩周位(wei)列Huggingface全球(qiu)模(mo)型趨勢(shi)榜(bang)榜(bang)首，GitHub星(xing)標數達到(dao)1.7萬(wan)。“小而美(mei)”的ChatGLM-6B在(zai)開(kai)源(yuan)社(she)區走熱(re)是大(da)模(mo)型熱(re)的縮影。

ChatGLM-6B讓大模型技術“人人可用”

ChatGLM-6B通過輕量化(hua)的(de)(de)模(mo)(mo)(mo)式(shi)實現大模(mo)(mo)(mo)型的(de)(de)通用(yong)泛化(hua)，解決了大模(mo)(mo)(mo)型“高不可攀”這一開發者(zhe)的(de)(de)痛點。在(zai)日益蓬勃的(de)(de)大模(mo)(mo)(mo)型產業中，有(you)著獨(du)特占位(wei)的(de)(de)ChatGLM-6B將在(zai)AI技術(shu)普惠(hui)中扮演重要角(jiao)色。具體來說，它將給(gei)大模(mo)(mo)(mo)型產業帶(dai)來如下好(hao)處：

1、降低(di)大(da)(da)模(mo)型(xing)(xing)使用(yong)(yong)門檻。更(geng)多開發(fa)者(zhe)可輕(qing)松部署大(da)(da)模(mo)型(xing)(xing)，一(yi)方面，ChatGLM-6B是開源的，開發(fa)者(zhe)可深入大(da)(da)模(mo)型(xing)(xing)底層一(yi)探究竟(jing)，只有搞清(qing)楚大(da)(da)模(mo)型(xing)(xing)的運(yun)轉機(ji)制才(cai)能更(geng)好地利用(yong)(yong)好大(da)(da)模(mo)型(xing)(xing)技術。另(ling)一(yi)方面，開發(fa)者(zhe)可基于(yu)ChatGLM-6B進行上(shang)層應(ying)用(yong)(yong)創新，開發(fa)出我們今(jin)天想都想不到(dao)的創新AI應(ying)用(yong)(yong)，在工業化階段再切換到(dao)GLM-130B這樣的千億(yi)級(ji)大(da)(da)模(mo)型(xing)(xing)上(shang)。

2、降低大(da)(da)(da)模型(xing)的(de)訓(xun)練(lian)(lian)成(cheng)本。大(da)(da)(da)模型(xing)訓(xun)練(lian)(lian)成(cheng)本高(gao)昂且耗能，基(ji)于開源的(de)ChatGLM-6B，開發者不(bu)再需(xu)要(yao)搭建龐大(da)(da)(da)的(de)算力(li)體系，在訓(xun)練(lian)(lian)推理時也不(bu)需(xu)要(yao)耗費驚人(ren)的(de)電力(li)資(zi)源、所需(xu)時間周期將大(da)(da)(da)幅縮短，進而更高(gao)效、低碳(tan)、經(jing)濟地應用(yong)大(da)(da)(da)模型(xing)技(ji)術(shu)，加(jia)速AI工業化大(da)(da)(da)生(sheng)產。

3、有利于大模型的(de)教育普(pu)及。喬布斯當年曾說人(ren)(ren)人(ren)(ren)都(dou)要會編(bian)程，未來人(ren)(ren)人(ren)(ren)則要學會使用(yong)AI工具(ju)。在(zai)教育場景，計算機(ji)相關專(zhuan)業的(de)大學生以(yi)(yi)及對編(bian)程有興趣的(de)青少年，只(zhi)要有一(yi)臺搭載顯(xian)卡的(de)計算機(ji)就(jiu)能輕松地部署ChatGLM-6B，可以(yi)(yi)盡早了解并學會應用(yong)大模型這一(yi)基礎技術。

個(ge)(ge)人(ren)覺得(de)，“ChatGLM-6B+GLM-130B”的組合(he)模(mo)式給AI大模(mo)型產(chan)業落地提供了一(yi)個(ge)(ge)新的范式：輕量級大模(mo)型扮演普惠的角色(se)，讓(rang)更多(duo)人(ren)輕松“入(ru)門”，學習、理解、熟悉大模(mo)型技術，進行創新應(ying)用(yong)(yong)的開發(fa)、驗證、測試等。到了應(ying)用(yong)(yong)階(jie)段，如(ru)有必(bi)要再使用(yong)(yong)GLM-130B這樣的千億級工業化大模(mo)型部署產(chan)品，面向(xiang)客戶與用(yong)(yong)戶提供商業化服務。

寫在(zai)最后：

AI大模型技術掀起(qi)新(xin)一輪產(chan)業革命，人類社會的生(sheng)(sheng)產(chan)力、生(sheng)(sheng)產(chan)資料(liao)與(yu)(yu)生(sheng)(sheng)產(chan)關系都將被(bei)重新(xin)定義，人們的生(sheng)(sheng)活與(yu)(yu)工作方(fang)式、企(qi)業的經(jing)營模式以(yi)及社會的治(zhi)理方(fang)式都在(zai)被(bei)重構。在(zai)這樣的大變局下，AI大模型已成為“國之重器”。

在技(ji)術浪(lang)潮涌來(lai)時(shi)，國際形勢正波詭云譎(jue)，大(da)國競爭日益(yi)激烈(lie)，科(ke)技(ji)是核心角力(li)場，不論是十(shi)四五(wu)規劃綱(gang)要(yao)還(huan)是二十(shi)大(da)均明(ming)確要(yao)增強科(ke)技(ji)創(chuang)新引領作用，實(shi)現高水平科(ke)技(ji)自(zi)立自(zi)強。在這(zhe)樣的時(shi)代背景下，大(da)模型成(cheng)了跟芯(xin)片一樣的制高點(dian)，我國必(bi)須要(yao)有自(zi)己的底層大(da)模型技(ji)術，更需要(yao)有自(zi)己的完整(zheng)的大(da)模型應用與產(chan)業生態。

這幾天(tian)，王小川與百度的(de)口水戰在(zai)大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)行業(ye)引發熱議(yi)，其(qi)實爭論“我國大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)距(ju)離(li)ChatGPT的(de)差距(ju)究竟是(shi)2個(ge)月還是(shi)2年(nian)”沒什么意(yi)義，我國大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)技術(shu)距(ju)離(li)GPT還有客觀的(de)差距(ju)，推動大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)技術(shu)精進和產業(ye)落地，是(shi)大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)玩家(jia)們的(de)責任，行業(ye)更(geng)需要(yao)ChatGLM-6B這樣的(de)可落地的(de)解決方案，它大(da)(da)幅降(jiang)低(di)了AI開發門檻，未來(lai)還可結合低(di)代碼(ma)等技術(shu)實現(xian)“人人都會大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)開發”，這才是(shi)AI大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)技術(shu)普惠的(de)必經之(zhi)路，也是(shi)我國AI大(da)(da)模(mo)(mo)(mo)型(xing)(xing)(xing)實現(xian)趕超的(de)關鍵。

在官方博客(ke)上，ChatGLM團隊(dui)有一段(duan)樸(pu)素(su)的文(wen)字：

“我們(men)(men)一(yi)直在(zai)(zai)探(tan)(tan)索(suo)、嘗(chang)試和努(nu)力(li)，GLM系列模(mo)型取(qu)得了一(yi)絲進(jin)展(zhan)，但我們(men)(men)離國際頂尖大模(mo)型研究和產(chan)品（比如(ru)OpenAI的(de)(de)ChatGPT及(ji)下一(yi)代GPT模(mo)型）都(dou)還有明顯差距。中國大模(mo)型研究在(zai)(zai)原創算法、AI芯片和產(chan)業上的(de)(de)追趕(gan)與(yu)突破需要(yao)大家的(de)(de)一(yi)起(qi)努(nu)力(li)，更需要(yao)我們(men)(men)對下一(yi)代AI人才的(de)(de)培養與(yu)鍛(duan)煉。很幸運(yun)的(de)(de)是(shi)，GLM團(tuan)隊在(zai)(zai)過(guo)去(qu)幾(ji)年探(tan)(tan)索(suo)的(de)(de)過(guo)程中，有一(yi)群有情懷(huai)、有能(neng)(neng)力(li)、有格局(ju)的(de)(de)年輕(qing)人加入我們(men)(men)并(bing)肩(jian)作戰，快樂開卷，大家一(yi)起(qi)焦慮，一(yi)起(qi)熬(ao)夜，一(yi)起(qi)成長(chang)，一(yi)起(qi)創造(zao)。通用人工智能(neng)(neng)探(tan)(tan)索(suo)，我們(men)(men)一(yi)直在(zai)(zai)路上，努(nu)力(li)前行。”

我覺得(de)(de)還是很(hen)扎心的(de)。大模型(xing)熱(re)潮中(zhong)，渾水摸魚、蹭熱(re)點、搞炒作的(de)玩家(jia)不少，但也有一些腳(jiao)踏實地的(de)團隊正在研(yan)發大模型(xing)技(ji)術，想方設法在推(tui)動(dong)大模型(xing)落(luo)地，只爭朝夕地追趕(gan)先行者，他(ta)們，值(zhi)得(de)(de)被尊(zun)敬。

AI 大(da)模型(xing) 技(ji)術(shu)

評論

還可輸入300個字

發布留言

2018高清国产一区二区三区-国产黄色视频免费在线观看-欧美激情欧美精品一区二区-免费国产一级片内射老妇