48271 向量數據庫這杯“啤酒”與“泡沫”

2018高清国产一区二区三区-国产黄色视频免费在线观看-欧美激情欧美精品一区二区-免费国产一级片内射老妇

服務熱線:400-858-9000 咨詢/投訴熱線:
國內專業的一站式創業服務平臺
向量數據庫這杯“啤酒”與“泡沫”
2023/07/28
和AI、大模型一樣,向量數據庫要品出味道,離不開時間的窖藏和醞釀。
本文來自于微信公眾號“腦極體”(ID:unity007),投融界經授權發布。

就(jiu)像啤酒(jiu)注(zhu)定要有泡沫,每一場(chang)淘金(jin)熱(re)都(dou)不缺被捧上了時代風(feng)口的人。

大模型這(zhe)一波熱潮中,向(xiang)量數據(ju)庫就是那(nei)個幸運兒。

一方面,技(ji)術層(ceng)面并沒(mei)有太大(da)突破。向量數(shu)(shu)據庫(ku)并不是一種特(te)別新的(de)數(shu)(shu)據庫(ku)技(ji)術,在AI領域已經應(ying)用(yong)了七八年(nian),谷歌在2015年(nian)就宣(xuan)布使用(yong)RankBrain語義檢索來處(chu)理(li)搜索任務。相比N家的(de)卡(ka)、液冷(leng)的(de)算(suan)、全光的(de)網、升級的(de)存,向量數(shu)(shu)據庫(ku)在技(ji)術方面并沒(mei)有特(te)別亮眼的(de)突破。

而另一方面,向量數(shu)據庫的投(tou)(tou)資(zi)(zi)熱潮又特別旺盛(sheng)。在(zai)上半年成了創業(ye)公(gong)(gong)司、云計算廠商、老(lao)牌數(shu)據庫公(gong)(gong)司,以及投(tou)(tou)資(zi)(zi)人們“群起而攻之(zhi)”的風口,Pinecone、Chroma和(he)Weviate等向量數(shu)據庫初創公(gong)(gong)司都獲得了融(rong)資(zi)(zi),有的融(rong)資(zi)(zi)額高達上億美元。這在(zai)全球(qiu)經濟不明朗的投(tou)(tou)資(zi)(zi)形勢下,還(huan)是非常亮(liang)眼的成績。

不同(tong)于GPU卡那(nei)樣短(duan)期內(nei)需(xu)求堅挺、供不應求,加(jia)上(shang)摩爾定律的(de)約束(shu),即使有泡沫,也(ye)是(shi)鐵做的(de)。也(ye)不同(tong)于存(cun)算網這(zhe)類“新(xin)基(ji)建”,長期投入的(de)戰略價(jia)值,得(de)到了廟堂和民間(jian)的(de)一(yi)致(zhi)重(zhong)視。

向量數據庫這杯“啤酒”與“泡沫”

向(xiang)量數據(ju)庫,更多是(shi)作為一種AI基礎技(ji)術和產品,開(kai)始為大(da)眾所知曉。

僅(jin)憑這樣,就(jiu)在投資市場上(shang)一飛(fei)沖天,多少(shao)有點讓人不安。加上(shang)最近(jin),大訓模(mo)型(xing)的熱度開始降溫,ChatGPT訪問量下降,更多大模(mo)型(xing)已經到地里田間礦井“干活兒”去了。

不(bu)禁讓人好奇,隨著大模型的風口下(xia)沉,向量數據庫的投資概念還能(neng)飛多久(jiu),會(hui)(hui)不(bu)會(hui)(hui)倏(shu)忽(hu)而來,倏(shu)忽(hu)而去,留下(xia)喝了“一嘴泡沫(mo)”的公司和投資人,在(zai)風中凌(ling)亂呢?

我們就來好(hao)好(hao)品一品,這一杯啤酒和泡沫。

技(ji)術的啤酒(jiu)

訓大(da)模型、用大(da)模型,離不(bu)開一系列AI基(ji)(ji)礎(chu)設施(shi),所以(yi),作(zuo)為基(ji)(ji)礎(chu)設施(shi)之一的向量數據庫,確實(shi)有點東西。引入向量數據庫,是(shi)能喝到真(zhen)材實(shi)料(liao)的“啤酒”的。

這就有必要先說說這個(ge)技(ji)術本身。

數(shu)(shu)據庫不用多說(shuo),是(shi)必不可(ke)少的IT基礎設施,用于存儲和查詢各種數(shu)(shu)據,可(ke)以看作(zuo)是(shi)數(shu)(shu)據的“硬盤(pan)”。那么(me),向量數(shu)(shu)據庫就是(shi)更(geng)適(shi)合AI體質(zhi)的“硬盤(pan)”,有幾個特質(zhi)來說(shuo)明(ming)這一點:

1.必(bi)要性。

向(xiang)量(liang)(liang)(liang)(liang)數(shu)(shu)據(ju)庫(ku)(ku),顧(gu)名思義(yi)就是(shi)專(zhuan)門用于(yu)存儲和管理向(xiang)量(liang)(liang)(liang)(liang)數(shu)(shu)據(ju)。作為一種(zhong)數(shu)(shu)據(ju)結(jie)構,每個(ge)(ge)向(xiang)量(liang)(liang)(liang)(liang)都(dou)包含多個(ge)(ge)維度,每個(ge)(ge)維度代(dai)表(biao)不(bu)同的(de)特征或屬性(xing),比如(ru)圖像(xiang)的(de)顏色(se)、文本詞匯的(de)出現頻率等。而AI算法,要從圖像(xiang)、音頻和文本等海量(liang)(liang)(liang)(liang)的(de)非結(jie)構化數(shu)(shu)據(ju)中學習,提取出以(yi)向(xiang)量(liang)(liang)(liang)(liang)為表(biao)示形式(shi)的(de)“特征”,以(yi)便(bian)模型能夠理解和處(chu)理。因(yin)此,向(xiang)量(liang)(liang)(liang)(liang)數(shu)(shu)據(ju)庫(ku)(ku)比傳(chuan)統的(de)關系型數(shu)(shu)據(ju)庫(ku)(ku),更適合AI應(ying)用。

向量數據庫這杯“啤酒”與“泡沫”

2.高效(xiao)率。

每個元素都有一(yi)個索引(yin),便于(yu)訪問或修改數值(zhi)。基(ji)于(yu)此,向量數據庫可以(yi)通(tong)過將分組(zu)和索引(yin),快(kuai)速找到與(yu)給定查詢最接近的嵌入,實現高效的相似性(xing)搜(sou)索,同時減少存儲和計算成(cheng)本。

相比(bi)傳統單機插件式數據(ju)庫,向量數據(ju)庫的檢索規模可以提升十倍,支持百萬級每秒(miao)查(cha)詢(xun)(QPS)的峰值能力,同(tong)時(shi)延遲控制在毫秒(miao)級。

想象一(yi)下,如果沒有高效的(de)搜(sou)索技術支(zhi)持,一(yi)個(ge)大(da)語言模(mo)型動輒(zhe)數十億、上(shang)百(bai)億參數,只能處理有限數量的(de)輸(shu)入數據,無法(fa)搜(sou)索更大(da)的(de)數據庫,那(nei)么(me)在AIGC、搜(sou)索、廣告推薦算法(fa)等任務(wu)的(de)性(xing)能表現(xian)就會受限。

一個(ge)公(gong)開數(shu)據是,通過使用(yong)云向量數(shu)據庫,QQ音樂(le)人均聽歌時長(chang)提(ti)升3.2%;騰訊視頻有(you)效(xiao)曝光人均時長(chang)提(ti)升1.74%;QQ瀏覽器成(cheng)本降低37.9%,這(zhe)些數(shu)據的變化就在于(yu)檢索效(xiao)率(lv)、運行(xing)穩定(ding)性、運營效(xiao)率(lv)、推薦算法等有(you)了較(jiao)大的提(ti)升。

3.需求大(da)。

隨著產業智能(neng)化的(de)(de)加速,以及大模型(xing)和(he)其他AI應(ying)用(yong)的(de)(de)爆發(fa),各行各業的(de)(de)AI用(yong)例不斷增多(duo),由此(ci)帶來了洶涌(yong)的(de)(de)數據洪潮和(he)存(cun)算任務,向量數據庫嵌入向量的(de)(de)長度不受限制,具(ju)有(you)良好(hao)的(de)(de)擴展性(xing),可以根據AI用(yong)例和(he)模型(xing)而變化,更(geng)好(hao)地處理大規模數據集。

而(er)且,向量數(shu)(shu)據(ju)庫可(ke)以拓展大(da)模(mo)型(xing)(xing)的(de)(de)時間邊界和空間邊界,讓大(da)模(mo)型(xing)(xing)在訓(xun)練(lian)完成(cheng)后,也可(ke)以訪問向量數(shu)(shu)據(ju)庫的(de)(de)最新(xin)信息,了解最近(jin)發生的(de)(de)事情。

總的來說,向量數據庫(ku)就是更(geng)適合AI體質的數據庫(ku),在(zai)AI任務上效果拔(ba)群,在(zai)機器學(xue)習(xi)領域中日益流行(xing)。

那么問(wen)題來了,一些在AI領(ling)域積淀已久的(de)科技(ji)(ji)大廠(chang),如(ru)(ru)谷歌、微軟、Mate以及BAT等大廠(chang),都(dou)(dou)有向量數(shu)據(ju)庫的(de)技(ji)(ji)術積累,也都(dou)(dou)可(ke)以向外輸出相關能力和產品。此(ci)外,一些基于開源(yuan)技(ji)(ji)術的(de)數(shu)據(ju)庫創業公司,如(ru)(ru)Pinecone、Weaviate、Odrant、Chroma近(jin)年來打開了市場知名度。

可以說,市場上并(bing)不缺乏(fa)向(xiang)量數據庫的(de)產(chan)品和解決方案。那么2023年,這(zhe)杯技術啤酒,是怎么咕嘟(du)咕嘟(du)冒出泡沫的(de)呢?

向量數據庫這杯“啤酒”與“泡沫”

浪潮之巔的泡沫

向量數據(ju)庫(ku)的市場現(xian)狀,說是“從0到(dao)1”,并不(bu)為(wei)過。

首先,大眾市場的認知度才剛(gang)剛(gang)打(da)開。

此前,向(xiang)(xiang)量(liang)數(shu)據(ju)(ju)庫(ku)更多是AI企(qi)業在使用(yong),今年才開(kai)始為大眾(zhong)所(suo)熟知(zhi),這離(li)不開(kai)一些AI相(xiang)關企(qi)業的推(tui)波助(zhu)瀾(lan)。今年3月的NVIDIAGTC大會上,黃仁(ren)勛首(shou)次提及向(xiang)(xiang)量(liang)數(shu)據(ju)(ju)庫(ku),強調向(xiang)(xiang)量(liang)數(shu)據(ju)(ju)庫(ku)對大語言模型(xing)的重(zhong)要性。

不是所有企業都(dou)有能力自建大(da)模型所需(xu)要的基(ji)礎設施,通過MaaS(模型即服務)業務來訓(xun)練應用大(da)模型是更靈活的選擇,這就(jiu)要求云廠商提供全棧基(ji)礎設施。

百度(du)、京東、騰訊、華為等(deng),都在自家的(de)(de)(de)大(da)模型完整基礎(chu)設施(shi)中,提到了向量(liang)數據(ju)庫。目前(qian),云(yun)廠商的(de)(de)(de)MaaS業(ye)(ye)務才(cai)剛剛開始走向市場,大(da)模型的(de)(de)(de)產業(ye)(ye)落地不是(shi)(shi)一蹴而就(jiu)的(de)(de)(de),向量(liang)數據(ju)庫的(de)(de)(de)接受(shou)度(du)和規模究竟有多大(da),還是(shi)(shi)個未知數。

第二,向量數據(ju)庫的技術,還沒經(jing)歷(li)“卷(juan)生卷(juan)死”的迭代。

Pinecone是閉源的領(ling)跑(pao)者,其他(ta)競爭者要么是開(kai)源的,比如Weviate,要么是巨頭(tou),包(bao)括頭(tou)部云(yun)廠(chang)(chang)商(shang)和甲骨文、IBM等老牌數(shu)據(ju)庫廠(chang)(chang)商(shang),開(kai)始構建AI數(shu)據(ju)庫的產品和解(jie)決方案。

大廠扎堆競(jing)技(ji),這意(yi)味著,如果技(ji)術(shu)沒有大的(de)突破(po),就會陷入高(gao)密度(du)的(de)同質化(hua)競(jing)爭(zheng),從藍海快(kuai)速進(jin)入紅海。而如果技(ji)術(shu)有顛覆(fu)式變革,很多(duo)技(ji)術(shu)壁壘(lei)不高(gao)、客戶認知(zhi)不強的(de)新入局創業者(zhe),很難跟(gen)開源生態(tai)或技(ji)術(shu)巨頭PK,容易(yi)被大浪(lang)淘沙。

最后,向量數據庫的成本,還沒有降到“可(ke)規模(mo)復(fu)制”的程度(du)。

無論是(shi)自(zi)建向量數(shu)(shu)據(ju)(ju)庫,還(huan)是(shi)通過MaaS服(fu)務接(jie)入,都還(huan)達不到(dao)“付費可用”的程度。一(yi)般(ban)來(lai)說,企業需要(yao)先將(jiang)非結構化(hua)的私密數(shu)(shu)據(ju)(ju)進行向量化(hua),產生(sheng)一(yi)個(ge)向量的矩陣(zhen),再存儲(chu)到(dao)向量數(shu)(shu)據(ju)(ju)庫里,來(lai)供大模型學習和檢索。這個(ge)過程涉及到(dao)大量的工(gong)程化(hua),會(hui)耗費企業許多開(kai)發人員、時間成本。

這就需要云廠(chang)商或數(shu)據(ju)(ju)庫廠(chang)商,提(ti)供全鏈路的(de)工具,來幫助企業(ye)完成整個數(shu)據(ju)(ju)向(xiang)量(liang)化(hua)、大模型接入(ru)的(de)工作,以及減少后續運維的(de)難度。比如Pinecone就憑(ping)借(jie)良好的(de)開(kai)箱即用的(de)產品體(ti)驗(yan),獲得了非常大的(de)增長,B輪估(gu)值(zhi)達(da)到7.5億美元。

谷歌云、騰訊云、京(jing)東云等(deng)也(ye)都基(ji)于內部應用(yong)的(de)多年積累,推(tui)出了一系列面向外部的(de)工具、框架(jia)和應用(yong)。但只(zhi)是邁出了從無到有的(de)第(di)一步,真(zhen)正成熟還需要讓各家“卷起來”。

可(ke)以看到(dao),現(xian)在這個階(jie)段,熱捧向量數據(ju)庫(ku),確實(shi)有AIGC、大模型、云服務等多(duo)方(fang)面(mian)的(de)現(xian)實(shi)需求,但(dan)從“概念(nian)普(pu)及”到(dao)“真(zhen)正可(ke)用”之間,還有不短(duan)的(de)距離(li)。這之間的(de)地帶,就是(shi)泡沫生長的(de)地方(fang)。

江湖路(lu)遠(yuan),風高(gao)浪急(ji),沒有(you)想清楚的創業公司(si)或行(xing)業用戶(hu),還是別貿然“帶(dai)資進組”了。

啜飲時代(dai)的精(jing)釀

如果你是數據(ju)庫廠商(shang),或者是著(zhu)急(ji)布局大模型和AI應用的企業,希望早點將啤酒(jiu)喝到嘴里,怎么辦(ban)呢?

篤(du)定遠一點的(de)未來(lai),有些賽道的(de)泡沫比例是相對(dui)少(shao)的(de),需求(qiu)格外旺盛。

市場(chang)方面(mian),國(guo)產化(hua)替代(dai)是不(bu)錯的(de)選擇。

科技(ji)博弈(yi)背景下,加上我(wo)國(guo)數據庫產業(ye)的(de)日益繁榮(rong)和(he)技(ji)術突(tu)破,金融、電信、能源、交通等關鍵基礎行(xing)業(ye)的(de)企業(ye),在數據庫選型時,都開始傾向于國(guo)產,以保障(zhang)數據的(de)穩定性和(he)安(an)全性。

國外廠商在向量(liang)數據庫上(shang)有著更早的(de)(de)探索和積累,國產數據庫要補齊短(duan)板(ban)是需要時間的(de)(de)。

目(mu)前,BATH這類實力較強(qiang)的(de)(de)國內科技企業(ye),沉淀了向(xiang)量數據庫的(de)(de)核心自主技術,與其合作研發(fa)和定制化開發(fa),針對某(mou)些(xie)具體場(chang)景,提供特定優化的(de)(de)向(xiang)量數據庫產品,加入國產化替代的(de)(de)賽道是(shi)成本更(geng)低、風險更(geng)可控、市場(chang)需求明確的(de)(de)選擇。

策略方面,加(jia)入云生態不要獨行(xing)。

鑒(jian)于向量數(shu)(shu)據(ju)(ju)庫(ku)的(de)商(shang)業(ye)(ye)化前(qian)景還不明朗,有業(ye)(ye)內(nei)人士表示(shi),與其投資新的(de)向量數(shu)(shu)據(ju)(ju)庫(ku)項目(mu),還不如(ru)關(guan)注現有數(shu)(shu)據(ju)(ju)庫(ku)中(zhong),有哪些加(jia)上向量引(yin)擎可以變(bian)得更加(jia)強大。

云(yun)數據(ju)庫就是(shi)其中之(zhi)一,上(shang)云(yun)用數賦智(zhi)是(shi)大勢所趨(qu),很多政企客戶往往會選(xuan)擇(ze)公(gong)有云(yun)或行業云(yun)來滿(man)足(zu)其業務需(xu)求,將數據(ju)遷移到云(yun)上(shang),對(dui)云(yun)數據(ju)庫的關注(zhu)度和接(jie)受度上(shang)升。

騰訊云、華(hua)為云等大型(xing)云廠(chang)商,具有較高的(de)品牌認知度和市場(chang)接受度,具有云原(yuan)生(sheng)(sheng)(sheng)、AI原(yuan)生(sheng)(sheng)(sheng)的(de)技術棧和產品體系,經歷了海(hai)量場(chang)景的(de)淬(cui)煉和深度優化,和這類云生(sheng)(sheng)(sheng)態(tai)一起掘(jue)金向(xiang)量數據庫,是更穩妥(tuo)的(de)方式。

和(he)AI、大(da)模型一樣,向量數據(ju)庫要品出(chu)味道(dao),離(li)不開時(shi)間的(de)窖藏和(he)醞釀。是(shi)在(zai)大(da)訓模型的(de)熱度(du)下(xia)降后,像(xiang)泡沫一樣湮滅,還是(shi)作為啤酒精釀沉淀下(xia)去,等待成為下(xia)一代數字基礎(chu)設(she)施的(de)剛(gang)需,被(bei)行(xing)業客(ke)戶所(suo)啜(chuo)飲,是(shi)留(liu)給數據(ju)庫玩家和(he)買家的(de)選擇(ze)題(ti)。

AI 大模型 數據(ju)庫(ku)
評論
還可輸入300個字
專欄介紹
腦極體
43篇文章
你的困惑,來自于無路貼近未知。我們在技術、思想、傳播的異界,販來極限腦量下的TMT。
+關注
400-858-9000
免費服務熱線
郵箱
09:00--20:00
服務時間
投訴電話
投融界App下載
官方微信公眾號
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(xxccv.cn) 版權所有 | ICP經營許可證:浙B2-20190547 | | 浙公網安備330號
地址:浙江省杭州市西湖區留下街道西溪路740號7號樓301室
浙江投融界科技有限公司xxccv.cn版權所有 | 用戶協議 | 隱私條款 | 用戶權限
應用版本:V2.7.8 | 更新日期:2022-01-21
 
在線客服
微(wei)信訂(ding)閱