達觀數(shù)據(jù)首席戰(zhàn)略官劉江賢：上中下游合力推動AGI與大模型發(fā)展

觀潮新消費劉江賢2023-12-05 13:26 品牌

在未來的行業(yè)生態(tài)中，如果以大模型的研制方作為核心產(chǎn)業(yè)，上游就是算力數(shù)據(jù)等生產(chǎn)資料供應(yīng)商，下游是各行業(yè)落地方案開發(fā)方，只有上中下游合作起來，才能夠推動AGI、推動大模型的發(fā)展，一花獨放不是春。

2023年11月29日-12月1日，“國潮起·萬物生”良渚2023科技國潮產(chǎn)業(yè)大會在良渚洲際酒店成功舉行。大會由中國品牌建設(shè)促進會指導(dǎo)，杭州市余杭區(qū)人民政府主辦，杭州良渚新城管理委員會、中國國家品牌網(wǎng)、觀潮新消費承辦，盛邀專家學(xué)者、企業(yè)家、投資人、產(chǎn)業(yè)服務(wù)商等百位嘉賓共創(chuàng)科技國潮。

在“國潮起·萬物生”良渚2023科技國潮產(chǎn)業(yè)大會《消費+AI，技術(shù)賦能全產(chǎn)業(yè)》專場論壇上，達觀數(shù)據(jù)首席戰(zhàn)略官劉江賢在主題演講《AI商業(yè)化樣本：垂直行業(yè)大模型迎來發(fā)展黃金期》中表示：“在未來的行業(yè)生態(tài)中，如果以大模型的研制方作為核心產(chǎn)業(yè)，上游就是算力數(shù)據(jù)等生產(chǎn)資料供應(yīng)商，下游是各行業(yè)落地方案開發(fā)方，只有上中下游合作起來，才能夠推動AGI、推動大模型的發(fā)展，一花獨放不是春?！?

以下為演講實錄，經(jīng)觀潮新消費（ID：TideSight）編輯整理，有刪減：

謝謝大家！我來自一家AI算法企業(yè)——達觀數(shù)據(jù)，現(xiàn)在AI正在不停地向人類學(xué)習(xí)，而且在不同的角度展開對話和互動，最近一段時間提得比較多的是AI Agent，即人工智能智能體的發(fā)展和發(fā)生。那么AGI時代到了嗎？AGI時代到來之前我們要做哪些準備呢？

來到這里之前，我對良渚了解甚少。當(dāng)我了解到良渚文明的重要性，它使我們對人類文明的認知提前了2000多年。西方社會傳統(tǒng)上認為人類文明始于3000多年前，但良渚文明為我們提供了更為久遠的歷史記錄。并且，國潮這個詞匯也令我印象深刻。它表達了國貨的興起和澎湃涌動的趨勢，用詞極其貼切而生動。我對這個詞匯的構(gòu)詞方式感到非常欣賞。

今天，我們繼續(xù)探討垂直行業(yè)大模型的話題。

從文字到知識到智能

達觀數(shù)據(jù)是一家以智能文本處理算法為核心的人工智能企業(yè)，自2015年成立以來，始終堅持自主可控的國產(chǎn)路線，并在智能文本處理行業(yè)中取得了顯著的成就。

公司市占率和專利數(shù)量在行業(yè)中名列前茅，部分指標(biāo)甚至已躍居行業(yè)首位。達觀數(shù)據(jù)并未因此而停下腳步，而是始終秉持著不斷學(xué)習(xí)、不斷進步的態(tài)度。正如公司所言，與AI共同推動人類發(fā)展進步是他們的目標(biāo)。在這個時代，不學(xué)習(xí)就意味著寸步難行。

談到人類文明，我們通常認為它已經(jīng)存在了五千年。這一時間跨度的起點是文字的發(fā)明。自文字出現(xiàn)以來，人類有了記錄自己歷史和傳承知識的能力，從而推動了人類文明的進步。中國的甲骨文經(jīng)過漫長的演變，成為我們今天所熟知的形式，這也標(biāo)志著人類文明史的起點。

這條線如果要一直畫下去，橫軸要標(biāo)一個ChatGPT出現(xiàn)的時代，即將迎來AGI時代的到來，這個時代我們將和全球一起迎來另外一條陡峭直線的上升。

《本草綱目》和《開工開物》是最古老的工業(yè)文明的幾本書籍，且都是明朝時期的，為什么那個時期還能夠留存下來近代科技的藥學(xué)著作？因為宋代畢昇發(fā)明了活字印刷，有了很多傳統(tǒng)的文化，直接促進了明清時代小說的繁榮，留存下了人類科學(xué)記載的文明的書籍。

人類認知的冰山就是這樣，一方面我們要有知識，另外一方面要有認知，現(xiàn)在正是機器向人類學(xué)習(xí)認知的時代，我們看到的這一點是在水平面之上，而水平面之下蘊藏大量的知識，比如基本常識、人類常識、情感常識、專業(yè)常識、推理歸納能力等等。

我們從一個字來理解，比如“狗”，動物、犬科、寵物、四條腿等一系列特征組成了狗的基本概念，有了狗的基本概念，有了一些情感的知識，有明顯的概括和定義，還有一些專業(yè)的知識出現(xiàn)了，然后歇后語出現(xiàn)了，狗本身具體的構(gòu)造和產(chǎn)生的功能也出現(xiàn)了。就看這一個字，如果讓人工智能來理解這個字，它背后的含義都要讓AI讀懂，它才能夠理解這一個字背后所潛藏的含義。

所以從文字到知識到智能，將經(jīng)歷一個漫長的過程，但是還好，現(xiàn)在GPT出現(xiàn)了。

進化的GPT大模型

GPT是大模型當(dāng)中的一種，另外一個和它并行的叫BertGPT，也是谷歌發(fā)明了Transformer技術(shù)之后才有了GPT的技術(shù)。

準確地來說，GPT是三個英文單詞構(gòu)成的，T是Transformer，G是預(yù)訓(xùn)練生成式Transformer，有了預(yù)訓(xùn)練生成式的Transformer以后就有了對話式的GPT叫ChatGPT。

ChatGPT就是人機互動，但是GPT不只是停留在人機和互動，因為讓它產(chǎn)生智能，GPT還可以做更多的訓(xùn)練，比如讓人工智能寫一些長文本，寫一些專業(yè)的報告，達觀數(shù)據(jù)也一直在研究和學(xué)習(xí)。

GPT參加了各類考試，其中有意思的是參加了2022年北京市的高考，高考的成績出來了，考得不錯的是什么呢？歷史、生物、英語，但是GPT也有考試成績特別差的，是物理和化學(xué)，因為物理和化學(xué)背后有很多公式，這個公式背后所蘊藏的含義和原理，GPT還要繼續(xù)學(xué)習(xí)。

參加這次考試的GPT的成績，基本上可以達到考一個天津中醫(yī)藥大學(xué)的水平，這是GPT-3參加的考試。如果今年讓GPT-4參加一下2023年北京市或者浙江省的高考，成績還會突飛猛進。

在人機對話當(dāng)中，最重要的是要學(xué)會提示詞，因為不同的提示詞，機器產(chǎn)生的智能不一樣。

比如從事翻譯的提示詞，寫數(shù)據(jù)報告的提示詞，寫廣告方案的提示詞，寫歷史研究報告的提示詞，都是不同的。OpenAI曾經(jīng)全球招聘了一個提示詞的工程師，年薪達到35萬美金，要用機器所熟悉的語言來跟機器進行對話。

盡管人工智能通用化（AGI）時代尚未完全到來，但我們離這個時代越來越近。AGI將開啟一個全新的智能體時代，屆時人工智能將擁有自己的思維和提問方式。

達觀數(shù)據(jù)的科學(xué)家們正致力于使用自然語言的方式，模擬我們?nèi)粘５恼f話邏輯來與GPT進行對話和交互，從而與大模型進行更為高效的交流。不過，我們的研發(fā)工程師們認為，要實現(xiàn)這一目標(biāo)還需要經(jīng)過漫長的探索和發(fā)展。

GPT的應(yīng)用可以從文本到多模態(tài)拓展，我們曾在課本中看到的杜甫的二維畫像，現(xiàn)在可以由GPT進行繪畫創(chuàng)作。我們不僅需要機器學(xué)習(xí)常識，還需要通過提出問題和驗證其可能性與不可能性的方式，來矯正其生成的內(nèi)容。

跨時代機遇從落地應(yīng)用開始

目前，AGI已被廣泛應(yīng)用于許多設(shè)計領(lǐng)域，例如潮牌設(shè)計。淘寶的人體模特也大量使用AIGC進行生成，大大減少了人工工作量。

我們已經(jīng)通過HeyGen的方式讓機器自動學(xué)習(xí)并表達語音。AIGC為我們提供了各種可能性，甚至能夠準確地復(fù)制音準、音色和音調(diào)，只是將原本的聲音轉(zhuǎn)化為英語翻譯。

在未來的行業(yè)生態(tài)當(dāng)中，如果以大模型的研制方作為核心產(chǎn)業(yè)，我們的上游就是算力數(shù)據(jù)等生產(chǎn)資料的供應(yīng)商，下游就是各行業(yè)落地方案的開發(fā)方，只有上中下游合作起來，才能夠推動AGI、推動大模型的發(fā)展。獨樂樂不如與眾樂樂，一花獨放絕對構(gòu)不成春天。

曹植大模型專注于長文本、多語言以及垂直化的應(yīng)用，目前主要應(yīng)用于智能寫作領(lǐng)域的長文本處理。為了配合曹植大語言模型的應(yīng)用，我們推出了達觀智能知識管理系統(tǒng)。

許多人都曾疑問，企業(yè)的知識庫究竟在哪里？很少有人能準確地說出它的具體位置。當(dāng)我們詢問企業(yè)或機構(gòu)是否有知識庫時，通常會得到肯定的回答，但具體的知識庫在哪里，卻鮮有人能準確描述。實際上，這些知識庫往往分散在各種文件和日常結(jié)構(gòu)中。

為了將這些知識庫統(tǒng)一起來，并使其成為可落地的數(shù)據(jù)資產(chǎn)，我們推出了智能知識管理系統(tǒng)。系統(tǒng)利用知識圖譜、搜索和比對等技術(shù)，將企業(yè)的所有知識連接起來，從而形成可落地的企業(yè)數(shù)據(jù)資產(chǎn)。

從明年開始，數(shù)據(jù)資產(chǎn)將可以正式納入企業(yè)的并表資產(chǎn)負債表中，成為企業(yè)資產(chǎn)的重要組成部分。如果連數(shù)據(jù)資產(chǎn)在哪里都不知道，又如何對其進行定價呢？

我們用知識圖譜的方式，讓知識的邏輯變得更清晰；用專屬知識庫的方式開發(fā)專用的智能寫作功能；我們用自動閱讀和自動寫作來把企業(yè)的知識庫里面的文件挖掘出來，讓它自動地能夠生成報告和文件，形成辦公場景。

讓我們共同探討智能化比對與人工比對的巨大差異。通過對比，我們可以發(fā)現(xiàn)機器處理更為高效、持久、精準且成本更低。如今，我們需要積極擁抱AI agent的時代，它涵蓋了RPA技術(shù)、OCR技術(shù)以及我們自主研發(fā)的文本處理技術(shù)。進行對比后，結(jié)果一目了然。

達觀數(shù)據(jù)是一家專注于智能文本處理的公司。它具備機器閱讀文本的能力，可以理解文本的結(jié)構(gòu)，并能高精度地識別文字。通過形成語義模型，達觀數(shù)據(jù)能夠一鍵區(qū)分文檔的種類。

我們經(jīng)常提到大模型和小模型，但模型的“大”并不意味著參數(shù)大就能解決更多問題。相反，我們應(yīng)該從小模型開始，逐步發(fā)展。達觀數(shù)據(jù)的OCR系統(tǒng)可以掃描文字，自動識別并轉(zhuǎn)換對比，進而進行知識問答，提供答案的推理過程。

目前系統(tǒng)已廣泛應(yīng)用于財稅系統(tǒng)，特別是大型國有企業(yè)。此外，它還支持知識段落的寫作，未來將用于許多商業(yè)企業(yè)和品牌企業(yè)的實際應(yīng)用中，例如品牌報告的生成等。達觀數(shù)據(jù)就是智能文本處理專家。

現(xiàn)在，我們回過頭來探討人工智能向前發(fā)展所必須具備的三種關(guān)鍵元素。對于大模型而言，它們同樣需要具備強大的計算能力。這包括GPU、芯片和能源，我們經(jīng)常提到英偉達對我們的制約，實際上，現(xiàn)在國產(chǎn)的GPU芯片已經(jīng)取得了進展，達觀數(shù)據(jù)已經(jīng)與幾家國產(chǎn)GPU芯片在推理端完成了聯(lián)調(diào)聯(lián)試，例如與華為的昇騰等。

其次，實現(xiàn)人工智能還需要龐大的高質(zhì)量數(shù)據(jù)，以及適應(yīng)人工智能演進速度的算法。這正是我們目前正在研發(fā)的大模型背后所蘊含的科學(xué)家和工程師們在工程工藝領(lǐng)域的結(jié)晶。

最重要的是，這三點聚焦在人才方面。昨天，我來到杭州，來到良渚，參加國潮大會的現(xiàn)場，感受到人才的涌動和青春的氣息。這是一種兩面的體驗，動如脫兔般充滿活力，同時又能靜如處子般專注。他們能夠全身心投入學(xué)習(xí)，也能享受生活。這些特質(zhì)正符合我們現(xiàn)在對人才的需求。

我們都比較熟悉現(xiàn)在的辦公形態(tài)是什么樣的，那未來的辦公形態(tài)是什么樣的呢？

也許人都沒有了，也許只需要一個檢驗檢測巡檢的工程師，看看電腦是不是宕機，看看電路是不是合適。前一周碰到中海地產(chǎn)的一個工程師，他們在設(shè)計的時候講到，可能巡檢工程師都不用了，因為有巡檢機器人就夠了。

人類培養(yǎng)了自身的分析能力，也要把自身的分析能力給到AI，未來就如一千年前宋代的畢昇發(fā)明活字印刷一樣，當(dāng)人類進入到AGI時代的時候，當(dāng)我們有了ChatGPT的時候，我們覺得跨時代的機遇來了。

非常感謝國潮品牌給我們這樣的機會，在未來推動國潮品牌，推動各位的自動化辦公工作進程當(dāng)中，達觀愿意助上一臂之力。

謝謝大家！

本文為觀潮新消費原創(chuàng)，網(wǎng)頁轉(zhuǎn)載須在文首注明來源觀潮新消費及作者名字。微信轉(zhuǎn)載可發(fā)郵件至editor@tidesight.com聯(lián)系授權(quán)，并在文首注明來源觀潮新消費（微信公眾號ID：TideSight）及作者名字。如不遵守，觀潮新消費將向其追究法律責(zé)任。免責(zé)聲明：本網(wǎng)站所有文章僅作為資訊傳播使用，既不代表任何觀點導(dǎo)向，也不構(gòu)成任何投資建議。