思維鏈路（1 / 1）

加入書籤

準確地說，DeepSeek並不是第一次釋出模型了。

在孟繁岐的視角來看，DeepSeek所公佈的技術，一直以來都有不錯的創意。

Closeai與DS也是有一些技術交流的，只不過兩者合作並不緊密，孟繁岐也沒有太將這個做量化的跨界公司放在眼中。

他認為，DS所做的稀疏沒有高壁壘，仍舊受制於英偉達顯示卡。

換言之，孟繁岐雖然驚訝與DeepSeek-v3竟然彎道超車，提前完成了他在兩個技術方向上的設想，但這件事情總體來說還是在意料之中的。

孟繁岐早就想過可能會有其他公司搶先做到，也做好了心理準備

對比之下，DeepSeek-R1系列模型，則完全超乎孟繁岐的意料。

尤其是R1-Zero這一技術，可以說是完全在孟繁岐的理解之外。

在GPT發展到第四代之後，讓大模型對問題進行分析推理成為了提升模型效能的一個重要技術。

早期，有學者發現了一個非常微妙的事情，在與大模型進行交流對話的時候，如果你對它說，“請一步一步好好思索分析這個問題”，僅僅只是新增了一句話，卻起到了明顯的作用。

經過學者們的測試，完全相同的模型，加上這句話作為提示詞後，在各個資料集和指標上的驗證結果都有了顯著的提高。

在有些地方上，這麼一句話帶來的顯著的效果甚至超過將模型擴大幾倍規模。

這個發現讓人們開始關注大模型的推理能力。

由於大模型生成每一個字的時候，都會將此前的所有文字考慮進去，這就導致了逐步分析問題的生成方式，其輸出的穩定性和邏輯性，都要比直接生成一個結論要強不少。

在直接將GPT-4級別的模型訓練得更高這件事情碰壁之後，讓模型形成思維鏈便成了一大研究重心。

而今真正將CoT(chainofthoughts)思維鏈落實到大模型並公開使用的，只有GPT4-o1。

推理系列的模型，會先針對提問進行一長串的分析和思考，逐一考慮各種可能性，最後才會開始嘗試回答問題。

這種回答方式雖然慢了一些，但質量顯然有了顯著提升。

o1系列的思考過程是不公開的，或者說，只會展現給使用者一小部份摘要。

這麼做的原因，是為了增加其他AI公司的模仿成本。

最先進的大模型是如何思考問題的，這個思索推理的過程是非常珍貴的資訊。

因為此前，讓大模型具有推理分析能力需要大量高質量的CoT思維鏈資料。

許多難題應該如何逐步推理，不僅要準備每一步的分析，還要交叉確認這些內容步驟正確。這比起大模型早期時代在網際網路上到處摘抄文字，獲取的難度和成本不可同日而語。

饒是孟繁岐坐擁最大的AI相關知識互動社羣，想要梳理出高質量的思維鏈文字也並不容易。

透過大量類似的高質量資料監督大模型學習推理的過程，這才有了第一個強智慧的推理模型o1。

在這樣的領先優勢之下，自然不可能詳細開放o1的推理過程給使用者。

若是如此，其他公司獲取思維鏈路資料以蒸餾自己AI模型的成本就會遠低於自己，孟繁岐不可能做這樣的傻事。

坐擁這樣的先發優勢，孟繁岐又可以藉助使用者的反饋，來獲取和調整新的思維鏈路資料。

因此在他看來，自己在大模型思維推理這方面的優勢是巨大的，擁有堅不可摧牢不可破的壁壘。

然而，DeepSeek-R1-zero狠狠地擊碎了他自說自話的夢想。

“R1-zero可以直接在DeepSeek-V3的版本上做強化學習，不需要大量高質量監督資料就能夠探索出比較好的思維推理，增強了模型回覆的長度、邏輯性和準確度。唯一的問題是這種方式獲取的模型思維對於人類來說可讀性不強。”孟繁岐繼續閱讀著R1-zero和R1的相關報告。

與各種自媒體所宣傳的不需要思維鏈資料不同，R1系列顯然還是需要這些高質量資料的，這讓孟繁岐內心稍稍安寧了一些，只要這部分資料還有價值，他總不至於淪落到過去一年多的投入變為一場空。

真正的R1還是需要優質思維鏈路資料來冷啟動的，雖然從結果上看，R1並沒有比R1-Zero準確很多，不過它的思維邏輯和方式人類更加容易讀懂了。

可以說，比起現在人人都搶著試用的R1，R1-Zero版本給孟繁岐的震撼要大很多。

R1-Zero成為了一種合成高質量思維鏈資料的方式，比起孟繁岐刀耕火種的標註和確認，大模型合成的規模和效率顯然存在千萬倍的潛力。

“有R1-Zero獲取大規模的鏈路資料，針對思維鏈的每一個步驟再去分析計算，也就不大必要了。”孟繁岐終於理解了，為什麼DeepSeek的成本低到令人髮指。

孟繁岐一直以為，DeepSeek對外開放的API呼叫價格這麼低，只是因為母公司不差錢，沒準備用這個服務賺錢。

由於他們沒有網際網路大廠天然的使用者基礎，低價API和免費網頁試用，都只是積累使用者的前期投入。

而今細讀DeepSeek在引數低bit訓練，高倍率權重稀疏，以及批次資料合成等方面的成就。孟繁岐這才明白，原來他們真的已經將成本降低了一個數量級。

“DeepSeek-R1雖然已經來到了一流級別，但距離現在滿血的o1還有一定的差距。我們正在研發的新版本在效能上也更具有領先優勢。”

DS的熱度在持續攀升，孟繁岐很快接到了團隊的報告。對於這種“我還沒輸”的分析，他並不認可。

“效能指標只是紙面上的，如今階段，兩三個點的差距使用者在使用的時候已經難以察覺。並且，拋開成本談效能，實在是耍流氓了。”

孟繁岐進行過實驗性質的超大模型訓練，效能確實屢創新高，但推理一個問題的成本就能到幾十塊乃至上百元。

試問這樣的使用價格，只是幾個點的提升又有什麼實際的意義呢？

“DeepSeek的低成本訓練大大降低了加入AI領域的門檻，我想很多還在觀望的公司都會有所動作。我們應該將策略從技術壟斷調轉方向，開始側重為大企業進行實際應用的適配。”

孟繁岐在歷史的轉折點做出了重大的決定。

↑返回頂部↑

讓你來坐牢，你怎麼無敵了？求你們了，讓朕當個昏君吧仙道長生從西漢勳貴開始建立千年世家假少爺情絕身亡後，真千金悔瘋了山村狂野醫仙妖孽妙手小村醫九轉重生宿命玄天女魃：我家少主被人拐走了

重生之AI教父所有內容均來自互聯網或網友上傳，半夏小說只为原作者CloseAI的小說進行宣傳。歡迎各位書友支持CloseAI並收藏重生之AI教父最新章節。