日b视频免费观看,日韩video,波多野结衣作品集

139位中國天才，做出一家讓硅谷震撼的公司

平替版Claude、和GPT-4“可以一戰”、震撼硅谷的“國產之光”……2025年初，AI圈的首炸，屬于脫胎于量化公司的DeepSeek。能用十分之一的價格、不到150人的研發團隊，對打硅谷頭牌大模型，DeepSeek的秘密何在？

當全球“AGI信仰”正因技術放緩遭遇挑戰，“AI六小虎”的光芒開始褪色，沉寂的大模型領域急需一個振奮人心的新故事。

作為開年AI圈首炸，DeepSeek頂著“國產之光”的新王冠橫空出世，震撼了海內外的一眾科技大佬。

2024年12月，DeepSeek發布了最新的V3開源模型，評測成績不僅超越了Qwen2.5-72B（阿里自研大模型）和Llama 3.1-405B（Meta自研大模型）等頂級開源模型，甚至能和GPT-4o、Claude 3.5-Sonnet（Anthropic自研大模型）等頂級閉源模型掰掰手腕。

更令人振奮的是，DeepSeek的故事很大程度上，打破了困擾國產大模型許久的算力芯片限制瓶頸。

V3模型是在2000塊英偉達H800 GPU（針對中國市場的低配版 GPU）上訓練完成的，而硅谷大廠模型訓練普遍跑在幾十萬塊更高性能的英偉達H100 GPU上。

這也讓DeepSeek的訓練成本得以被極大壓縮。SemiAnalysis數據顯示，OpenAI GPT-4訓練成本高達6300萬美元，而DeepSeek-V3成本只有其十分之一不到。

12月底，雷軍開出千萬年薪挖角DeepSeek研究員羅福莉的新聞，也讓人們把更多目光投向了這個神秘團隊。

據報道，DeepSeek包括創始人梁文鋒在內，僅有139名工程師和研究人員。與之對比，OpenAI有1200名研究人員，Anthropic則有500多名研究人員。

2024年，這家鮮少做營銷投放、創始團隊極為低調的公司，還游離在主流視野之外。第一次引起普遍關注，還是因6個月前，DeepSeek首次掀起了大模型價格戰，而被稱作“AI界的拼多多”。

如今，沒有尋求過外部融資、創始人有“囤卡富翁”之稱、團隊全是“清北等名校年輕人出品”——一串吸睛的標簽，讓這家AI創業圈的隱形巨頭走向臺前。

這一次，擺脫英偉達芯片束縛、技術平權的故事，輪到DeepSeek來講了。

01、在硅谷“出圈”了

平替版Claude、和GPT-4“可以一戰”、國產之光……2025年初的最大驚喜，屬于脫胎于量化公司的DeepSeek。

相比于大模型公司的大手筆投流，或如Kimi、豆包等頭部玩家還在用巨額營銷換C端用戶認知，DeepSeek的火熱出圈，讓故事有了“自上而下”的另一種講法。

2024年12月底，DeepSeek V3大模型發布后便完全開源。模型測算數據顯示，DeepSeek V3雖然文字生成類任務較弱，但其代碼、邏輯推理和數學推理能力均名列前茅。

139位中國天才，做出一家讓硅谷震撼的公司

▲圖片來源/DeepSeek官網

V3大模型上線后，DeepSeek同時上線了53頁論文，將模型的關鍵技術與訓練細節和盤托出。

論文披露：V3整個訓練過程僅用了不到280萬個GPU小時。相比之下，Llama 3 405B的訓練時長是3080萬GPU小時。考慮到V3訓練芯片使用的是低配版的H800 GPU，其訓練成本也被大幅縮減。這也動搖了行業內，“大模型能力跟芯片限制強綁定”的普遍認知。

OpenAI創始團隊成員Andrej Karpathy發帖贊嘆：DeepSeek-V3性能高過Llama3最強模型，且耗費資源僅十分之一，“未來或許不需要超大規模的GPU集群了”。

這也為長期受算力限制的創業團隊們，提出了一個新解法——即便在算力有限的情況下，使用高質量數據、更好的算法，同樣能訓練出高性能大模型。

Meta科學家田淵棟驚嘆道：“FP8預訓練、MoE、預算非常有限的強大性能、從CoT中提取以進行引導……哇！這是偉大的工作！”

性能更強、速度更快的模型上線，也把DeepSeek的API調用定價進一步打了下來。近日，官方宣布DeepSeek的tokens價格調整為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元。

139位中國天才，做出一家讓硅谷震撼的公司

▲圖片來源/DeepSeek官網

V3的發布，也引發了國內專業開發者社區的熱烈討論。不少AI應用層創業者、從業人士贊嘆：“V3是用過的國產大模型里，編碼能力最強的。”

有AI從業者在業務場景中應用后認為：“DeepSeek是目前國內唯一一個可以跟4o、Sonnet平起平坐的國產LLM（大語言模型）。”

能從系統角度，讓模型越來越便宜，也給最近日趨焦灼的卷卡、卷算力、卷商業落地的大模型之戰，提供了一種新的解法。

02、偏愛競賽生，學院派管理

那么，能打造出如此低成本、高質量的模型，DeepSeek的團隊又是怎樣一群人？

實際上，早在DeepSeek出圈前，AI業界對它的技術實力評價便非常高。只是因為公司不融資，創始人鮮少露面，公司不做C端應用，以至于公眾認知度偏弱。

從公開資料來看，DeepSeek團隊最大的特點就是名校、年輕。有大模型領域的獵頭告訴《財經天下》，當下“C9”院校的高端人才各家都在爭搶。“DeepSeek更著重宣傳，符合他們家年輕化，求知欲的價值觀。”

即使是團隊leader級別，年紀也多在35歲以下。該獵頭表示，DeepSeek管理崗很少內部提升，大多挖的是有經驗的，也會卡年齡。“我們這邊推薦的幾個leader崗，超過40歲沒有特別大的優勢，人家看都不愿意看。”

139位中國天才，做出一家讓硅谷震撼的公司

DeepSeek創始人梁文鋒在接受36氪采訪時，曾透露過招人標準：看能力，不看經驗，核心技術崗位以應屆和畢業一兩年為主。

衡量年輕畢業生“優秀”與否的標準，除了院校，還有競賽成績，“基本金獎以下就不要了”。

DeepSeek也不偏好資深的技術人。例如，DeepSeekMath的三名核心作者，朱琪豪、邵智宏、Peiyi Wang，是在博士實習期間完成了相關的研究工作。V3研究成員代達勱，2024年才剛從北大獲得博士學位。

在管理上，DeepSeek采取的是淡化職級、極為扁平的文化，將團隊一直控制在150人左右的規模。用粗暴砸錢、給卡，相當扁平和“學院派”的管理方式，挽留人才。

梁文鋒將這種組織形式形容為“自下而上”“自然分工”：“每個人有自己獨特的成長經歷，都是自帶想法的，不需要push他……當一個idea顯示出潛力，我們也會自上而下地去調配資源。”

“只招1%的天才，去做99%中國公司做不到的事情。”曾經面試過DeepSeek的應屆生如此評價其招聘風格。

這種人才選擇和管理模式，某種程度上很像OpenAI。二者都更像是純粹的研究機構——早期不融資，不做應用，不考慮商業化。

在當下AI大模型市場漸趨飽和之下，DeepSeek也因不爭搶排名座次，不造輿論聲勢，重用應屆生，專注做底層技術優化，成為了國內為數不多還在招攬有“AGI信仰”人才的公司。

實際上，從DeepSeek創立之初，它的履歷便像個行業“異類”。

2023年，DeepSeek的AI產品正式對外亮相。此前數年，該公司曾對該產品內部“孵化”許久，并對外招聘過文科人才，職位定位為“數據百曉生”，提供歷史、文化、科學等相關知識來源。

DeepSeek的母公司是梁文鋒在2015年創立、量化基金起家的幻方量化。作為一個“80后”，梁文鋒本科、研究生都就讀于浙江大學，擁有信息與電子工程學系本科和碩士學位。

幻方量化也是頭部量化基金中的“例外”：多數量化基金創始班底，都或多或少有海外對沖基金的履歷。唯獨幻方完全靠本土班底起家，獨自摸索著長大——這跟DeepSeek 的用人風格也極其相似。

2017年，幻方量化宣稱實現投資策略全面AI化。2019年，其資金管理規模超100億，成為國內量化私募“四巨頭”之一，也一度是國內首家突破千億私募的量化大廠。

當幻方量化規模節節攀升時，梁文鋒卻開始轉移視野。

在業界，幻方一直以敢于在硬件上投入著稱，以支撐其交易系統的實施。2017年前后，梁文鋒開始涉足AI相關探索，探索孵化AI項目“螢火蟲”。2018年，“螢火蟲”超級計算機對外正式亮相，并稱計算機占地面積為數個籃球場，前后投入超過10億元。

2021年，在梁文鋒參與的論文中提到，他們正在部署的螢火二號系統，“配備了1萬張A100GPU芯片”，在性能上接近DGX-A100（英偉達推出的人工智能專用超級計算機），但成本降低了一半，同時能耗減少了40%——業界通常認為，1萬枚英偉達A100芯片是做自訓大模型的算力門檻，當時國內超過1萬枚GPU的企業不超過5家。

GPU芯片的豐厚儲備，也為幻方量化接下來的轉型提供了基礎。

2023年5月，梁文鋒實控的AI研發機構北京“深度求索”成立，次年DeepSeek正式上線。從這時起，幻方量化也開始主動縮減資金規模，不再參與量化基金第一梯隊的競爭。

2024年10月，幻方量化向投資者公告稱，計劃逐步將對沖產品投資倉位降低至零。該公司部分對沖系列產品規模已經降至千萬元以下。至2025年初，公司資金管理規模已小于300億，退出了行業前六名。

03、最像OpenAI的中國公司

從量化基金轉型后，能在短時間內沖上AI頭部玩家，DeepSeek的“神奇”技術在其53頁的論文中，也并不是秘密。

界面新聞報道，V3模型主要采用了模型壓縮、專家并行訓練、FP8混合精度訓練等一系列創新技術降低成本。作為新興的低精度訓練方法，FP8技術通過減少數據表示所需的位數，顯著降低了內存占用和計算需求。目前，零一萬物、谷歌、Inflection AI都已將這種技術引入模型訓練與推理中。

此外，在預訓練階段，對性能影響有限的地方，DeepSeek選擇了極致壓縮。而在后訓練階段，對模型擅長的領域，他們又傾注全力提升。

核心人才也帶來了關鍵的技術創新。量子位報道，2024年5月發布的DeepSeek-V2中，其創造性地提出了一種“新型注意力”，在Transformer架構的基礎上，用MLA（Multi-head Latent Attention）替代了傳統的多頭注意力，大幅減少了計算量和推理顯存。

其中，高華佐和曾旺丁為MLA架構做出了關鍵創新。高華佐目前只知道是北大物理系畢業，這個名字在“大模型六小虎”之一的階躍星辰專利信息中，也可以看到。

DeepSeek-V2還涉及了另一項關鍵成果——GRPO。這是PPO的一種變體RL算法，顯著減少了訓練資源的需求。在開源大模型阿里Qwen 2.5的技術報告中，GRPO技術也有所體現。

139位中國天才，做出一家讓硅谷震撼的公司

這些技術創新，也為當下有些“困窘”的國內大模型未來發展，提供了一種新的解題思路。

特別是2024年下半年，長文本市場競爭已在字節的“飽和式攻擊”下逐漸塵埃落定。AI圈中出現了一種無奈共識：在大廠射程范圍內，做類ChatGPT產品已經沒有機會，必須要做出差異化。

大模型競賽也進入了下一段更艱巨的賽程，成為了一場拼資源的“戰爭”，要拼資金、人才密度、數據算力能力。

去年還風光無限的“大模型六小虎”正在加速尋找垂類場景商業化機會。近期，MiniMax轉戰文生視頻，宣布要跟Sora掰手腕；智譜則瞄準智能體（Agent）市場，從做智能體商店到邀測PC端智能體；百川智能逐漸專注于醫療市場；零一萬物則宣布深耕零售營銷業務，不再追求AGI。

而DeepSeek能夠奇襲，很大程度上源于和頭部大模型公司保持距離，遠離融資的熱鬧和商業化的壓力。

在梁文鋒為數不多的發聲中，他表示DeepSeek創立初期，就在接觸投資圈后清醒認識到，“很多VC對做研究有顧慮，他們有退出需求，希望盡快做出產品商業化。而按照我們優先做研究的思路，很難從VC那里獲得融資”。

他也對外表達過“短期內沒有融資計劃”，并認為當下面臨的問題“從來不是錢，而是高端芯片（短缺）”。

梁文鋒也明確提出，硅谷對DeepSeek“驚嘆”的原因——“因為這是一個中國公司，在以創新貢獻者的身份，加入到他們游戲里去。畢竟大部分中國公司習慣follow，而不是創新。”

“中國也要逐步成為貢獻者，而不是一直搭便車。”梁文峰說。“我們已經習慣摩爾定律從天而降，躺在家里18個月就會出來更好的硬件和軟件，Scaling Law（規模定律）也在被如此對待。但其實，這是西方主導的技術社區一代代孜孜不倦創造出來的，只因為之前我們沒有參與這個過程，以至于忽視了它的存在。”

梁文鋒認為，中國AI的發展，同樣需要這樣的生態。“很多國產芯片發展不起來，也是因為缺乏配套的技術社區，只有第二手消息，中國必然需要有人站到技術的前沿。”

139位中國天才，做出一家讓硅谷震撼的公司

今日新聞更多>>

科學技術更多>>

學習技能更多>>

資源分享更多>>

創作專欄更多>>

媒體學習更多>>