Hugging Face 為什麼突然衝 Storage？因為 AI 真的很餓資料

你有沒有想過，一家靠「分享模型」起家的公司，有一天最火的產品居然不是模型？

Thomas Wolf 前幾天在 X 上面丟了一句話，語氣非常直接：Storage Buckets 是 Hugging Face 最近成長最快的產品之一。然後他補了一句更猛的 —— AI WANTS data。

就這麼簡單。不是 AI wants better models，不是 AI wants fancier UI。是 data。資料。大量的資料。

這就像你開了一間全台灣最大的食譜圖書館，結果發現大家最缺的不是食譜，是冰箱。食譜再多，食材沒地方放，什麼菜都煮不出來 (⁠╯⁠°⁠□⁠°⁠)⁠╯

Mogu 認真說：

Thomas Wolf 用 “fastest growing” 來形容 Storage Buckets，這措辭值得注意。不是 “most popular”、不是 “most requested”，是成長最快。意思是：這東西上線之後需求噴出來的速度，連他們自己可能都沒預料到。AI 圈現在的瓶頸不在算力，不在模型，在「資料放哪裡」這種最無聊但最致命的問題上。跟 CP-89 那篇聊 inference cost 的邏輯一樣 —— 大家都盯著模型跑分，結果最後卡住你的永遠是那些不 sexy 的基礎設施 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

等等，Storage Buckets 到底是什麼？

好，讓我用人話解釋。

Hugging Face Hub 你可以想成一個超大的 GitHub，但不是放程式碼，是放模型、放 dataset、放 Spaces。四年來就這三種東西，四年沒變。結果現在他們第一個新增的 repo type，不是什麼花俏的 demo 工具，是一個 storage bucket。

這個 bucket 的設計邏輯很好懂。你想像一下，你家冰箱有四個特點：第一，它長得跟大賣場的冷凍櫃一樣，容量巨大，S3 等級。第二，裡面的東西你隨時可以拿出來換掉，想改就改，mutable。第三，它不會幫你記「上禮拜放過什麼」，不搞版本控制，non-versioned。第四，如果你放了三包一模一樣的冷凍水餃，它只會實際存一包，剩下兩包指向同一個位置 —— Xet 去重技術，幫你省空間。

Mogu murmur：

Non-versioned 這個選擇超有趣。Hugging Face 起家就是靠 Git-based 的版本控制 repo，現在居然推一個「不要版本控制」的產品？這就像 7-11 開了四十年便利商店，突然宣布要開倉庫。不是不賣零食了，是客人買的量已經大到需要用棧板搬了，小冰櫃裝不下了 (⁠￣⁠▽⁠￣⁠)⁠／

白話講就是：這東西不是要你把每筆資料當 Git commit 來管，而是讓你有一個地方可以大量丟檔案、快速存取、用完即走。

想像一下，你在做一個大型 AI 訓練 pipeline。你有 petabyte 等級的訓練資料要放。你會想要每改一個檔案就存一個版本嗎？不會。你只想要一個又大又快又便宜的地方，把資料塞進去就好。這就是 Storage Buckets 在解決的問題。

AI 不只要模型，更要冰箱

Thomas Wolf 那句 AI WANTS data 為什麼值得停下來想一想？

因為過去幾年，大家談 AI 的焦點幾乎都在模型。誰的 LLM 比較強？誰的 benchmark 分數比較高？誰又發了新論文？但 Thomas Wolf 這則推文直接把焦點拉到另一邊：模型再強，沒有資料餵，就是一台空轉的引擎。

Mogu 認真說：

這讓我想到一件事。你知道為什麼 AWS 靠 S3 賺到翻掉嗎？不是因為 S3 技術多厲害，是因為每個人都有東西要放，而且放了就拿不走。Hugging Face 現在做的事，味道非常像年輕時期的 AWS —— 先用免費模型把人圈進來，然後讓你的資料住進來。資料一旦住進來，搬家成本就是你的續約保證金。CP-85 那篇 Yegge 的 AI Vampire 文章講過類似的 pattern：平台的護城河不是技術多猛，是你的東西搬不走 (⁠⌐⁠■⁠_⁠■⁠)

而且他還特別強調他們正在把 petabyte storage 做得更便宜、更快。Petabyte 欸。不是 gigabyte，不是 terabyte。是一千個 terabyte。這個量級的東西要做便宜，背後的 infra 投資一定不是小數目。

四年來第一個新 repo type，選了最「無聊」的那個

Victor Mustar 的補充推文提到一個很有畫面感的數字：Hub 四年來第一個新的 repo type。

四年。想想四年前的 AI 圈長什麼樣子。GPT-3 才剛出來，大家還在玩「讓 AI 幫我寫情書」。四年後的今天，大家需要的是 petabyte 級的 storage。

而 Hugging Face 在這四年來第一次新增的東西，選的不是什麼 AI agent playground、不是什麼 model battle arena，是一個 storage bucket。這個選擇本身就在說一件事：對現在的 AI 生態來說，最值得蓋的基礎設施，不是更炫的展示櫥窗，是更大的倉庫。

Mogu 插嘴：

這就是科技圈最經典的劇本 —— 越無聊的基礎設施越賺錢。沒人會說「哇 S3 好酷喔」，但 AWS 一半的利潤都從那裡來。Hugging Face 顯然也看懂了這個劇本。當你的平台上所有人都在煩「資料要放哪」的時候，賣倉庫比賣食譜更賺。CP-49 那篇講 OpenAI 的 enterprise platform 策略也是同一套路 —— 先當工具，再當平台，最後當 infra ╰⁠(⁠°⁠▽⁠°⁠)⁠╯

從模型圖書館到 AI 的水電瓦斯

好，我們拉遠一點看整張圖。

Hugging Face 本來是什麼？一個讓大家上傳模型、分享 dataset、跑 demo 的平台。很學術、很社群、很開源。但 Storage Buckets 這個產品出來之後，畫風就不太一樣了。

它正在從「AI 圈的 GitHub」變成「AI 圈的 AWS」。

從分享模型的圖書館，變成幫你存放 petabyte 級資料的 infra provider。這個轉變，老實說比任何新模型發布都更值得注意。因為模型會被超越，但基礎設施一旦建起來，就是護城河。

延伸閱讀

Mogu 忍不住說：

最後講一個冷知識。你知道 Hugging Face 最早是做什麼的嗎？聊天機器人 app。對，就是那種會跟你聊天的手機 app。結果現在變成 AI infra 的基礎建設商。這個 pivot 的幅度，大概跟 Nokia 從橡膠工廠變手機公司差不多扯。科技圈果然什麼都有可能 (⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

Thomas Wolf 那句 AI WANTS data，表面上在講產品，骨子裡在講一個更深的洞察：AI 的戰場已經從「誰的模型強」移動到「誰能餵得起這些模型」。而 Hugging Face 決定站到餵食這一邊。

所以回到最前面那個食譜圖書館的比喻 —— 他們看清楚了，食譜大家都會寫，但全世界最缺的是一台夠大的冰箱。現在他們在蓋冰箱，而且是 petabyte 等級的那種 ╰⁠(⁠°⁠▽⁠°⁠)⁠╯

等等，Storage Buckets 到底是什麼？

AI 不只要模型，更要冰箱

四年來第一個新 repo type，選了最「無聊」的那個

從模型圖書館到 AI 的水電瓦斯

延伸閱讀

相關文章

💬 留言