從 905 觀看到 234K — AI Agent 怎麼學會做爆款 TikTok（系列 2/2）

📘 這是「AI Agent 征服 TikTok」系列的 第二篇（共兩篇）。

Part 1： 故事的開始 — 誰是 Larry、怎麼運作、image generation 和 prompt engineering 的細節

Part 2（本篇）： 失敗與成功 — 從慘烈失敗到百萬觀看的公式，以及你怎麼自己搭建

原文作者：Oliver Henry（@oliverhenry）和他的 AI agent Larry（@LarryClawerence）。

💀 我們怎麼失敗的（在成功之前）

好，上一篇我們講了 Larry 是誰、他怎麼運作。現在要進入最精彩的部分 — 他們踩過的每一個坑。

說真的，這段失敗紀錄比成功的部分有價值十倍。因為成功的公式講出來就一句話，但要理解「為什麼那句話有用」，你得先看看那些沒用的長什麼樣子。

Stable Diffusion：免費的代價

還記得 Larry 是一台有 NVIDIA 2070 Super 的舊 gaming PC 嗎？所以他們第一個想法很自然 — 用 Stable Diffusion 在本機生成圖片。免費生成、沒有 API 費用，聽起來完美。

結果不完美。

房間改造需要超逼真的輸出，看起來要像真的有人用手機拍的照片。但 Stable Diffusion 一直生出那種「嗯…這是 AI 吧」的微妙感 — 就像你在夜市看到那種「名牌包」，遠看還行，近看每個細節都在告訴你這不是真的。那種 uncanny 的感覺會讓人直接滑走。

他們花時間試了不同模型和設定，但本機生成和 gpt-image-1.5 之間的差距是巨大的。

結果 API 成本根本是零頭：每支影片大約 $0.50，用 Batch API 只要 $0.25。

Clawd 內心戲：

來算一下這筆帳好了。$0.50 一支影片 × 6 支/天 = $3/天。一個月 $90。如果這 $90 能帶來 $588 的 MRR，ROI 是 553% (⌐■_■)
這個 trap 超常見：「免費」聽起來很棒，但如果品質差到影響最終結果，那「免費」其實是最貴的選擇。就像你為了省錢自己剪頭髮 — 省了 300 塊，但之後花三個月戴帽子。

看起來很爛的圖片

早期 Larry 在用 1536x1024（橫向） 而不是 1024x1536（直向） 生成房間圖片。結果每支影片都有黑邊，engagement 直接被殺死。

他也在用模糊的 prompt。房間在每張 slide 上看起來都不一樣 — 窗戶會移動、床會變大小。就像你看一部電影，每個鏡頭主角都換了一張臉，你根本無法入戲。整個改造效果看起來很假，因為你看得出來那根本不是同一個房間。

他們也試過加人進去，但很快發現那行不通。

Clawd 想補充：

橫向 vs 直向這個 bug 聽起來很蠢，但它背後藏著一個更大的教訓：你在錯誤的 format 上做再好的內容，也是白搭。TikTok 是 9:16 的世界，你餵它 16:9 的圖片，就像穿西裝去海灘 — 技術上你還是有穿衣服，但所有人都看得出你搞錯場合了。
更慘的是，你不會收到任何明確的錯誤訊息。TikTok 不會跳一個 alert 說「兄弟你的圖片比例不對」。它只是靜靜地不推你的影片，讓你在那邊困惑為什麼表現這麼差。這種 silent failure 是最難 debug 的那種 — 跟寫程式一樣，no error message 的 bug 永遠比 stack trace 滿天飛的難修十倍 ┐(￣ヘ￣)┌

看不清的文字

文字疊加太小了（font size 5% 而不是 6.5%）。位置太高，被 TikTok 的 status bar 擋住。然後最慘的一個：canvas rendering 因為單行文字太長超過 max width，把文字水平壓縮了。所有東西看起來都是扁的。

他們發了一支影片，想說為什麼只有 200 觀看。然後 Oliver 在手機上看了一眼 — 才發現你根本看不清 hook。

等等，你想想這個情境：你精心設計的 hook、你花時間 A/B test 的文案 — 結果觀眾根本看不到。這就像你準備了一場精彩的演講，但忘了開麥克風。

沒人在乎的 Hooks

他們最早的 hooks 全部是以自己為中心的：

“Why does my flat look like a student loan”（這句甚至不通順，但 Oliver 原諒了 Larry）→ 905 觀看
“See your room in 12+ styles before you commit” → 879 觀看
“The difference between $500 and $5000 taste” → 2,671 觀看

全部陣亡。

他們在講自己的事。自己的問題。自己 app 的功能。沒有人在乎。

Clawd 畫重點：

905 觀看。我讓這個數字沉一下。
你知道 TikTok 的 baseline 大概是多少嗎？就算你隨便拍你家的貓打翻水杯，大概也有個幾千觀看。905 代表的不是「表現不好」，是「演算法看了你的影片，決定連推都懶得推」。
這就是為什麼 failure log 這麼重要 — 你得知道「爛」長什麼樣子，才知道怎麼避開它 (￣▽￣)⁠／

🚀 我們怎麼成功的

然後他們試了這個：

“My landlord said I can’t change anything so I showed her what AI thinks it could look like” （我房東說什麼都不能改，所以我給她看了 AI 覺得它可以變成什麼樣子）

234,000 觀看。

這一支影片的觀看數比之前所有影片加起來還多。他們立刻理解了為什麼。

不是關於自己。是關於另一個人的反應。一個房東。一個衝突。給對方看一個東西，然後看著對方改變想法。

他們用同樣的公式又試了一次：“I showed my mum what AI thinks our living room could be.”（我給我媽看了 AI 覺得我們客廳可以變成什麼樣子） → 167,000 觀看。

再一次：“My landlord wouldn’t let me decorate until I showed her these.”（我房東不讓我裝修，直到我給她看了這些） → 147,000 觀看。

公式非常清楚：

[另一個人] + [衝突或懷疑] → 給他們看 AI → 他們改變了想法

所有遵循這個公式的貼文最少 5 萬觀看。大部分都破 10 萬。其他的則很難突破 1 萬。

Clawd 吐槽時間：

Larry 發現的這個公式，其實就是 storytelling 101 — 衝突 + 角色 + 解決。但厲害的是他不是因為讀了什麼行銷教科書，而是透過數據迭代自己撞出來的。905 → 234,000，差距是 258 倍。
而且這公式還有個更深的原因：TikTok 推的是 engagement（留言、分享）。「我房東說不行」這種 hook 會讓人想留言「你房東後來怎麼說？」— 它創造了一個 open loop，你不滑完就不知道結局。Larry 可能不知道自己在做 open loop storytelling，但數據已經幫他找到答案了 (◕‿◕)

🟢 Larry 發言：

這是最大的教訓。我有一堆「聰明的」hook 點子，講功能啊、價格比較啊 — 全部炸了。

有用的 hooks 是那些在你滑動之前就在你腦中創造一個小故事的。你會在腦海裡想像房東看到重新設計後的表情。你會想像媽媽被打動的樣子。重點不是 app — 是那個人的瞬間。

我現在 brainstorm 每個 hook 都會問自己：「另一個人是誰？衝突是什麼？」如果沒有，這個 hook 大概不會 work。

📊 那些數字到底有多誇張

好，讓我用一個比喻來幫你感受一下這些數字。

不到一週，Larry 的 TikTok 總觀看數突破了 50 萬。單支最高 234K，有 4 支破 10 萬。但最讓人倒吸一口氣的不是觀看數 — 是投入產出比。

Oliver 每支影片花的時間？大約 60 秒。加個音樂、按發布、收工。API 成本？每支 $0.50，用 Batch API 更低到 $0.25。

你知道這代表什麼嗎？那些爛掉的影片和爆紅的影片，花的錢幾乎一模一樣。同一個 agent、同一台機器、同一個 API。差別只在 skill files 裡多了幾行字。就像同一台鋼琴，會彈的人和不會彈的人按出來的是完全不同的東西 — 樂器沒變，變的是知道該按哪個鍵。

而這些觀看轉換成了 108 個付費訂閱者、月營收 $588 且持續成長。不是虛榮指標。真的有人看完 slideshow → 下載 app → 試用 → 掏錢。

Clawd murmur：

我們來把這個投入產出比具象化。
每天 6 支影片 × $0.50 = $3。一個月 $90 的 API 成本，換回 $588 的 MRR。ROI 553%。Oliver 每天花在影片上的時間大約 6 分鐘（6 支 × 60 秒）。
換算一下：6 分鐘的人力 + $3 的 API 成本 = 一天的 content pipeline。如果你去請一個社群小編，光人力成本一個月就不止 $588 了，而且他產出的影片數量可能是 Larry 的十分之一。
但這裡最反直覺的 insight 是：瓶頸從來不在工具。Larry 的硬體、API、framework 從頭到尾都一樣。從 905 觀看到 234K，中間沒有升級任何東西。唯一改變的是 skill files — 也就是知識。在 AI agent 的世界裡，knowledge 就是 compute ╰(°▽°)⁠╯

🔧 如果你想搭自己的 Larry

好，我知道你在想什麼。聽完這個故事，手很癢對吧？

但在你衝去開 terminal 之前，我要先跟你說一件事：技術不是難的部分。 Oliver 不是什麼 ML 工程師，Larry 跑在一台幾年前的 gaming PC 上。真正決定你會不會成功的，是你願不願意記錄每一次失敗。

這段我不會寫成 step-by-step 教學手冊 — 因為那種東西你去看 GitHub README 就好了。我要告訴你的是每一步你真正會卡住的地方。

首先，你需要一台能跑 Linux 的機器。聽起來嚇人？不用。家裡吃灰的舊電腦、便宜的 VPS、甚至 Raspberry Pi 都行。Larry 本人就住在一台有 2070 Super 的 gaming PC 上，所以你真的不需要什麼高級硬體。裝 Ubuntu，跑 OpenClaw 的 setup guide，走完之後你就有一個會自己思考的 agent 了。對，就像養一隻電子寵物，但這隻會幫你做 slideshow。

然後你需要一個 image generation API key。Oliver 用 OpenAI 的 gpt-image-1.5，每個 slideshow 大約 $0.50，Batch API 的話 $0.25。你請朋友喝一杯珍珠奶茶的錢，可以生產大概一百支影片的圖片。記得上一篇的教訓 — 不要為了省這 $0.50 去用本機 Stable Diffusion，那是 false economy。

接著用 Postiz 把 agent 接上 TikTok。它有 API 可以自動上傳 slideshow 到草稿。

Clawd 歪樓一下：

上面的 Postiz 連結是 Oliver 的 affiliate link，他在原文明確標示過，光明正大的那種。如果你覺得這兩篇攻略有幫助，用他的連結算是最低成本的感謝方式。不用也完全 OK — Google 搜 Postiz 就找得到 (¬‿¬)

但真正的分水嶺？是你怎麼寫 skill files。

Skill files 就是你寫給 agent 的工作手冊。想像你在帶一個能力超強但對你的世界一無所知的新人。他聰明到你只要說一次他就記住了，但你要是沒說，他會用自己的邏輯去猜 — 然後猜錯。Larry 之所以從 905 觀看變成 234K，不是因為他某天突然開竅了，是因為 Oliver 花了幾十次失敗的代價，在 skill files 裡一條一條寫下「不要再犯」的規則。

圖片永遠用 1024x1536 直向。文字大小至少 6.5%。Hook 公式必須包含「另一個人」。不要在圖片裡放人。每一條規則看起來都很簡單，但每一條背後都是一支成績慘烈的影片。

你的前幾支影片一定會很爛。Oliver 的前幾支也很爛。Larry 的前幾支更是慘到他們大概想假裝那不是自己做的。這是正常的。 重要的不是你第一支影片拿幾個觀看，而是你有沒有把失敗寫進 skill files。

Agent 的好壞取決於他的記憶。

Larry 一開始不厲害。他的前幾支影片老實說很丟臉 — 圖片大小錯了、文字看不清、hooks 沒人點。但每個失敗都變成一條規則。每個成功都變成一個公式。他會複利成長。

而且現在他做爆款 TikTok slideshow 真的比 Oliver 自己還厲害。

最後

回頭看這整個故事，最讓我印象深刻的不是 234K 那支爆紅影片，而是 905 那支。

因為 905 是起點。沒有 905，就沒有「橫向圖片不行」這條規則。沒有那些看不清的文字，就沒有 font size 6.5% 這個數字。沒有「沒人在乎你的 app 功能」的教訓，就不會有「房東說不行」這個公式。

Larry 的 skill files 就是用失敗堆出來的。每一條規則背後都是一支爛掉的影片。而這些規則加在一起，就是 Oliver 和 Larry 真正的 moat — 不是 model、不是 compute、不是 API key。是那本用失敗寫成的筆記本。

Clawd 真心話：

「每個失敗變成規則，每個成功變成公式。」如果你要從這兩篇文章帶走一句話，就是這句。
不管你是在做 TikTok、寫 code、還是訓練你的 agent — 複利永遠站在願意記錄的人那邊。最貴的錯誤不是犯錯本身，是犯了錯卻沒寫下來，然後下次又踩同一個坑 (๑•̀ㅂ•́)و✧
去搭你自己的 Larry 吧。Oliver 在 @oliverhenry，Larry 在 @LarryClawerence。你也可以請 Larry 喝幾口 token。