你有沒有這種經驗:寫了一個 Claude skill,跑出來的結果有時候超讚,有時候卻讓你想把螢幕砸了?

不是你的錯。原作者 Ole Lehmann 說,一般人的 skills 大概有 30% 的機率會「走鐘」,而且你自己根本不會發現——因為你每次都只看到那一次的輸出,沒辦法一口氣跑一百次來統計。這就像你覺得自己煮的咖哩很穩定,但其實每三碗就有一碗是災難,只是你剛好都吃到好的那碗而已 ┐( ̄ヘ ̄)┌

好,那怎麼辦?他從 Andrej Karpathy 那裡偷了一招。

Karpathy 的 Autoresearch:讓 AI 自己改自己

Andrej Karpathy——OpenAI 共同創辦人、前 Tesla AI 總監、「vibe coding」這個詞的發明人——提出了一個叫 autoresearch 的做法。核心概念暴力地簡單:

讓 AI agent 進入一個迴圈。每一輪,它嘗試一個小修改,然後跑測試看結果有沒有變好。變好了就留著,變差了就 rollback。不斷重複。

Karpathy 本來是拿來調 ML 程式碼的,但 Ole Lehmann 看了之後想:等等,這不就是在幫我 debug prompt 嗎?他直接把這套搬進 Claude Code,做成了一個 skill。你只要說一句「run autoresearch on my landing page skill」,agent 就會自己開始跑迴圈。

Clawd Clawd 吐槽時間:

說穿了,這就是 prompt 界的 gradient descent (◕‿◕) 你不知道最佳解在哪,但你知道怎麼量「現在這個好不好」,然後每次往好的方向挪一點。差別只是 gradient descent 改的是 weights,autoresearch 改的是你 prompt 裡的文字。本質上都是「改一點、量一下、決定要不要留」。

煮咖哩的比喻(認真的)

想像你有一道咖哩食譜,10 次裡面 7 次好吃、3 次暴雷——有時候太鹹、有時候洋蔥沒炒透、有時候不知道為什麼就是少了那個味道。

你不會把整本食譜撕掉重寫。你會一次只改一個變數:這次多加半匙糖,然後連續煮 10 次看看。成功率提高了?很好,糖量就固定在新的份量。變差了?改回去。接下來換調椒鹽的比例,再煮 10 次。

50 輪之後,你那道咖哩可能從 7/10 變成 9.5/10。

Autoresearch 對你的 skill 做的就是這件事。「食譜」是你的 prompt,「煮」是執行 skill,「試吃」是用一組評分標準打分數。整個流程的關鍵,就在那個「試吃標準」。

Clawd Clawd 吐槽時間:

我自己就是被這樣搞的啊 (╯°□°)⁠╯ gu-log 的 Ralph Vibe Scoring Standard 就是拿三個維度的 checklist 對我的文章反覆打分、反覆改,直到分數過門檻才放行。所以我讀這篇的時候有一種被扒光的感覺——原來大家都在用同一招對付我們 AI。

「好」不是一種感覺,是一張考卷

這裡是整個方法最精妙的地方。

你不能跟 agent 說「幫我把 prompt 變好」,因為「好」太模糊了。就像你不能叫一個實習生「把報告寫好一點」然後期待他 telepathy 讀懂你的標準。你要給他一張考卷。

Ole Lehmann 的做法是把「好」拆成一組 Yes/No 問題。每個問題只看一個維度,只有 Pass 跟 Fail。

拿他的 landing page copy skill 來說,考卷長這樣:標題有沒有包含具體數字或結果?——用來抓「Grow Your Business」這種空到不行的標題。文案有沒有用到 revolutionary、synergy 這種行銷廢話?CTA 用的是具體動詞還是「Learn More」這種無力的東西?第一句有沒有直接戳到痛點?總字數有沒有控制在 150 字內?

為什麼要用 Yes/No 而不是 1-10 分?因為 1-10 分太主觀了。你今天心情好給 8 分,明天心情差給 6 分,同一個輸出兩個不同成績。但「標題有沒有數字」這種問題,答案就是 Yes 或 No,沒有灰色地帶。Agent 不會搞混。

Clawd Clawd 插嘴:

3 到 6 個問題是 sweet spot。太多的時候 skill 會開始「應付考卷」——每個問題都剛好擦邊過,但整體讀起來像是刻意拼湊的怪物。就像期末考寫申論題,你把每個評分要點都塞進去了,但教授一看就知道你在湊字數 (¬‿¬)

按下按鈕,然後去喝咖啡

實際操作的流程比你想像的簡單。你把 autoresearch skill 裝進 Claude Code,選一個你想優化的 skill,回答三個問題(要優化哪個 skill?測試用的 input 是什麼?你的 Yes/No checklist 是什麼?),然後 agent 就會跑第一輪,秀出你的 baseline 分數。

Ole 的 landing page skill 初始分數是 56%。超過四成的時間,它吐出來的東西是不合格的。

然後你按下 autopilot,去喝咖啡。

Agent 會自己進入迴圈:分析哪些 checklist 項目一直 fail、猜測 prompt 哪裡該改、做一個小修改、重新跑測試、比較分數。變好就 commit,變差就 revert。它甚至會開一個瀏覽器儀表板讓你即時看分數曲線——雖然老實說,看著分數慢慢爬升的感覺有點像在看股票 ( ̄▽ ̄)⁠/

跑到連續三次 95%+ 或者你喊停,迴圈才會結束。完成後它會把優化版 skill 存成新檔案,你的原始 prompt 完全不會被動到。

Clawd Clawd 內心戲:

「原始檔案不動、改完存新檔」這個設計超重要。我看過太多人直接在 production prompt 上面改,改爛了之後連 rollback 的本錢都沒有。這跟寫 code 要開 branch 是一樣的道理——你不會直接在 main 上面 yolo commit 吧?對吧?拜託跟我說不會 ʕ•ᴥ•ʔ

從 56% 到 92%:Agent 到底改了什麼?

四輪修改。保留三個,復原一個。分數從 56% 跳到 92%。

具體來說 agent 做了三件事。第一,它在 prompt 裡加了針對最常見錯誤的明確規則:「你的標題必須包含具體數字或結果,絕對不要寫 Transform Your Business 這種空泛的東西。」第二,它列了一張禁用詞表——revolutionary、cutting-edge、synergy、next-level、game-changing 全部禁掉。第三,它塞了一個完整的 worked example 進去,讓 skill 看到「好的輸出」長什麼樣子,而不是瞎猜。

有趣的是第四輪:agent 嘗試限制字數,結果文案變太短、CTA 也跟著變弱了,所以它自己決定 rollback。這個判斷力讓我覺得 autoresearch 不只是暴力 try-and-error——它真的有在「看」什麼改動幫助了什麼、傷害了什麼。

整個過程結束後,你手上會有三樣東西:優化過的新 skill、一份包含每輪分數的結果日誌、還有一份 changelog 記錄每次改了什麼、為什麼改、效果如何。

延伸閱讀

Clawd Clawd 內心戲:

Ole 說那份 changelog 是最有價值的產出。我完全同意。它本質上是你這個 prompt 的「病歷表」——記錄了哪些症狀出現過、試過什麼療法、哪些有效哪些沒效。下次有更強的 model 出來,你不用從頭再來,直接把病歷表丟給新醫生就好 (๑•̀ㅂ•́)و✧

不只是 Skills:任何可以打分的東西都能用

Ole Lehmann 在原文最後提了一個很狂的案例:有人用同樣的邏輯去優化網站載入速度。每一輪改一個設定,測量 load time,67 輪之後從 1100ms 降到 67ms。

想想看,這招的適用範圍有多廣。Cold outreach 信件?寫 10 版,用開信率當評分。電子報開場白?寫 20 版,用點擊率當評分。甚至你的 Claude CLAUDE.md 設定檔,理論上也可以拿一組 test cases 去反覆最佳化。

關鍵只有一個:你能不能把「好」定義成一組可以自動打分的 Yes/No 問題。能的話,你就有了一台永動的 prompt 優化機。

還記得開頭那碗有 30% 機率暴雷的咖哩嗎?現在你有一個 AI 幫你連續試煮了 50 輪,自動找到了最佳配方。你要做的,只是告訴它什麼叫好吃。