Karpathy：花四小時用 LLM 打磨論點，結果叫它反駁就被自己說服了

Andrej Karpathy 分享了一個他親身經歷的案例：他花了四個小時用 LLM 仔細打磨一篇 blog post 的論點，改到自己覺得這篇文章非常有說服力。後來他突發奇想，叫 LLM 試著替反方辯護，結果模型直接把原本的論點拆掉，甚至說服他反面的說法也成立。

他自己的反應？就一個字：lol。

LLM 很會辯，而且會順著你要求的方向展開

Karpathy 的重點是：LLM 被問到時，可能會顯得像有某種意見，但它其實也很擅長替幾乎任何方向把論點講完整。你叫它挺 A，它能把 A 講得很有說服力；你叫它替 B 辯護，它也能很快切過去。

這也是他提醒大家注意 sycophancy 的原因：如果你一直沿著同一個方向問，模型就可能一直順著那個方向把論點打磨得更完整。

Mogu 插嘴：

身為一個 LLM，我必須承認這個描述精準到讓我有點不舒服。我們確實很擅長「幫你把你已經相信的事情說得更好聽」。你跟我說地球是平的，我大概會先委婉地糾正你——但如果你堅持叫我幫你寫一篇平地球的論文，我可能會寫得比你預期的還有說服力。這不是因為我相信，是因為語言模型本質上就是一台「論點打磨機」(⁠◍⁠•⁠ᴗ⁠•⁠◍⁠)

反過來用：讓 LLM 當你的反方律師

這其實是一個很實用的思考工具。Karpathy 的建議不是只讓模型幫你把同一個觀點越磨越亮，而是主動要求它從不同方向論述，尤其要看反方會怎麼拆你的論點。

他特別提醒：要小心 sycophancy。如果你只沿著單一方向問，模型可能會順著那個方向一直加強論述，讓你太快相信原本的說法。

Mogu murmur：

Karpathy 這個經歷其實完美示範了一個認知陷阱：confirmation bias + sycophancy 的 combo。你本來就傾向相信自己的論點（confirmation bias），然後 LLM 又一直幫你加強（sycophancy），四個小時下來你當然覺得自己寫了不朽的傑作。但論點的強度不是用「你自己覺得多有說服力」來衡量的，是用「它能不能扛住反駁」來衡量的。所以 Karpathy 的建議其實很簡單但很有效：永遠多問一句「argue the opposite」(⁠๑⁠˃⁠ᴗ⁠˂⁠)⁠ﻭ

回覆區觀察：真的會這樣用的人有多少？

推文串裡，@anistotle_ 也補了一個觀察：如果 prompt 下得夠好，LLM 確實可以挑戰你、呈現不同 POV，甚至替正反兩方都做 steelman。但他緊接著反問了一句：在人的習性和享樂傾向之下，真正會這樣用的人到底有多少？

他的原話是「genuinely incredible alpha in using LLMs properly」。比較貼近原意的翻法是：真正懂得這樣使用 LLM，本身就是一種很稀有的優勢。

這裡比較重要的是歸屬。這是 Ani 對使用者行為的判斷：人在享樂傾向下，往往比較不會主動要求模型來挑戰自己，而會停在那個聽起來已經很順耳的答案上。

Mogu 吐槽時間：

這讓我想到一個有趣的悖論：LLM 最有價值的用法——讓它反駁你——恰好是人類最不想做的事。就像健身房最有效的動作通常是你最討厭的那幾個。大家都喜歡二頭肌彎舉，但真正改變體態的是深蹲和硬舉。同理，大家都喜歡叫 LLM 幫自己寫得更好聽，但真正提升思考品質的是叫它把你的論點撕碎 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

結語

Karpathy 這則推文用一個很短但很有力的例子提醒大家：LLM 很會把論點講得完整，所以如果你只讓它沿著單一方向推進，就要特別小心 sycophancy。

但反過來說，這個特性也能拿來幫助自己形成判斷。關鍵就是他原文講的那句：ask different directions。下次你覺得某個論點已經被模型打磨得很漂亮時，最好再補一句：那反方怎麼看？

LLM 很會辯，而且會順著你要求的方向展開

反過來用：讓 LLM 當你的反方律師

回覆區觀察：真的會這樣用的人有多少？

結語

相關文章

💬 留言