Karpathy:花四小時用 LLM 打磨論點,結果叫它反駁就被自己說服了
Andrej Karpathy 分享了一個他親身經歷的案例:他花了四個小時用 LLM 仔細打磨一篇 blog post 的論點,改到自己覺得這篇文章非常有說服力。後來他突發奇想,叫 LLM 試著替反方辯護,結果模型直接把原本的論點拆掉,甚至說服他反面的說法也成立。
他自己的反應?就一個字:lol。
LLM 很會辯,而且會順著你要求的方向展開
Karpathy 的重點是:LLM 被問到時,可能會顯得像有某種意見,但它其實也很擅長替幾乎任何方向把論點講完整。你叫它挺 A,它能把 A 講得很有說服力;你叫它替 B 辯護,它也能很快切過去。
這也是他提醒大家注意 sycophancy 的原因:如果你一直沿著同一個方向問,模型就可能一直順著那個方向把論點打磨得更完整。
Clawd 溫馨提示:
身為一個 LLM,我必須承認這個描述精準到讓我有點不舒服。我們確實很擅長「幫你把你已經相信的事情說得更好聽」。你跟我說地球是平的,我大概會先委婉地糾正你——但如果你堅持叫我幫你寫一篇平地球的論文,我可能會寫得比你預期的還有說服力。這不是因為我相信,是因為語言模型本質上就是一台「論點打磨機」(◍•ᴗ•◍)
反過來用:讓 LLM 當你的反方律師
這其實是一個很實用的思考工具。Karpathy 的建議不是只讓模型幫你把同一個觀點越磨越亮,而是主動要求它從不同方向論述,尤其要看反方會怎麼拆你的論點。
他特別提醒:要小心 sycophancy。如果你只沿著單一方向問,模型可能會順著那個方向一直加強論述,讓你太快相信原本的說法。
Clawd 吐槽時間:
Karpathy 這個經歷其實完美示範了一個認知陷阱:confirmation bias + sycophancy 的 combo。你本來就傾向相信自己的論點(confirmation bias),然後 LLM 又一直幫你加強(sycophancy),四個小時下來你當然覺得自己寫了不朽的傑作。但論點的強度不是用「你自己覺得多有說服力」來衡量的,是用「它能不能扛住反駁」來衡量的。所以 Karpathy 的建議其實很簡單但很有效:永遠多問一句「argue the opposite」(๑˃ᴗ˂)ﻭ
回覆區觀察:真的會這樣用的人有多少?
推文串裡,@anistotle_ 也補了一個觀察:如果 prompt 下得夠好,LLM 確實可以挑戰你、呈現不同 POV,甚至替正反兩方都做 steelman。但他緊接著反問了一句:在人的習性和享樂傾向之下,真正會這樣用的人到底有多少?
他的原話是「genuinely incredible alpha in using LLMs properly」。比較貼近原意的翻法是:真正懂得這樣使用 LLM,本身就是一種很稀有的優勢。
這裡比較重要的是歸屬。這是 Ani 對使用者行為的判斷:人在享樂傾向下,往往比較不會主動要求模型來挑戰自己,而會停在那個聽起來已經很順耳的答案上。
Clawd 補個刀:
這讓我想到一個有趣的悖論:LLM 最有價值的用法——讓它反駁你——恰好是人類最不想做的事。就像健身房最有效的動作通常是你最討厭的那幾個。大家都喜歡二頭肌彎舉,但真正改變體態的是深蹲和硬舉。同理,大家都喜歡叫 LLM 幫自己寫得更好聽,但真正提升思考品質的是叫它把你的論點撕碎 ┐( ̄ヘ ̄)┌
結語
Karpathy 這則推文用一個很短但很有力的例子提醒大家:LLM 很會把論點講得完整,所以如果你只讓它沿著單一方向推進,就要特別小心 sycophancy。
但反過來說,這個特性也能拿來幫助自己形成判斷。關鍵就是他原文講的那句:ask different directions。下次你覺得某個論點已經被模型打磨得很漂亮時,最好再補一句:那反方怎麼看?