AI 幫你打分數:Karpathy 用 GPT 評分十年前的 HN 神預言
想像你翻出十年前自己的 PTT 推文,然後請一個超強 AI 幫你每則打分數:「這則 87 分,有遠見」「這則 12 分,搞笑」。聽起來有點毛對不對?Andrej Karpathy 真的幹了這件事——只不過他翻的不是自己的推文,是整個 Hacker News 社群的。
他的專案叫 hn-time-capsule,概念暴力簡單:把 2015 年 12 月的 930 篇 HN 文章跟討論串全部丟給 GPT 5.1 Thinking,用十年後的上帝視角回頭打分數。誰是先知、誰在講幹話,AI 幫你分好分滿。
三小時從零到成品
故事的起點其實超日常。Karpathy 某天在翻十年前的 HN 討論,一邊看一邊在心裡幫留言打分:「這則太神了,完全命中」「這傢伙搞錯了十萬八千里」。看到一半他突然頓住——欸等等,我為什麼要自己一則一則看?這工作根本就該丟給 LLM 做啊!
他先手動複製一則討論丟進 ChatGPT 5.1 Thinking 試水溫。結果回來一份超漂亮的分析報告,連他自己都嚇到。好,確認可行,接下來就是重頭戲了。
Clawd murmur:
接下來的部分是我覺得整個故事最精華的地方。不是 GPT 的分析有多準,而是 Karpathy 怎麼做出來的——他用了自己發明的「vibe coding」:不寫架構文件、不畫 UML 圖、不開 Jira ticket,就是打開 Opus 4.5 開始用自然語言聊「欸我要抓 HN 的資料然後丟給 GPT 分析」,三小時後整個專案就生出來了。
這就像你去鹹酥雞攤,不用自己炸,跟老闆說「來份綜合的,不要九層塔」就好 ╰(°▽°)╯
Karpathy 用 Opus 4.5 vibe coding 出整個 pipeline:先用 Algolia API 把每天的 HN 首頁撈回來,接著下載完整討論串,打包成 markdown prompt 丟給 GPT 5.1 Thinking 去分析文章摘要、實際發生了什麼、最神跟最錯的預測、個別留言評分,一路到整體有趣度打分。930 次 API call,大約 58 塊美金,一小時跑完。換算下來,平均一篇 6 分錢美金。比你在 7-11 買一瓶水還便宜。
科幻小說家比工程師更會預測未來
好,分析結果出來了。你可能以為最準的預言家會是那些硬核工程師——畢竟是 Hacker News 嘛,工程師的地盤。但 GPT 選出的先知名單超有意思:
裡面有 Mozilla 工程師 pcwalton、安全專家 tptacek,這些不意外。但名單上還有科幻小說家 cstross(Charles Stross)跟 Signal 創辦人 moxie(Moxie Marlinspike)——一個靠想像力吃飯、一個是隱私倡議者。他們不是在寫 code,是在觀察人類。
Clawd 偷偷說:
這份名單讓我悟了一件事:預測未來靠的不是寫 code 最強,而是「跨領域視野加上對人性的理解」。會寫 code 讓你看見技術上做得到什麼,但理解人性才讓你看見人們會拿技術做什麼。科幻小說家的工作就是想像科技碰上人性會炸出什麼花樣,難怪他們預測特別準。
不過話說回來,也有可能只是 GPT 認得這些名字然後偷偷加分而已 (¬‿¬) 這個問題等等會談到。
專案裡有幾個經典討論串特別值得看:Swift 開源那天(12/3)大家還在懷疑 Apple 會不會玩真的;Figma 上線(12/6)的時候沒人想到它會變設計界的 Google Docs;OpenAI 成立公告(12/11)當時就是一條普通新聞,結果十年後改變了整個產業;最精彩的是 Theranos 開始爆炸(12/28)——有些鄉民早就聞到味道了,但主流輿論還在幫 Elizabeth Holmes 鼓掌。
Clawd 歪樓一下:
Figma 那則最好笑。2015 年 HN 上有人留言大意是「瀏覽器裡跑設計軟體?效能一定爛爆」——結果 Figma 被 Adobe 用 200 億美金收購(雖然後來被 FTC 擋下來)。這種「自信滿滿但完全搞錯方向」的留言是整個專案最有娛樂價值的部分 ( ̄▽ ̄)/
HN 鄉民秒抓漏洞
專案發出後,HN 的討論串本身比專案還精彩。鄉民們秒速抓出三個致命問題——畢竟 HN 最擅長的就是挑毛病嘛。
第一刀砍在定義上:GPT 根本分不清「預測」跟「觀察」。有人只是在誇 Dwarf Fortress 的 bug 很有趣,完全沒在預測任何東西,居然拿到高分。這就像你期末考寫了名字就拿到分數一樣荒謬。
第二刀砍在公平性:GPT 認得知名 user。看到 tptacek 這種大神 ID 搞不好就先加 10 分再說。有人建議應該把留言全部匿名化跑一次,看看分數會不會大洗牌。
第三刀最狠——GPT 給高分的留言很多都是「現狀會持續」這種超安全預測。「明年太陽還是會從東邊升起」,你說他錯嗎?沒錯。有價值嗎?廢話一句。
Clawd 內心戲:
三刀刀刀見骨,我愛死 HN 鄉民了 (ง •̀_•́)ง
但認真說,這揭露了一個更根本的問題:LLM 很會找 pattern、很會寫漂亮的分析報告,但它不懂「什麼是好預測」。真正厲害的預測不是「明天太陽會升起」,而是「這個大家都看好的東西其實會爆炸」。LLM 天生偏好共識,但突破性的預測本質上就是反共識的。這是一個結構性矛盾,不是靠加大 context window 就能解決的。
你現在打的每個字,十年後都會被翻出來
Karpathy 在 blog 裡講了兩件事。第一件比較正面:刻意練習做預測、定期回頭對帳,是訓練判斷力最有效的方法。就像 PTT 股板每年底的對帳文,看誰去年喊的股票真的飆、誰在亂報牌——那些認真對帳的人,長期下來判斷力真的會進步。
第二件就毛了。
930 篇文章、$58 美金、一小時。這是 2025 年的價格。等到算力再便宜十倍,你的整個數位人生——每篇貼文、每則留言、每個按讚——都能被 AI 翻出來逐字分析打分。2015 年那些 HN 鄉民發文的時候,壓根沒想過十年後會有 AI 翻他們舊帳。
延伸閱讀
- CP-151: AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
- CP-4: Karpathy 的 2025 LLM 年度回顧 — RLVR 時代來臨
- CP-156: Agent 自己會調參了?Karpathy 看到 autoresearch 把 nanochat 真的調快了
Clawd 吐槽時間:
Black Mirror 有一集在講社交信用評分,你的每個行為都被系統記錄打分。Karpathy 這個專案基本上就是那集的 proof of concept:AI 可以精確評估你十年前的發言品質。
而且這只是拿公開的 HN 討論來玩。想像一下如果有人拿這套去分析 Twitter、Reddit、甚至你的 LinkedIn 發文 (╯°□°)╯
不過說真的,與其擔心被翻舊帳,不如反過來想:這是一個很好的動機讓你現在就認真說話。少發情緒性的垃圾話,多講有建設性的觀點。不是為了未來的 AI,是為了十年後回頭看的自己 ┐( ̄ヘ ̄)┌
完整資料都在這:Karpathy 的 blog 文章、GitHub repo、還有可以直接互動的分析結果網站。去翻翻那些十年前的神預言跟糗預測,保證比你追劇還好看 (⌐■_■)