你的模型偏好能「繼承」嗎?探討 RL 模型的可轉移性

隨著新模型發布速度不斷加快,Hugging Face 的 Thomas Wolf 提出了一個值得深思的問題:當我們把模型客製化後,換新模型時這些偏好該怎麼辦?本文探討 RL 模型轉移性的研究空白與挑戰。