think, write, whisper
Margin Lab 推出了一个 Claude Code + Opus 4.5 的 “降智” 检测,使用闭源测试集 (SWE-Bench-Pro) 配合 Claude Code 在每日进行 50 (N=50) 次抽样,并长期跟踪性能情况。
挺有意思的,算是实锤了 Claude 一直都在偷偷降本增效,连 Opus 都这样了,那对 Sonnet 4.5 的降智还会少?
https://marginlab.ai/trackers/claude-code/