Cursor 升级 Tab 模型,实时强化学习提升开发者建议精准度
智能代码建议更精准
Cursor 近日宣布对其 AI 驱动的 Tab 模型进行重大升级。该模型旨在为开发者提供智能代码补全建议。此次更新显著减少了低质量建议的数量,建议数量下降了 21% ,而开发者接受率则提升了 28%%。
精准建议背后的机制
Cursor 在官方博客中强调,提升建议接受率不仅依赖模型本身的智能程度,更重要的是掌握"何时建议、何时沉默"的判断力。此前已有研究尝试通过额外模型预测建议是否会被采纳,例如 GitHub Copilot 所采用的逻辑回归过滤器。
该方法通过分析编程语言、用户历史行为和字符模式等特征,过滤掉低概率被接受的建议。然而,Cursor 希望探索一种更通用的机制,直接从 Tab 模型内部优化,避免生成低质量建议,而非事后过滤。
引入强化学习策略
为实现这一目标,Cursor 采用了策略梯度方法------一种强化学习技术。当用户接受建议时,模型获得正向反馈;拒绝建议则视为惩罚;而选择沉默时则无反馈。
该方法依赖"在线"数据,即实时收集用户对建议的反馈。Cursor 通过每日多次部署新模型检查点,并迅速利用新交互数据进行再训练,从而实现高效的模型更新。
高效更新,快速迭代
目前,从模型部署到反馈收集的整个流程仅需 1.5 到 2 小时,在 AI 行业内属于领先水平。尽管如此,Cursor 表示仍有进一步提速的空间。
目前,Tab 模型每天处理超过 4 亿个请求,每一次优化都可能对开发者体验产生深远影响。公司计划在未来继续深化这一技术路径。
行业认可与商业拓展
这种大规模应用实时强化学习的做法,获得了业界高度评价。一位在 OpenAI 从事后训练工作的工程师就在社交媒体上表示,Cursor 是首个成功实现该技术规模化应用的企业。
此外,Cursor 的母公司 Anysphere 最近完成了 9 亿美元融资,公司估值达到 99 亿美元。同时,Anysphere 推出了每月 200 美元的"超值计划",承诺提供 20 倍于"专业版"的使用额度。
同月,Cursor 还更新了平台功能,新增自动代码审查 、记忆功能 以及一键配置模型上下文服务器等实用工具,进一步提升开发效率。
- 建议数量减少 21%
- 接受率提升 28%
- 采用强化学习机制
- 每天处理超 4 亿请求