0%

2025-10-14-insights

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

之前大家研究webagent一般都是做一些执行为主的任务。如果用webagent做search任务(而不是给google api之类的api接口)会怎么样呢?作者标了一波数据,做了sft + rft,发现效果还不错

How can we assess human-agent interactions? Case studies in software agent design

neubig的工作,作者虽然比较谦虚叫case study,但其实有15k case。作者希望模型的vibe coding的人类反馈,并搭建了一个平台收集了很多traj和人类评分,并且开源了出来。