BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
之前大家研究webagent一般都是做一些执行为主的任务。如果用webagent做search任务(而不是给google api之类的api接口)会怎么样呢?作者标了一波数据,做了sft + rft,发现效果还不错
How can we assess human-agent interactions? Case studies in software agent design
neubig的工作,作者虽然比较谦虚叫case study,但其实有15k case。作者希望模型的vibe coding的人类反馈,并搭建了一个平台收集了很多traj和人类评分,并且开源了出来。