在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。但真实的软件工程实践并不止于修 bug。大量关键工作发生在 feature ...
大家好呀,这里是有猫的昭意~致力于探索最前沿的AI工具,紧跟时代步伐,不落后、不到退、不原地踏步! Vibe Coding爆火!不用敲代码也能编程?大白话拆解,小白也能懂 最近开发者圈,被一个新词彻底刷屏了——Vibe ...
随着“Vibe Coding”(即通过自然语言指令快速生成大量代码)的兴起,程序员的开发速度虽大幅提升,但也带来了逻辑漏洞和安全隐患。为此,Anthropic 正式推出了一款名为 Code Review 的 AI 代码审计工具,旨在为企业提供自动化的“专家级”反馈。
假设有一台智能设备,它可以一天自动盖一栋三层小楼,那么我们能否认为它可以30多天盖一座100层的摩天楼呢? 现在就是AI vibecoding几个小时就完成了几万行代码的项目,质量还不错,于是我们能否乐观地认为AI几百个小时就可以完成几百万行代码的项目,并且质量也还不错 很多人认为,AI coding产出可以随时间线性增长,多个AI ...