DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时

资讯组小编 • 文章来源: 量子位 • 2小时前 • 新闻

DeepSeek研究员陈德里，在个人博客更新一篇研究综述论文。

1%是我写的，99%是Agent写的。

用的是他自己的技能 DeliAutoResearch，DeepSeek-V4-Pro研究和写作，GPT-Image2画图。

论文共迭代6次（V1：4 次，V2：1 次，V3：1 次），总耗时6天，进行了约108轮Agent调用，消耗64.8万token，写了2234行LaTeX代码。

103个参考文献，全部已验证。论文现为46页，538KB，含7个图表+4个表格。

论文讲的是自动研究智能体L1–L5自主度分类体系的事：

通过分析四大架构模式，给出了可扩展性、成本、可靠性等维度对比。

并基于六维特征矩阵分析了17个主流系统。

还提出了六大开放问题与对应研究方向。

陈德里认为，Code Agent导致计算机科学论文数量疯狂膨胀，同样的工作以前至少需要一个月才能完成。

但现在，他的碳基大脑处理这个问题的“总CPU时间”不到2小时。

他也写了一句免责声明：观点仅为个人所有，不代表任何组织。

DeepSeek研究员与V4 Pro合写的论文

基础模型推动AI工具从研究辅助转向自主研究，但领域缺乏统一框架、术语混乱、评估标准不一。

陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。

类比自动驾驶的SAE级别，把混乱的AI Agent领域理出了清晰的谱系。

L1是最基础的自动补全，也就是最早的GitHub Copilot，预测你下一行代码。
L2是任务执行，代表是ChatGPT/Claude聊天机器人加上各种工具，能分解任务，但每一步都得人类批准。
L3是多步骤执行，目前最主流的Claude Code、Cursor Agent这种，能自主执行10到100步，只在关键点请求人类审核
L4是受限领域内全自主执行，人类仅提供研究目标、评估最终成果，智能体可完成多步实验、代码、论文撰写，但无法自主选择研究问题。
L5级是完全自定研究议程，智能体可自主选题、分配资源、长期积累知识、跨领域持续研究，是当前未实现的理想状态，核心瓶颈为持续知识积累、可靠自我评估、架构规模化。

目前行业前沿初步达到L4，L5还只是个设想。

论文认为真正的瓶颈不是模型能力，而是「持续知识积累」和「可靠自我评估」。

除了按自主性级别，论文中又按智能体架构总结了4种主流模式。

单智能体循环

早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察，简单高效，但复杂任务能力有限。

多智能体协作

早期智能体框架CAMEL、AutoGen、MetaGPT等为代表，特点是分工协作、多视角纠错，成本较高，沟通易混乱。

分层调度

Claude Code和Devin等为代表，分层规划、任务分解，适合长时程复杂研究。

工具增强执行

SWE-Agent等为代表，核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具，Agent-Computer Interface（ACI）的设计直接影响性能。

论文四种模式不是谁优谁劣，而是针对特定的任务要选择合适的工具。

如简单短任务选单智能体循环（低成本、易实现）；需要多视角纠错、复杂分工选多智能体协作；长时程、高复杂度研究选分层调度（强规划、易监管）；需要对接外部工具、环境交互选工具增强执行（能力边界由工具决定）。

但实际应用中，其实多采用混合架构，结合多种模式优势。

有了研究框架，再横向对比当前常见的17个自主研究智能体，揭示领域已从早期通用脆弱原型，演进为L4级受限域专用系统。代码智能体成熟度最高，科学智能体开始产出可验证新发现。

而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。

最后，论文中还提出了，六大开放问题：

认知循环陷阱：智能体陷入重复无效策略，无自我终止能力。
上下文限制：固定窗口（4K-1M token）无法支撑长时程研究。
创新性评估：无自动化方法衡量研究原创性与价值。
可复现性：模型随机性、提示敏感性导致结果无法复现。
安全伦理：双用途风险、自主提升风险、学术诚信风险。
成本问题：单任务成本
50，高成本加剧科研不平等。

One More THing

陈德里自述，高强度工作导致的精力不足，让他搁置了很多事。

博客、写作，现在是Agent让他有机会把这些重新捡了起来。

除了这篇研究综述，还更新了个人主页。

有了Agent，这些任务完成起来效率超高。

人类的角色，从“执行者”变成了“发起者”。

本文来自转载量子位，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

DeepSeek 陈德里

赞 (0)

资讯组小编

微信扫一扫

微信扫一扫

AI 的承诺一文不值，谁该买单？

AI 的承诺一文不值，谁该买单？

上一篇 2小时前

深圳造，美国卖：一门把焦虑卖给中产的百亿AI生意

深圳造，美国卖：一门把焦虑卖给中产的百亿AI生意

下一篇 2小时前

扫码关注我们，了解最新AI资讯~

新闻

奥特曼急了！OpenAI稳坐三年的王座，刚刚被Anthropic踹下去了

资讯组小编
2026年5月14日
新闻

突发：OpenAI大规模重组，总裁Brockman夺权挂帅

资讯组小编
2026年5月16日
新闻

Claude“入侵”Office，微软要放弃Copilot了吗？

资讯组小编
2026年5月8日
新闻

谁是美国大模型第一股？

资讯组小编
2026年4月7日
新闻

即梦涨价：一场被误读的「傲慢」

资讯组小编
2026年4月23日
新闻

传某Token中转站经营者被抓，发了个”关停声明”，事情可能没这么简单

资讯组小编
2026年5月15日

发表回复

登录后才能评论

Anthropic发布Claude Code自动漏扫与修复插件
1小时前
分享到:

Anthropic推出Claude Code自动漏扫与修复插件，支持在代码编写会话中实时拦截并修复安全漏洞。基准测试显示，启用安全审查后，拉取请求的安全修复意见减少30%至40%。安全检验在文件编辑、会话结束与代码提交三个阶段触发，编辑时本地规则实时匹配动态代码执行与高危模式，扫描不调用大模型，无额外API费用。会话结束时，后台模型比对工作区的git差异，拦截逻辑漏洞。开发者在执行git commit或git push时，触发深度智能体评审，自动读取调用链与消毒器等代码上下文以排除误报。企业可自定义安全规则，运行插件需保证Claude Code CLI在2.1.144及以上版本，且本地路径包含Python 3.8或更高版本。首次激活时，系统将在本地路径下自动部署虚拟环境并安装agent SDK。
Anthropic：三款智能体安全架构演进与实战漏洞
1小时前
分享到:

Anthropic发布技术博客，系统公开了旗下claude.ai、claude code与claude cowork三款智能体产品的安全架构演进与实战漏洞。文章强调，随着大模型能力的不断突破，传统用户手动审批引发审批疲劳，概率性的模型层拦截始终存在漏报。为锁死数据外泄，必须以环境层的物理容器与虚拟机隔离作为第一道硬性防线。早期版本的命令行工具claude code依靠开发者手动审批每一轮网络与写入指令，内部遥测表明，频繁弹窗引发审批疲劳，用户平均通过率高达93%。为降低审批成本，Anthropic引入了操作系统级沙箱，成功减少84%的弹窗打扰。演练结果证明，若指令直接来自用户，模型层防御将失效，只有环境层的出站流量拦截和文件控制才是底线。
凌云智矿完成Pre-A轮千万美元融资
1小时前
分享到:

2026年5月，北京人工智能矿产勘探技术企业凌云智矿宣布完成Pre-A轮融资，金额达千万美元。本轮融资由头部财务投资机构与知名企业家联合领投，部分老股东持续跟投。公司致力于AI与地质勘探深度融合，以提升矿产勘查效率、重塑资源开发模式。资金将用于核心技术研发、智能勘探系统落地及团队扩建。
新智具身完成近亿元天使轮融资
1小时前
分享到:

2026年5月，上海新智具身智能科技有限公司宣布完成近亿元人民币天使轮融资。本轮融资由上海科创集团与复旦科创联合领投，策源基金等跟投，多维资本担任独家财务顾问。公司聚焦具身智能核心技术研发，致力于构建“感知—决策—执行”全链路技术闭环，推动AI从虚拟算法迈向实体行动。本轮资金将用于核心部件研发、系统集成及团队建设。
MiniMax申请注册Mavis商标
1小时前
分享到:

天眼查知识产权信息显示，近日，MiniMax关联公司上海稀宇极智科技有限公司申请注册“MINIMAX MAVIS”商标，国际分类涉及网站服务、科学仪器，当前商标状态均为等待实质审查。

该公司成立于2021年11月，法定代表人为闫俊杰，注册资本40亿人民币，经营范围包括计算机系统服务、信息系统集成服务、人工智能基础软件开发、人工智能应用软件开发等，由香港稀宇极智有限公司全资持股。

据媒体报道，此前，MiniMax官宣旗下Agent全面升级并新命名为Mavis，同时正式推出Agent Teams多智能体团队协作功能。
千问“拍照问健康”能力升级，能像医生看诊一样推理
2小时前
分享到:

5月27日，千问APP宣布，千问“拍照问健康”能力进一步升级。
上传检查单、患处照片等医学图像后，能像医生看诊一样推理：先在原图中圈出异常区域和关键信息，再自主调用专业健康知识库，结合图像细节、医学知识和用户情况逐步推理，给出诊断参考。
据介绍，面对大家提问的各种健康问题，千问平均每天要回答大家60万次。
智谱等在上海成立人工智能产业创投合伙企业
2小时前
分享到:

企查查显示，近日，上海智谱国泰海通人工智能产业创业投资合伙企业（有限合伙）成立，经营范围包含：创业投资（限投资未上市企业）。企查查股权穿透显示，该企业由智谱全资子公司北京智谱未来科技有限公司、国泰海通全资子公司国泰君安创新投资有限公司等共同出资。
最高法：研究制定涉AI案件和数据产权司法保护规范性文件
2小时前
分享到:

今天，国务院新闻办公室举行“开局起步‘十五五’”系列主题新闻发布会，介绍“推进全面依法治国”有关情况。发布会上，最高人民法院审判委员会副部级专职委员、二级大法官刘贵祥表示，人民法院将坚持“两个毫不动摇”，贯彻落实民营经济促进法，依法平等保护各类市场主体合法权益。着力解决利用刑事、行政手段干预经济纠纷，特别是趋利性和违规异地司法等问题，健全常态化防范纠正冤错案件机制。
NBBOSS发布AI决策机器人，瞄准企业决策场景
2小时前
分享到:

5月26日，NBBOSS发布全球首款专为老板设计的AI决策机器人R1。R1采用“智能基座+可分离机身”双形态设计，实现了AI对商业决策的实时介入与主动参与。创始人童楚格表示：“目前市面上的AI工具，让员工变成了超人，却把老板变成了路人。”R1首次将AI从“执行者”升级为“决策伙伴”。发布会上，NBBOSS宣布启动“NB联名生态”，面向创业者提供决策赋能，并联合创业黑马·Founder insight、梅花创投心力会推出联名产品。
李开复：零一万物筹备上市，明年实现单季度盈利
5小时前
分享到:

李开复透露，零一万物正筹备上市，预计明年成为中国第一家实现单季度盈利的AI 2.0公司。财务数据显示，零一万物2025年经审计收入达2.5亿元人民币，合同订单总额已超过15亿元人民币，正向20亿元目标冲刺。今年订单中近一半为经常性订阅收入，预计将为公司争取更高的资本市场估值。李开复表示，零一万物将核心研发团队并入阿里云，转向B端业务，并在哈萨克斯坦等国家开展主权AI部署。为激励团队，李开复宣布增发2000万股期权，并设立100万元起步的CEO专项激励。

【阿里云】分钟级部署 Hermes/OpenClaw，官方镜像一键部署｜不限流量更省心｜助力低成本部署AI agent