Anthropic 开放 8 小时长程 Agent 预览Gemini 3 Pro 在 SWE-bench 更新至 74.2Llama 4 三档同步开源月之暗面据传估值近 500 亿ICLR 2026 Oral 名单公布一位资深研究员公开质疑当前 Scaling 路线。Anthropic 开放 8 小时长程 Agent 预览Gemini 3 Pro 在 SWE-bench 更新至 74.2Llama 4 三档同步开源月之暗面据传估值近 500 亿ICLR 2026 Oral 名单公布一位资深研究员公开质疑当前 Scaling 路线。
2026年4月18日 · 星期六 模型海波涛汹涌,上下文持续晴朗 No. 037

·

A WEEKLY REVIEW OF ARTIFICIAL INTELLIGENCE

每周五出刊面向中文读者的 AI 行业观察2026-W16
头版 · 前沿

一张只有四行指令的纸条,让基础模型学会了自我纠错

本周一篇被广泛讨论的研究提出「内省式微调」:无需外部奖励、无需成对偏好数据,模型在推理过程中自行判定错误并回溯——效果在数学与代码基准上平均提升 11.4 个百分点。
"真正令人意外的不是提升幅度,而是它几乎不需要额外数据。"
图示 · 一张只有四行指令的纸条,让基础模

本期头版

公司

Anthropic 推出「长程工作」接口,单任务可持续 8 小时不中断

面向编码与调研场景的长时 Agent 接口开放预览,官方演示中一个实例完成了从抓取到部署的完整闭环。

今晨 06:42
产品

一款主打「桌面原生」的 AI IDE 获千万级种子轮

项目由前 JetBrains 与 Cursor 工程师联合创立,宣称在本地 16GB 设备上流畅运行 70B 级模型。

昨日 22:10
观点

「Scaling 已死」?三位顶会主席在圆桌上给出了三种不同答案

一场本应温和的闭门讨论变成了罕见的公开分歧,录音节选已在社区流传。

昨日 18:05

本周研究精选

arXiv / 会议论文
arXiv 2604.01823

内省式微调:让模型在推理中自查自纠

Y. Mori, S. Patel, J. Chen 等 · 12 人
Mila / Meta FAIR
提出在链式推理末端插入「第三者视角」token,以仅 1.2% 的额外算力获得大幅正确率提升。
预印本 · 3 天内被引 47 次
arXiv 2604.01712

小模型的记忆压缩:一种可学习的稀疏 KV 缓存策略

王家豪、林晓、A. Volkov
清华 KEG / 智源
在 7B 模型上把上下文成本降到原来 31%,长文档问答基本无损。
预印本 · 代码已开源
ICLR Spotlight

从演化的角度看 MoE 路由崩塌

Chen, T. & Ramirez, E.
Stanford / Cohere
以群体遗传学的视角重新解释专家层失活现象,给出可直接落地的正则方案。
Oral 入选 · 社区复现中
NeurIPS Submitted

Agent 记忆的遗忘曲线:一次长周期实证

R. Goldberg 等 · 6 人
DeepMind
在 90 天连续运行的 Agent 群组中观察到类人记忆衰减规律。
评审中 · 数据集待发布

前沿公司动态

实时跟踪

OpenAI

2
产品GPT-5o Voice 面向所有付费用户开放,支持 34 种语言的情感化朗读2 小时前
人事首席研究官 Bob 宣布离职,将创立一家主攻机器人基础模型的公司今日

Anthropic

2
接口「长程工作」Beta 开放预览,单次任务上限 8 小时今晨
研究发布关于可解释性的新论文:circuits-v3 方法昨日

Google DeepMind

2
产品Gemini 3 Pro 在 SWE-bench 官方榜单刷新至 74.2%6 小时前
学术与 Isomorphic 合作的 AlphaFold 4 开放学术查询3 天前

Meta FAIR

2
开源Llama 4 Small / Medium / Max 三档同步发布,权重可商用1 天前
人事Yann 发表长文,再次否定「当前范式能抵达 AGI」2 天前

Mistral

1
产品Codestral 2 发布,面向欧洲企业本地化部署2 天前

智谱 / DeepSeek / 月之暗面

2
产品DeepSeek-V4 预览版数学榜单持续领跑今日
融资月之暗面据悉完成新一轮,估值逼近 500 亿人民币本周

AI 名人语录

本周金句
我们过度关心模型会说什么,太少关心它为什么那样说。
Ilya Sutskever
SSI 创始人
引自本周一场高校闭门分享
下一个十年,教育的界面就是一个会走神的老师 —— 但它有无限耐心。
Andrej Karpathy
独立研究者
个人博客最新一篇长文
通往 AGI 的每一步都会被误以为是 AGI 本身。
Demis Hassabis
Google DeepMind CEO
《金融时报》专访
推理不是规模的副产品,是单独一门手艺。
François Chollet
ARC Prize
ARC-AGI-2 评测发布会

创新产品发布

本周上线
Series A前 Notion / Readwise

Paperline

把任意 PDF 变成可对话的「研究同事」
前 Notion / Readwise
本周上线多模型路由,Claude/GPT/Gemini 价格自动择优
Seed前 JetBrains × Cursor

Orbital IDE

桌面原生的 AI IDE,16GB Mac 本地跑 70B
前 JetBrains × Cursor
周内种子轮 $12M,红杉领投
Public Beta两人团队

Whisperframe

给视频创作者的自动字幕 + 情节索引
两人团队
Product Hunt 本周第一
Preview独立开发者 Liang Yu

Chorus

把一群 Agent 当乐队来编排
独立开发者 Liang Yu
用 YAML 写 Agent 乐谱的尝试
Series B来自 Harvey 早期成员

Quill.ai

给律所用的判例检索 + 起草助手
来自 Harvey 早期成员
官宣与两家 Magic Circle 所合作
Closed AlphaPixar 出身

Relay Studio

AI 原生的动画制作台
Pixar 出身
官方 demo 刷屏 X

Skills / Prompts精选

本周推荐
01工作流
入门 · 5 分钟

像对待初级研究员一样交代任务

把背景、成功标准、可用资源、禁止项、交付形式五件事一次说清,可让输出质量翻倍。

Prompt入门
02写作
中阶 · 8 分钟

用「反向大纲」检查长文一致性

写完后让模型倒推每段 claim,再与你的原大纲逐条对齐,能揪出 80% 的隐蔽跳跃。

Prompt中阶
03Agent 调试
进阶 · 15 分钟

Agent 崩溃时第一时间做的三件事

冻结记忆、抓最小可复现 trace、把系统提示退回上一稳定版本。

工具链进阶
04工程
入门 · 10 分钟

用 MCP 连本地 SQLite 的最短路径

官方 mcp-sqlite-server + 一份 30 行的 manifest,桌面客户端即刻可用。

代码入门
05工作流
入门 · 3 分钟

让模型主动问清楚再动手

一行系统提示:「如果信息不足以保证高质量输出,先列出你需要问我的问题。」

Prompt入门
06写作
中阶 · 6 分钟

长上下文中防止「中间遗忘」的两个小技巧

结构化锚点 + 段首复述;尤其对 32k 以上的对话显著有效。

Prompt中阶

模型排行榜

综合基准
#模型机构综合分变动
1
Claude Opus 4.7
Anthropic88.2+2.1
2
GPT-5.4
OpenAI87.6+0.4
3
Gemini 3 Pro
DeepMind85.9+3.0
4
DeepSeek-V4
DeepSeek83.1+1.2
5
Llama 4 Max
Meta81.4
6
Qwen 3 Max
阿里80.8+0.9

本期简报

60 秒掌握本周
DIGEST / No. 037

如果只读一屏,读这6条。

  1. Anthropic 开放 8 小时长程 Agent 预览;
  2. Gemini 3 Pro 在 SWE-bench 更新至 74.2;
  3. Llama 4 三档同步开源;
  4. 月之暗面据传估值近 500 亿;
  5. ICLR 2026 Oral 名单公布;
  6. 一位资深研究员公开质疑当前 Scaling 路线。
本期由编辑部人工整理 · 非模型生成

近期会议 & 活动

日程
04·22
ICLR 2026 · 维也纳
会议
04·25
AI Engineer Summit
行业
05·02
Anthropic Build Day
开发者
05·14
NeurIPS 摘要截稿
投稿
本期共 31 则资讯 · 4 篇深度 · 1 份简报CTRL / · 回到顶部