首页 / 行业前哨 / 工业AI / OpenAI的Tax AI用六个月做到97%准确率——这个案例告诉我,智能体落地最难的不是写代码,是建循环
工业AI

OpenAI的Tax AI用六个月做到97%准确率——这个案例告诉我,智能体落地最难的不是写代码,是建循环

作者 向量空间AI实验室 2026年6月3日 4 分钟阅读 Tax AI 自净化 Codex 反馈循环
【导语】五月二十七号,OpenAI发布了一个他们构建自净化税务智能体的完整案例。说实话,这是我今年看到的最有工程参考价值的AI落地案例之一,不是因为它的结果多漂亮,而是因为它把智能体从"能跑"到"能进化"的路径讲清楚了。

先交代背景。OpenAI和Anthropic在同一天宣布要成立AI咨询公司,目标很明确:让工程师嵌入企业,帮客户重构工作流。从卖API变成卖服务,从模型供应商变成系统集成商——这个方向我已经看好很久了,因为交付才是真正的护城河。一旦你的工程师把客户的工作流重写了一遍,客户就很难离开了。Tax AI就是这个方向上的一个具体实践。

智能体的自净化不等于自动化。自动化是在原地重复执行同一件事,自净化是每修好一层问题之后,系统的能力上限就往上抬了一截,下一轮运行会暴露更深层次的问题。打个比方,自动化是搬砖,自净化是升级搬砖的机械臂——不只是搬得更快,而是连机械臂本身都在变强。

OpenAI在这套循环里做了三件关键的事。第一,和一线从业者绑定。不是让工程师远远地看着数据做优化,而是让税务人员的每一次修正都变成系统的学习信号。一线人员的直觉告诉他"这个字段被反复改是因为税法有解释空间,不是系统bug"——这种判断只有领域专家能做,AI做不了。从业者的角色不是被替代,而是成为驱动系统进化的核心燃料。

第二,让生产过程全程留痕。不是记个日志,而是从原始文件到字段提取、到映射、到提交、到人工校对的完整证据链全部记录。这条证据链的存在,让后续的每一个改进动作都有了可追溯的依据。

第三,Codex驱动的改进循环,但有一个极其关键的设计约束:可写的只有代码,只读的是证据。Codex不能改生产数据,不能改预期的正确输出,它只能改导致错误的代码。更精妙的是退出机制:如果某个错误案例的信息不够清晰——比如可能只是从业者的个人判断偏好,不是系统真正的故障——这个案例不会被强制推进为Codex的修复任务,而是路由给产品团队人工决策。这个设计是整个系统的安全阀,防止智能体往错误方向自我进化。

从这个案例里,我提炼出三个结论,每一个都跟很多人的直觉相反。

第一,从业者的重要性被低估了,不是被高估了。很多企业的AI落地思路是"用AI替代员工"。但Tax AI的架构设计恰恰反过来说明:从业者的每一次修改AI输出,才是系统自我进化的燃料。如果从业者只是在被动使用工具,修正动作没有结构化地进入证据循环,系统就不会进化。目标不是替代人,是把人的专业判断转化为驱动系统改进的信号——这两件事完全不同。

第二,模型能力不是瓶颈,反馈循环的设计才是。把Codex换成任何其他Agent,结论不变。跳过证据链的构建,再强的模型也发挥不出来。这个链条的每一环都是前一环的前置条件:完整的evidence trace才能产生正确的信号分类,正确的信号分类才能驱动高质量的评估,高质量的评估才能让Codex产出有效的代码修复。

第三,六个月,准确率也没有达到百分百。OpenAI的工程师和领域专家联手,半年内预估只有50%的任务能达到100%准确率。企业必须接受一个现实:部署智能体是一段持续的工程投入,不是一锤子买卖。

核心观点

企业在部署AI智能体时,要从第一天就想清楚三件事:你的系统能不能捕捉从输入到输出的完整证据链?你有没有机制区分产品故障和工作流噪音——这个分类必须有人工参与?你有没有把改进任务定义为有边界、有验证、有回归测试的工程任务?缺少任何一环,循环就会断开,系统就无法自进化。

获取专属数智化转型方案
扫码添加专属顾问,获取免费业务调研与定制化解决方案。我们的行业专家团队已为汽车、电子、机械、化工等领域 200+ 制造企业提供转型咨询服务。
扫码添加专属顾问
咨询二维码
微信扫一扫,立即沟通
加好友请备注:工业AI