小友数研

昨天 11:16 门头沟学院大数据开发工程师发布于上海

关注

走出传统数仓范式：AI 加持下的 RAG + Workflow & Agent 如何真正落地？

在上一篇文章中，我们已经从整体架构的角度，梳理了企业级 AI 落地的一条核心链路：

数仓 / 数据库 → 搜索与 RAG → Workflow / Agent

并明确了一个前提事实：

模型能否应用，不取决于模型本身，而取决于数据是否真正进入了模型的执行链路。

这篇文章我们继续向前推进，聚焦真实落地场景：

在 AI 加持的新一代数仓体系下，RAG + Workflow / Agent 在真实企业环境中，究竟是如何跑起来的？

下图为完整运行链路：

数据在数仓中完成 AI 化处理后，通过搜索与 RAG 转译为模型可理解的上下文，再由 Workflow 编排为可执行的 Agent 流程，支撑真实业务场景运行。

一、当数据开始直接参与模型使用

当 LLM 成为新的“数据使用者”后，传统以 SQL、报表和指标为中心的数据使用方式，已经无法直接适配模型需求。

这一变化在实际工程实践中已经显现，本篇不再重复展开。

接下来更值得讨论的，是在真实系统中如何一步步把这件事做出来：

如何让数据以模型可用的方式被处理、被检索，并最终参与任务执行？

从这一刻开始，问题已经从“为什么”转向了“怎么做”。

二、AI 加持下的数仓：从分析引擎到 AI 数据底座

在真实企业环境中，RAG 和 Agent 从来不是从零开始构建的，它们往往建立在成熟的数据底座之上。

例如基于MaxCompute 的计算引擎平台，担任着企业数仓 / 数据底座的角色：

汇聚来自业务系统、日志系统、外部数据源的数据
通过 ODS / DWD / DWS 分层，统一口径与版本
在大规模数据集上提供稳定的计算与分析能力

不同的是，在 AI 场景下，数仓不再只是“分析终点”。

通过 MaxCompute AI Function 等能力，AI 开始直接参与数据处理过程：

在 SQL 流程中完成文本理解、分类、标签生成
在数据建模阶段引入语义信息与智能特征
在大规模数据集上进行智能处理，而无需离开熟悉的 SQL 环境

传统数仓的形态已经发生改变：

数仓开始从“分析引擎”演进为“AI 数据底座”，成为 AI 能力的起点，而不是终点。

三、搜索工程前移：为模型构建稳定的“数据入口”

当数仓开始演进为 AI 数据底座后，模型并不能直接使用数仓中的数据。

在真实业务场景中，无论是表结构，还是 SQL 结果集，本质上仍然都是以人理解为导向。

模型真正需要的，是一个可控、可筛选、可追溯的数据入口。

这也是为什么，在企业级 AI 架构中，搜索系统承担着连接数仓与模型的“数据入口层”角色。

在这一层，AI搜索（OpenSearch / Elasticsearch）扮演的是：

数仓数据的可检索化出口
非结构化与半结构化数据的统一入口
模型可控访问数据的第一道关口

与传统“面向用户搜索”不同，这里的搜索设计，目标不再是“搜索体验”，而是：

召回是否稳定
命中是否可解释
结果是否可追溯

也正是在这一阶段，搜索工程开始明显前移，成为 AI 系统中不可或缺的一环。

四、搜索/RAG 落地后的第一个工程瓶颈：上下文开始“失控”

当搜索与 RAG 真正进入生产环境后，很快出现系统不是“答不出来”，而是“越来越不稳定”的问题。

这并不是模型能力问题，而是 RAG 在工程层面开始暴露出新的瓶颈：

同一个问题，不同时间命中不同上下文
上下文内容逐渐变长，token 成本不可控
数据来源混杂，结果难以复核

这意味着，RAG 在生产环境中面对的，已经不再是“能不能检索到数据”，而是：如何长期、稳定、可控地构建模型上下文。

因此，在这一阶段，RAG 的工程重心自然发生转移：

从“拼接检索结果”
转向“上下文生命周期管理”

包括但不限于：

上下文长度控制与裁剪策略
多来源数据的合并与优先级
版本与来源的显式约束
不同业务场景的上下文模板化

这一层的复杂度，已经明显高于单纯的检索工程，也直接决定了系统是否具备长期运行能力。

五、从 RAG 失控到流程化治理：Workflow/ Agent 是如何被“逼”出来的？

当 RAG 在生产环境中开始暴露出上下文不稳定、结果不可复核等问题时，一个现实情况出现：

单次调用层面的优化，已经不足以解决系统级的不稳定。

在初期实践中，尝试通过以下方式解决问题：

调整检索参数（BM25权重等）
优化 prompt
增加过滤条件（位置/行业等过滤项）

但无法从根本上解决多步骤调用之间的上下文失控、不同阶段使用不同数据口径以及中间结果无法被复用或审计等问题。

也正是在这一阶段，Workflow 的价值开始显现。Workflow 并不是为了“多跑几步”，而是为了把原本隐式的模型调用过程，显式拆解为一组可控的执行步骤：

第一步做什么检索
使用哪一类数据
中间结果是否需要固化
是否基于结果决定下一步

在工程实践中，这意味着：

RAG 不再是一次性行为，而是被嵌入到流程节点中
上下文不再自由增长，而是受流程边界约束
模型调用开始具备明确的输入、输出与阶段划分

也正是通过这种方式，Agent 才真正“跑”了起来——不是作为一个“更聪明的模型”，而是作为一个遵循流程约束的执行体。

五、Workflow / Agent 跑起来之后，数据系统被“反向要求”什么？

当 Workflow / Agent 真正开始跑业务任务时，会出现另一个变化：数据系统开始被执行链路反向约束。

在 Agent 场景中，数据不再只是“被查一次”，而是：

在同一任务中被多次调用
作为条件判断的依据
决定任务是否继续或终止

这对数据系统提出了一些过去并不显性的要求：

数据接口是否具备幂等性
同一查询在任务周期内是否结果一致
数据版本是否明确、可冻结
数据调用是否具备权限与范围控制

也正是在这一阶段，Workflow 才真正显现出它的工程价值：它不是让模型“更聪明”，而是让数据调用变得可控。

从业务视角看，Agent 并不是替代原有数据系统，而是将原本“隐式”的数据使用方式，显式地组织为可审计、可复现的执行流程。

这些被 Agent 多次调用、参与决策的数据，是否还适合和分析型数据放在同一套数仓模型中？

当数据开始服务于执行而非仅用于分析，传统数仓的使用方式，以及传统数据开发的工程范式，或许都需要重新审视。

下一篇文章，我会就从这个问题出发，继续展开讨论～

欢迎点赞、关注、转发，大家的支持是我更新的最大动力。

另外感兴趣的小伙伴可关注我的微信公众号：小友数研，将为大家分享更多 Data + AI 的实战。

#AI时代，哪些岗位最容易被淘汰##数仓开发##数据开发工程师##数据处理##数据人的面试交流地#

全部评论

推荐最新楼层

01-29 00:06

门头沟学院 Java

字节真的超想去

字节薪资待遇真的嘎嘎到位，现在连实习生薪资也给的贼高了，基本独一档了，免费三餐，伙食还不错，可惜我是大菜鸡，十几战，均失败了。太难了宇宙厂我的梦，虽然字节强度也大，但我还是想去呢呜呜呜

字节跳动公司福利 1366人发布

点赞评论收藏

02-02 16:19

河南大学 C++

记忆翻牌挑战 - 帮助牛客娘（用AI制作小游戏）

牛客 "网页小游戏 AI coding" 活动主要玩法：开局给出若干对相同牛客娘图片，并展示3秒，随后翻面，在规定时间内找出所有相同的牛客娘就胜利了！！！游戏界面：游戏规则：开局展示所有图片3秒，每次翻2张方格，图片相同则永久显示，不同则1.2秒后翻回，限时匹配所有图片即为通关。制作过程：首先，简单描述一下需求：接着，对所给的代码进行测试，进一步完善达到心理预期后，对游戏进行测试，寻找bug！！！！最后，进一步完善功能，并对结构进行优化制作视频链接：https://www.bilibili.com/video/BV19B6uBUEqW/?spm_id_from=333.33...

牛客AI体验站

点赞评论收藏

01-11 01:29

上海外国语大学产品经理

大家可以看看我的简历吗想投大厂运营或产品但最近都接不到面试

点赞评论收藏

01-29 18:39

小天才_电子工程师(准入职员工)

腾讯内推，腾讯内推码

腾讯内推，腾讯内推码腾讯CSIG腾讯云后端二面面经面试时间：2025.10算法1. 编辑距离2. LRU实习介绍下实习中的困难，最后怎么解决的八股缓存穿透，缓存击穿，缓存雪崩分别是什么，如何解决Redis集群有哪几种Redis Cluster自动故障转移是怎么实现的，这个没答好了解一致性哈希吗HTTPS底层怎么实现的腾讯2027届可转正实习启动！无限复活甲，鹅厂不设限：1. 只要当前未在面试流程中，可随时切换岗位，投递无上限！2. 如3个工作日后意向部门未发起面试，全公司所有岗位/部门均可能向你发起面试，发起次数无上限！3. 同学可根据个人意愿拒绝面试，腾讯承诺，拒绝面试不会对你之后的面试机会...

点赞评论收藏

昨天 02:29

深圳职业技术学院护士

害怕被嘲笑就不去做了吗？

晚上和一个老哥聊天，加深了自己对一些事情的思考就是一个人在公共场合敢实名表达自己的感受，自己的思考，自己的观点，是一件需要非常非常大勇气的事情，这意味着你触达内心的想法感受，会被大众所注视，审判，而绝大多数人都会异常在意别人对自己的看法，所以当大规模的眼光都看在你身上的时候，这种压力不是谁都能抗下来的。小一点的是在朋友圈写小作文发表自己内心的想法，之前我是能经常看到不少同学吃一个东西 或者 去一个地方玩然后长篇大论写下自己感受的朋友圈，但现在我也很少在朋友圈看到这些内容了，大家是长大了，开始忽略这些感受了，还是越来越不愿意拿出来分享了……大一点是直接做自媒体，更大范围地展示自己，直接向全互联网的人述说自己的经历，表达自己的想法，展示自己性感的大脑，让互联网的所有人凝视你，审判你，赞扬你，诋毁你……说实话，这非常像把自己扒光了游街示众的感觉，只有真正在互联网上实名发表过这种口播视频之后，才懂这种感觉有多奇妙哈哈哈我们不说钱不钱的问题，关说对个人能力的提升，这非常锻炼人，非常非常锻炼人，你的表达能力，你的心理素质都在全方面提升，你的心理抗压能力也会不断提升，因为无论怎么说都有人骂你，你说苹果手机好用，都有人骂你叛国贼[捂脸][捂脸][捂脸]一开始最大的障碍就是怕熟人看到，特别尴尬，怕大家议论你，嘲笑你，但其实真的有那么多人关注你吗？真的有那么多人嘲笑你吗？可能都是自己在臆想，出现幻觉了就算真的有人当面嘲笑你，这又怕什么呢，我始终坚信一个真正从0到1在某个领域做成功一件事的人（标准：得到这个领域人的普遍认可）是不会嘲笑一个开始很笨拙的人，因为谁不是这样走过来的？谁一开始就做的很好，谁刚开始做就很随心所欲，是你吗？一个健身大神会嘲笑一个刚入健身房的新手吗？一个高级程序员会嘲笑一个刚学会打hello world的新手吗？一个减肥成功的人会嘲笑刚开始跑几步路就喘的胖子吗？一个作家会嘲笑刚开始写小作文词不达意语句不通顺的菜鸟吗？一个人但凡能嘲笑你，那就证明他没做成哪怕至少一件事，没在一个领域得到绝大多数人的普遍认可，这种人的嘲笑是多么无力，这是他无能的狂怒，他自己不敢，自己半途而废，他怕你做成了，证明他自己是废物而已（这里说话比较难听）从我刚开始从化学跨行当程序员时，我就开始向外展示这些事情，然后无论在现实里还是在互联网上，我都听过非常非常多嘲笑的声音，否定的声音，所以我一度非常敏感，非常脆弱在大二这一年我几乎不敢见人，我每天吃喝拉撒都在实验室的小工位，我怕出去会被人嘲笑，会被否定，因为随随便便一句话我就能蹲在天台哭一晚上，直到我突然进了美团的日常实习，直到我突然进了字节的暑期实习，直到我秋招又拿了字节的offer，这个时候我已经站在高处，我回头看，我向下看，之前那些否定嘲笑的声音早已听不见，我已经在山上了，而他们又在哪呢？而我发现当时那些鼓励我，认可我，支持我的兄弟们，不是那些已经在某个领域取得一定成果的人，就是那些同样在路上的同伴，好像只有这些人，他们才会对蹒跚学步的新手给予鼓励与帮助……最后居然戏剧性地来了一个callback 呼应了我大一演小品的一句台词且视他人之疑目如盏盏鬼火大胆地去走你的夜路！这是我自己的亲身经验，也是我想表达，传递的内容，想干什么就去干吧，至于别人怎么看，随他吧，反正弱者才会嘲笑你，强者都会向你伸出援手……

牛友故事会

点赞评论收藏

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

# 为了减少AI幻觉，你注入过哪些设定？ #

# 关于春招/暑期实习，你想知道哪些信息？ #