
“哥,Doris 4.0 把 AI 塞进数据库了!”
凌晨一点,DBA老周在群里甩出这句话,附带一张截图:一条 SQL 直接调通简历筛选,把 30 万份数据 3 秒跑完。
我盯着屏幕,咖啡差点洒键盘——这年头,连数据库都开始抢 HR 的饭碗?
第二天一早,我溜进公司实验室,把 4.0 Doris怼到测试集群。
产品经理阿May跟进来,抱着电脑一脸愁容:“老板要‘千人千面’推荐,预算却只给两台破机器,你让 AI 喝西北风?”
我没接话,先把用户行为表、商品文本表、图像特征表一股脑倒进 Doris,顺手建了个向量索引:
复制维度 768,量化 sq8,压测脚本一跑,QPS 飙到 1.2 万,CPU 才啃了 42%。阿May的下巴差点脱臼:“这玩意儿是数据库?不是隐藏版 GPU?”
更离谱的是 AI 函数(🔗 https://doris.apache.org/zh-CN/docs/dev/ai/ai-function-overview/)

我现场写了一条:
复制结果 8 秒返回,文案组直接薅走数据,半小时后朋友圈广告上线,转化率比上周同期翻 1.7 倍。
阿May抱着我胳膊:“哥,咱把推荐团队裁了吧?”我翻个白眼——推荐团队没裁,老板把买新服务器的申请单撕了,顺手给 Doris 集群又加了两节点,说是“花小钱办大事的典范”。
故事还没完。
周五晚高峰,数据仓库例行跑批,平时温顺的 ETL 任务突然暴走,内存占用 98%,眼看就要 OOM。
我顺手测试把 enable_spill 打开,exec_mem_limit 降到 8 G,让任务滚去磁盘睡觉。半小时后,任务稳稳当当写完 9 TB 数据,磁盘只占了 120 G。
老板在群里发了个红包:“谁把集群从崩溃边缘拉回来?”
我默默点开,52 块,备注两字——“ disk”。
到这,可能有人要问,Doris 4.0 到底变了啥?
我说它学会了三招:
第一招,把向量索引做成“懒人模式”,高维数据不用倒腾到专用向量库,一条 SQL 完成“结构化 + 非结构化”混合召回,省得数据在系统之间旅游。
第二招,把大模型揉进函数库,情感、摘要、翻译、分类、提取、掩码,一条龙服务,分析师再也不用 Python 写脚本,DBA 也能秒变“ prompt 工程师”。
第三招,给离线任务加安全气囊,内存不够就落盘,磁盘价换时间,老板再也不担心任务半夜暴毙。
这三招听起来像开挂,背后却是现实主义——预算不涨、人手不增、需求翻倍,只能靠数据库自己进化。
Doris 4.0 不是来炫技,它是来救场的:让中小团队用得起向量检索,让分析师不写 Python 也能玩大模型,让凌晨三点的报警短信少一条是一条。
老板今天又在群里发灵魂拷问:“AI 时代,数据团队的价值到底在哪?”
我回了句:“价值在让老板睡得着。”
屏幕那端沉默半分钟,然后甩来一句:“下周给 Doris 集群再加四台机器,别让我半夜接电话。”
我笑着合上电脑,心想:数据库都学会抢饭碗了,咱再不升级,真要被它优化掉了。