AI在线 AI在线

AI

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。 他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:为啥Gemini一开始就被设计为原生多模态?
7/4/2025 8:43:00 AM

大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM

建立基于AI的知识体系:面向企业需求的LlamaIndex与Apache Tika

译者 | 可乐审校 | 重楼LlamaIndex是一套开源Python框架,类似于智能数据管理员,能够通过文档为AI提供信息支撑。 它专为检索增强生成(RAG)而打造,可帮助AI在回答问题或生成内容前检索文件、数据库或记录条目,找寻正确信息。 这样AI生成的答案将更加准确,且显著优于依赖预训练知识储备的常规聊天机器人。
7/4/2025 8:28:50 AM
核子可乐

关于 AI 辅助软件交付成熟度模型的探讨

作者 | 张巍面对瞬息万变的市场和技术环境,越来越多企业开始探索人工智能(AI)在软件交付过程中的应用,以提升效率和创新能力。 然而,不同组织在AI赋能软件工程上的实践成熟度各不相同,亟需一套分级模型来指引演进路径。 正如自动驾驶领域采用L0到L5的级别定义来描述从人工驾驶到完全自动驾驶的演进过程,软件交付领域也可借鉴类似分级方法。
7/4/2025 8:27:59 AM
Thoughtworks洞见

Sam Altman的“温和奇点”已至:我们真的越过了AI的“事件视界”吗?

近日,OpenAI 的掌舵人 Sam Altman 在其个人博客上发表了一篇题为《The Gentle Singularity》(温和的奇点, )的重磅文章,再次将人工智能的未来推向了舆论的风口浪尖。 Altman 以其一贯的前瞻性视角,大胆宣称:“我们已越过事件视界;起飞已经开始。 人类已接近构建数字超级智能,而且至少到目前为止,它远没有看起来那么怪异。
7/4/2025 8:25:03 AM
白明的赞赏账户

有人眼红我不加班,那是他不知道这五个效率爆表的AI助手!

如果你也在小团队里,这5个AI助手绝对是神器我们是一个中等规模公司里的小技术团队,这5个AI助手就像凭空多出的队友,帮我们省了一堆麻烦。 我从没想过AI助手能这么好用……直到它们真的让我的工作轻松了不少。 几年前,我们团队忙得晕头转向。
7/4/2025 8:10:46 AM
AI研究生

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放,后续将新增“照片生成视频”功能

谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放,Pro会员每天限生成3段视频。照片生成视频功能即将上线,但使用门槛仍较高,需订阅Pro会籍(每月20美元)。#AI视频生成# #谷歌Veo3#
7/4/2025 7:57:13 AM
漾仔

实现AI战略短期与长期有效的四大关键要素

分析师们敦促技术领导者要管理好预期,特别是对于GenAI,因为其在短期内往往承诺的多于实际能交付的。 Gartner建议,CIO必须帮助CFO将AI视为一项长期战略投资,而Forrester则警告说,如果对AI投资的即时回报预期未能实现,许多企业将会过早地缩减投入。 但并非所有企业都在为此挣扎,通过与四位经验丰富的IT领袖的交流,我们描绘出了一幅更为平衡的图景。
7/4/2025 7:02:00 AM
Pat Brans

2025年软件开发者必备的十大AI智能体框架全解析

人工智能智能体(AI Agent)技术正在彻底改变软件开发的范式,从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。 对于希望构建智能应用的开发者而言,选择合适的AI智能体框架成为项目成功的关键。 本文将深入解析2025年最值得关注的11大AI智能体框架,从技术特性、适用场景到代码示例进行全方位对比,帮助开发者做出明智选择。
7/4/2025 4:22:00 AM
大模型之路

2025 年 AI 工具全栈开发引擎:从 PDF 到语音仪表板

从 PDFs 到视觉模型,从零样本智能体到语音交互仪表板,我将 2025 年的顶级 AI 工具融合成一个个人全栈开发引擎,彻底改变了我的开发方式。 一切的起点:技术栈我曾被各种工具淹没:• OCR 用一个库• 语音处理用另一个• 视觉模型再来一个• 嵌入、RAG、仪表板,每样都有单独的工具于是,我做了每个不堪重负的开发者最终会做的事:统一它们。 这就是魔法的开始。
7/4/2025 2:15:00 AM
AI研究生

FastAPI开发AI应用一:实现连续多轮对话

本文将通过一个完整的实战项目,介绍如何使用 FastAPI 框架开发 AI 聊天应用,重点讲解连续多轮对话的实现原理和核心技术。 即使你是编程新手,也能跟着本教程一步步构建出功能完整的 AI 聊天应用。 本项目已经开源之 Github,项目地址:,你正在和一个聪明的 AI 助手对话,它不仅能回答你的问题,还能记住你们之前聊过的内容。
7/4/2025 12:00:00 AM
wayn

新闻出版业危机:ChatGPT 引荐流量增长难抵 AI 搜索冲击

Similarweb报告显示,AI驱动的搜索结果导致新闻网站自然流量大幅下滑,2024年5月至2025年5月未转化为点击的搜索比例从56%升至69%。尽管ChatGPT对新闻网站的引荐流量增长25倍,但仍难弥补整体损失。#AI冲击新闻业# #ChatGPT#
7/3/2025 3:59:50 PM
远洋

从播客到带娃,看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)在大多数人还在摸索 AI 能帮自己做什么时,那些全球最忙、最顶尖的大公司 CEO,更是乐在AI中,更为恐怖地是,这些大佬可不是为了炫技,而是纯纯的刚需。 他们用 AI 跟播客“对话”、用 AI 总结邮件、甚至在深夜带娃时,也离不开 ChatGPT。 本文带你看看,微软、OpenAI、苹果、英伟达、Zillow 这五位 CEO,分别是怎么在日常生活中「高频使用 AI」的。
7/3/2025 3:40:27 PM
云昭

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

国产开源统一图像生成模型,技术重大升级! 新进展来自智源研究院:一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。 具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。
7/3/2025 3:01:26 PM

RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。 除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。
7/3/2025 2:58:16 PM

DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2,终于要来了? 大模型竞技场秘密上线了一个叫steve的神秘模型,在对话中透露自己来自DeepSeek。 不过,网友们并不满足于知道steve的厂商,开始讨论起了steve的具体身份。
7/3/2025 2:57:51 PM

一份假简历领5份硅谷AI工资,印度老哥真是不得了

离谱!  一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。 这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
7/3/2025 2:56:12 PM

谢赛宁团队新作:不用提示词精准实现3D画面控制

henry 发自 凹非寺量子位 | 公众号 QbitAI曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/3/2025 2:31:12 PM
henry