AI
Gemini负责人爆料!多模态统一token表示,视觉至关重要
一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。 他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:为啥Gemini一开始就被设计为原生多模态?
7/4/2025 8:43:00 AM
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM
建立基于AI的知识体系:面向企业需求的LlamaIndex与Apache Tika
译者 | 可乐审校 | 重楼LlamaIndex是一套开源Python框架,类似于智能数据管理员,能够通过文档为AI提供信息支撑。 它专为检索增强生成(RAG)而打造,可帮助AI在回答问题或生成内容前检索文件、数据库或记录条目,找寻正确信息。 这样AI生成的答案将更加准确,且显著优于依赖预训练知识储备的常规聊天机器人。
7/4/2025 8:28:50 AM
核子可乐
关于 AI 辅助软件交付成熟度模型的探讨
作者 | 张巍面对瞬息万变的市场和技术环境,越来越多企业开始探索人工智能(AI)在软件交付过程中的应用,以提升效率和创新能力。 然而,不同组织在AI赋能软件工程上的实践成熟度各不相同,亟需一套分级模型来指引演进路径。 正如自动驾驶领域采用L0到L5的级别定义来描述从人工驾驶到完全自动驾驶的演进过程,软件交付领域也可借鉴类似分级方法。
7/4/2025 8:27:59 AM
Thoughtworks洞见
Sam Altman的“温和奇点”已至:我们真的越过了AI的“事件视界”吗?
近日,OpenAI 的掌舵人 Sam Altman 在其个人博客上发表了一篇题为《The Gentle Singularity》(温和的奇点, )的重磅文章,再次将人工智能的未来推向了舆论的风口浪尖。 Altman 以其一贯的前瞻性视角,大胆宣称:“我们已越过事件视界;起飞已经开始。 人类已接近构建数字超级智能,而且至少到目前为止,它远没有看起来那么怪异。
7/4/2025 8:25:03 AM
白明的赞赏账户
有人眼红我不加班,那是他不知道这五个效率爆表的AI助手!
如果你也在小团队里,这5个AI助手绝对是神器我们是一个中等规模公司里的小技术团队,这5个AI助手就像凭空多出的队友,帮我们省了一堆麻烦。 我从没想过AI助手能这么好用……直到它们真的让我的工作轻松了不少。 几年前,我们团队忙得晕头转向。
7/4/2025 8:10:46 AM
AI研究生
谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放,后续将新增“照片生成视频”功能
谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放,Pro会员每天限生成3段视频。照片生成视频功能即将上线,但使用门槛仍较高,需订阅Pro会籍(每月20美元)。#AI视频生成# #谷歌Veo3#
7/4/2025 7:57:13 AM
漾仔
实现AI战略短期与长期有效的四大关键要素
分析师们敦促技术领导者要管理好预期,特别是对于GenAI,因为其在短期内往往承诺的多于实际能交付的。 Gartner建议,CIO必须帮助CFO将AI视为一项长期战略投资,而Forrester则警告说,如果对AI投资的即时回报预期未能实现,许多企业将会过早地缩减投入。 但并非所有企业都在为此挣扎,通过与四位经验丰富的IT领袖的交流,我们描绘出了一幅更为平衡的图景。
7/4/2025 7:02:00 AM
Pat Brans
2025年软件开发者必备的十大AI智能体框架全解析
人工智能智能体(AI Agent)技术正在彻底改变软件开发的范式,从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。 对于希望构建智能应用的开发者而言,选择合适的AI智能体框架成为项目成功的关键。 本文将深入解析2025年最值得关注的11大AI智能体框架,从技术特性、适用场景到代码示例进行全方位对比,帮助开发者做出明智选择。
7/4/2025 4:22:00 AM
大模型之路
2025 年 AI 工具全栈开发引擎:从 PDF 到语音仪表板
从 PDFs 到视觉模型,从零样本智能体到语音交互仪表板,我将 2025 年的顶级 AI 工具融合成一个个人全栈开发引擎,彻底改变了我的开发方式。 一切的起点:技术栈我曾被各种工具淹没:• OCR 用一个库• 语音处理用另一个• 视觉模型再来一个• 嵌入、RAG、仪表板,每样都有单独的工具于是,我做了每个不堪重负的开发者最终会做的事:统一它们。 这就是魔法的开始。
7/4/2025 2:15:00 AM
AI研究生
FastAPI开发AI应用一:实现连续多轮对话
本文将通过一个完整的实战项目,介绍如何使用 FastAPI 框架开发 AI 聊天应用,重点讲解连续多轮对话的实现原理和核心技术。 即使你是编程新手,也能跟着本教程一步步构建出功能完整的 AI 聊天应用。 本项目已经开源之 Github,项目地址:,你正在和一个聪明的 AI 助手对话,它不仅能回答你的问题,还能记住你们之前聊过的内容。
7/4/2025 12:00:00 AM
wayn
新闻出版业危机:ChatGPT 引荐流量增长难抵 AI 搜索冲击
Similarweb报告显示,AI驱动的搜索结果导致新闻网站自然流量大幅下滑,2024年5月至2025年5月未转化为点击的搜索比例从56%升至69%。尽管ChatGPT对新闻网站的引荐流量增长25倍,但仍难弥补整体损失。#AI冲击新闻业# #ChatGPT#
7/3/2025 3:59:50 PM
远洋
从播客到带娃,看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)在大多数人还在摸索 AI 能帮自己做什么时,那些全球最忙、最顶尖的大公司 CEO,更是乐在AI中,更为恐怖地是,这些大佬可不是为了炫技,而是纯纯的刚需。 他们用 AI 跟播客“对话”、用 AI 总结邮件、甚至在深夜带娃时,也离不开 ChatGPT。 本文带你看看,微软、OpenAI、苹果、英伟达、Zillow 这五位 CEO,分别是怎么在日常生活中「高频使用 AI」的。
7/3/2025 3:40:27 PM
云昭
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
国产开源统一图像生成模型,技术重大升级! 新进展来自智源研究院:一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。 具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。
7/3/2025 3:01:26 PM
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。 除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。
7/3/2025 2:58:16 PM
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
DeepSeek-R2,终于要来了? 大模型竞技场秘密上线了一个叫steve的神秘模型,在对话中透露自己来自DeepSeek。 不过,网友们并不满足于知道steve的厂商,开始讨论起了steve的具体身份。
7/3/2025 2:57:51 PM
一份假简历领5份硅谷AI工资,印度老哥真是不得了
离谱! 一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。 这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
7/3/2025 2:56:12 PM
谢赛宁团队新作:不用提示词精准实现3D画面控制
henry 发自 凹非寺量子位 | 公众号 QbitAI曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/3/2025 2:31:12 PM
henry
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
Anthropic
英伟达
论文
AI新词
代码
训练
算法
LLM
Stable Diffusion
芯片
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
工具
华为
RAG
AI设计
大语言模型
搜索
字节跳动
具身智能
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
AGI
Transformer
架构
神器推荐
亚马逊
Copilot
特斯拉
应用
DeepMind