理论
为何必须由营销部门而非IT部门主导AI转型
AI已不再是一项边缘实验,它正像互联网、移动技术和云技术一样,成为现代营销的基础层面。 麦肯锡2025年全球AI调查发现,92%的公司计划在未来三年内增加AI预算,78%的公司已经在至少一项业务职能中应用了AI。 我每天都与以增长为重点的营销高管交流,他们面临着证明其影响力的压力,并寻求解决方案。
8/11/2025 7:07:00 AM
Debra
ICML25 视频问答中以语言为中心的结构化推理
一、前言由于现有的多模态大语言模型(MLLM)在推理过程中存在无法控制和不透明的问题,视频问答(VideoQA)在实现高级认知推理方面仍然具有挑战性。 为了解决这一问题,哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理(LTR)框架,旨在增强模型的推理能力,该论文已经被 ICML2025 收录,是继 ICLR2025 的工作(ICLR25 重新思考长尾识别中的分类器再训练:标签过平滑可以实现平衡)之后Index团队在AI三大顶会(ICLR/ICML/NeurIPS)的第二项收录。 该框架通过递归地将原始问题划分为逻辑上可处理的子问题,并逐步解决这些子问题,从而提升现有MLLM的推理能力和可解释性。
8/11/2025 2:25:00 AM
AI
GPT-5发布即翻车!奥特曼深夜承认:图表出错,模型变笨。用户只想用回GPT-4o
OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。 据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。 然而,就在发布后的不到24小时内,OpenAI首席执行官山姆·奥特曼就不得不面对现实。
8/11/2025 2:11:00 AM
Stack Overflow 流量下降了50%的真正原因
大家都说,是 ChatGPT 杀死了 Stack Overflow。 表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。 可真相没那么简单。
8/11/2025 2:00:00 AM
前端小智
腾讯张正友:具身智能必须回答的三个「真问题」
7 月 27 日,腾讯发布了具身智能开放平台 Tairos,以模块化的方式向行业提供大模型、开发工具和数据服务,试图为具身智能的研发和应用提供一套通用的支撑体系。 在 Tairos 问世之前,腾讯 Robotics X 实验室已在具身领域探索七年多。 从多模态四足机器人 Max 到轮腿机器人 Ollie,从灵巧手 TRX-Hand 到人居环境机器人原型小五,这些自研项目不仅是技术展示,更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。
8/10/2025 1:17:00 PM
机器之心
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。
8/10/2025 1:12:00 PM
机器之心
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。 在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。 大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
8/10/2025 1:07:00 PM
机器之心
40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算法。 按照传统的 Dijkstra 算法,你将在整段路程中停下多次,寻找每一段的最短路径,然后再去更新下一段如何最短,直到走到目的地。
8/10/2025 1:01:00 PM
机器之心
ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。 但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。 本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。
8/9/2025 12:52:00 PM
机器之心
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。 第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取-结构化-推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。 论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。
8/9/2025 12:41:00 PM
机器之心
扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。 但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。 为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。
8/8/2025 6:20:00 PM
机器之心
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
论文的主要作者为浙江大学研究员刘忠鑫及其研究生邓乐、蒋中豪,其他作者包括香港科技大学研究助理教授曹嘉伦、德国 CISPA 和斯图加特大学教授 Michael Pradel。 刘忠鑫的主要研究领域为代码智能,包括代码生成与变更、代码表示学习等;曹嘉伦的主要研究领域包括 AI&SE、人工智能测试、形式化验证等。 当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。
8/8/2025 4:41:00 PM
机器之心
GPT-5 正式发布,CIO与IT团队迎来新选择
在 2025 年 8 月 8 日凌晨(北京时间),OpenAI 正式发布 GPT-5,为全球大模型市场带来了一场巨大的变革。 此次发布的 GPT-5 包含了 GPT-5、GPT-5 mini 、GPT-5 nano、GPT-5 Chat 四种模型,它们在多个关键领域展现出了显著的优势,迅速吸引了全球的目光。 GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。
8/8/2025 4:22:19 PM
shjiaz
GPT‑5深夜发布:模型之战结束,Agent之战开始!
嘿,大家好! 这里是一个专注于前沿AI和智能体的频道~昨晚,Sam炒作了一个月的GPT-5正式发布了! 单纯卷参数和跑分的时代过去了,真正开箱即用的原生Agent时代,开始到来了。
8/8/2025 2:28:12 PM
猕猴桃
让文字真正“写进”图像:阿里巴巴发布Qwen-Image
阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。 1.这并非简单地在图片上“加字”。 Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。
8/8/2025 2:27:50 PM
吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪
人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
8/8/2025 2:27:22 PM
GPT-5将如何重塑IT团队、开发者与职场AI的未来
OpenAI发布了其大型语言模型的最新版本GPT-5,目前,开发人员和ChatGPT用户已可使用该版本,它为AI在商业和IT环境中的应用带来了一些实质性变革。 与之前的版本不同,GPT-5在后台采用了一种新方法,它不再让用户根据速度或准确度来选择不同的模型,而是能即时决定如何响应,如果任务简单,它会快速响应,如果任务更复杂,它会切换到更深入的推理引擎,用户还可以提示它“逐步思考”,以触发更周全的回答。 GPT-5的另一个重大变化是其安全处理方式,旧版本常常直接拒绝回答某些问题,而GPT-5则采用了不同的方法,它不会中断对话,而是尝试在遵守安全规则的同时,结合上下文进行回应。
8/8/2025 2:06:52 PM
Sinisa
告别上下文溢出:MemTool如何优化LLM智能体的工具记忆管理
大家好,我是肆〇柒。 近期,普华永道(PricewaterhouseCoopers)商业技术与创新办公室的研究团队在LLM智能体技术领域取得了一些成果,他们提出的MemTool框架为解决多轮对话中动态工具调用的短期记忆管理问题提供了系统性解决方案。 关键发现包括:推理型LLM在自主代理模式下可实现90-94%的工具移除效率工作流和混合模式实现了跨模型一致的高移除效率(90% )工具移除效率与任务完成率存在解耦特性,需根据场景权衡选择系统提示工程和模型选择对MemTool性能有决定性影响在构建智能对话系统时,你是否遇到过这样的困扰:当LLM 智能体与用户进行多轮对话时,随着对话轮次增加,系统不断加载新工具却无法有效清理旧工具,导致上下文窗口迅速饱和,最终影响对话质量和系统稳定性?
8/8/2025 2:06:48 PM
肆零柒
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
视觉
预测