理论
20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考
现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。 让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;2.
6/19/2025 9:15:00 AM
亚马逊CEO全员信曝光,硅谷AI裁员潮已至!年薪50万湾区HR被算法淘汰
别不信,AI真来抢你的工作了! 就在刚刚,亚马逊CEO给员工发出全员信。 他明确表示,在未来几年内,由于AI带来的效率提升,公司员工数量必将减少。
6/19/2025 9:12:00 AM
美7000万人或被取代,Agent光速卷入职场!北大校友、杨笛一新作
1769年,瓦特改进了蒸汽机。 1945年,计算机诞生。 2001年,3G移动网络开始部署。
6/19/2025 9:10:00 AM
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。 此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。 近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子(SageAttention3)。
6/19/2025 9:07:00 AM
GPT-5今夏突袭?Sam Altman 首次大谈 GPT-5、AGI
昨天凌晨,OpenAI发布了其联合创始人兼首席执行官Sam Altman的40分钟深度专访。 本次访谈技术干货很足,Altman谈到了大家非常关心的核心产品GPT-5,大概率会在今年夏天发布,但也会因为命名、安全测试、功能迭代等原因延长产品时间。 也谈到了高性能的o3模型以及智能体Deep Research,这些产品对实现AGI的重要性。
6/19/2025 9:06:00 AM
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平。 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。
6/19/2025 9:04:00 AM
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一:模型多如牛毛,怎么选才不会“踩坑”?
6/19/2025 8:55:00 AM
75%预训练数据都能删!Jeff Dean新作:全自动筛除低质量数据
机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。 大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。 大量的实验和经验已经证明了,对预训练数据进行质量筛选是提高模型能力和效率的关键。
6/19/2025 8:50:00 AM
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。 在70亿参数(7B)规模上实现SOTA。
6/19/2025 8:49:00 AM
人工智能代理时代的安全、风险与合规治理
自主性催生治理模式变革人工智能代理(AI agents)正迅速成为企业运营的基础设施。 无论是处理服务工单、自动化政策执行、定制用户体验还是管理监管文件,AI代理已突破实验环境局限,深度参与企业服务交付、决策制定和运营扩展的全过程。 这类代理与传统机器人或确定性RPA(机器人流程自动化)系统存在本质差异。
6/19/2025 8:05:00 AM
清茶泡饭
智能体开发实战 | 基于Dify+MCP实现理财助手智能体
前言AI智能体通过感知环境、自主决策和执行任务,突破传统大模型仅限于语言交互的局限。 例如,当用户指令“订一张明天去北京的机票”时,智能体不仅理解语义,还能自动调用航班查询接口、完成支付并同步至日程系统。 这种能力使其在客服、医疗、智能制造等领域展现出颠覆性潜力。
6/19/2025 3:30:00 AM
AI大模型应用开发
2025年AI驱动软件开发:16款“Vibe Coding”工具盘点
大家好,我是肆〇柒。 相信绝大多数 Coder,在 AI 时代的当下,都离不开一款好用的 AI 辅助编程工具,毕竟科技的进步正不断重塑着我们的工作模式。 正因如此,2025 年的 Vibe Coding 理念为软件开发领域带来了前所未有的变革。
6/19/2025 3:00:00 AM
肆零柒
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
理解大型语言模型(LLM)的推理方式不仅仅是一个理论探索,它对于在现实世界中安全地部署人工智能具有直接的实践意义。 在医疗保健、法律、金融和安全等领域,人工智能做出错误决策或基于错误原因做出正确决策的代价可能极其高昂。 最后一部分将讨论研究结果对部署人工智能系统的意义,并就未来的安全策略和透明度标准提出建议。
6/19/2025 2:30:00 AM
晓晓
在扩展GenAI应用前,请先绘制你的LLM使用与风险版图
他解释说,随着GenAI功能的普及,企业必须实施保护措施来管理风险,特别是在输入/输出处理和微调实践方面,尽早建立这些控制措施可以确保安全、合规地采用AI,同时不损害创新。 对于那些已经推出了GenAI功能的团队,他们首先应该审计或检查什么?GenAI . 以传统威胁模型经常忽视的方式扩大了你的攻击面,新进入这一领域的安全从业人员应该首先了解这类新的漏洞以及如何防御它们,一个好的起点是OWASP为大型语言模型(LLM)制定的十大安全风险列表,其中概述了常见的漏洞,如提示注入、数据泄露和不安全的插件设计。
6/19/2025 1:30:00 AM
Mirko
MiniMax 发布 M1 大模型,百万Token上下文+MoE架构,只花了 GPT-4 的零头!
近日,国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。 有两个方面最引人注目:1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。
6/18/2025 4:42:38 PM
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型太贵太慢怎么办? 普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。 实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。
6/18/2025 4:42:15 PM
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物理上的消失,而是无需思考便可自如使用。 然而,当前最先进的机器人仍然无法“放下”这把“锤子”,它们被困在循环中 —— 识别锤子、规划如何使用锤子,每一次交互都需要重新“拿起”工具作为认知对象,这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。 具身智能的突破,不会来自对现有基于视觉 - 语言基础模型的修补,而将源于一场架构革命。
6/18/2025 4:41:45 PM
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
6/18/2025 4:39:02 PM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Sora
Agent
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
RAG
大型语言模型
预测
具身智能
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA