AI在线 AI在线

资讯列表

亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式

如何让机器人从看懂世界,到理解意图,再到做出动作,是具身智能领域当下最受关注的技术重点。 但真机数据的匮乏,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。 尽管业界已投入大量资源构建数据平台(如马斯克主导的“数据工厂”项目),现有真机数据规模仍较模型规模定律所需的上亿级训练样本相差三个数量级。
7/25/2025 9:31:49 AM

Routine:把 GPT-4o 准确率从 41% 拉到 96% 的企业级 Agent 稳定器

大家好,我是肆〇柒。 在企业落地 AI 的进程中,自主智能体凭借其强大的自主决策与任务执行能力,可以成为企业提升效率、优化流程的关键力量。 然而,当我们将视角聚焦于企业级应用场景时,不难发现,部署智能体系统并非易事。
7/25/2025 9:31:34 AM
肆零柒

AI视频记忆革命来了!Memories.ai获800万美元融资,挑战千万小时视频分析极限

人工智能正在突破视频理解的最后边界。 当前市面上的AI工具虽然能够分析单个视频并生成摘要,但面对数千小时的多视频内容时却显得力不从心。 这个技术瓶颈正困扰着安防公司和营销企业,前者需要AI筛查海量监控录像,后者则希望分析不同的视频营销活动和产品拍摄素材。
7/25/2025 9:31:02 AM
AI在线

马斯克23万GPU训练Grok-这规模让OpenAI都要颤抖

马斯克昨天在X上发了一条消息:"xAI的目标是在5年内部署相当于5000万个H100的AI算力。 "5000万个H100,这什么概念? 我算了一下,这相当于35个核电站的发电量才能供得起。
7/25/2025 9:25:05 AM
阿丸笔记

突破单token预测局限!南洋理工首次将多token预测引入微调,编程任务准确率提升11.67%

告别Next-token,现在模型微调阶段就能直接多token预测! 从GPT到Claude,当前主流LLM都依赖next-token prediction(下一token预测)进行训练,但它却让AI很难真正理解跨越多token的完整概念。 于是南洋理工大学最近提出了一项新技术——概念感知微调(CAFT),首次实现将multi-token prediction(多token预测)引入微调阶段,让模型能够像人类一样理解和学习完整概念。
7/25/2025 9:24:43 AM

IEEE ICDCS’ 25 | 提速79%!上交大新方法优化企业级AI流程调度

复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。 ⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。 为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。
7/25/2025 9:22:13 AM

阿里云通义千问宣布 Qwen-MT 机器翻译模型:支持 92 种语言互译,每百万输出 token 低至 2 元

AI在线 7 月 25 日消息,阿里云通义千问 Qwen 团队昨晚发文,向大家介绍了其机器翻译模型 Qwen-MT(开发者现可通过 Qwen API 直接体验),核心亮点包括:92 种语言互译:支持超过 92 种主流官方语言及重要方言之间的高质量互译,覆盖全球 95% 以上的人口,满足广泛的语言交流需求。 高度可控性:提供术语干预、领域提示、记忆库等专业翻译功能,并支持用户自定义提示,有效提升模型在复杂、专业或特定应用场景下的翻译表现。 低延迟、低成本:采用轻量级 MoE(Mixture of Experts)架构,在保证卓越性能的同时实现更快的响应速度和更低的 API 调用价格(每百万输出 token 低至 2 元),更适合高并发、实时性要求高的应用场景。
7/25/2025 9:17:44 AM
问舟

AREAL 开源:解耦架构与创新算法驱动的强化学习系统

大家好,我是肆〇柒。 推理能力在当下 AI 领域,尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域,已然成为推动技术革新的关键要素。 然而,目前大型语言模型虽已取得瞩目成果,但在处理复杂逻辑时,常受困于逻辑连贯性把控,长链推理面临信息丢失、逻辑断裂问题,长序列输出任务下推理耗时久、资源消耗大,这些痛点严重制约模型应用场景拓展与性能深化。
7/25/2025 9:03:24 AM
肆零柒

因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历

“因为不是AI First,我在终面挂了。 ”最近,一外国小哥的经历意外火了! 他表示自己几个月前被解雇,终于来到了一家自己本来很看好的初创公司,并且走到了终面,与CEO面对面。
7/25/2025 8:45:00 AM

消息称 OpenAI 准备在 8 月初发布新一代 GPT-5 模型

AI在线 7 月 25 日消息,The Verge 今日报道称,OpenAI 将在 8 月初发布新一代 GPT-5 模型。 OpenAI CEO 萨姆・奥尔特曼(Sam Altman)还在 X 上透露,GPT-5 将推出 mini 和 nano 等不同版本,并通过 API 向外部开放。 AI在线注意到,奥尔特曼本周已经在《This Past Weekend》播客节目中展示了 GPT-5 的部分能力,并表示该模型能够迅速解答他不理解的问题,让他感受到 AI 的强大。
7/25/2025 8:39:37 AM
问舟

AI的过度应用是否让你的企业深陷洞察泥潭?

如今,决策者能获取的信息比以往任何时候都多,但数字化领导者必须对利用不同数据源以取得成功的合理节奏和切入点设定预期。 AI为数据分析带来了福音,专业人员可以将数据处理和异常检测等常规任务自动化,同时,复杂的数学方程几乎可以实时运算,因此,他们能以前所未有的速度获取信息。 借助AI的洞察力,传统的决策周期已从数周缩短至数秒,这促使Gartner预测,到2027年,50%的商业决策将由智能体增强或自动化完成。
7/25/2025 7:00:00 AM
Mark Samuels

面试官:聊聊RAG的执行流程?

RAG、MCP 和 FunctionCall 等都是 AI 的核心技术,同时也是面试中最长问的知识点,那么今天就来看下:RAG 技术及其执行流程。 概述RAG(Retrieval-Augmented Generation,检索增强生成)是指在将原始问题发送给大语言模型之前,先通过外部知识库将数据进行注入,之后先在知识库中检索相关信息,然后再将检索结果和原始问题一起发送给大模型组织、整理答案的一种技术手段。 通过这种实现方式,大语言模型可以获取到特定领域的相关信息,并能够利用这些信息进行回复,从而降低了发生幻觉的可能性。
7/25/2025 1:45:00 AM
磊哥

彻底解决出图困难!超高效的Kontext工作流搭建+提示词技巧

大家好,时隔半年,我回归啦。 今天给大家分享的是最近超火热的 Kontext 工作流,大家都知道,Kontext 解决了设计师长久以来“P 图”的困扰,以前 P 图是个体力活,现在只需要通过对话的形式,就是实现“P 图”自由,比如我想把下面的拼图放到场景中替换原来的花卉拼图,之前需要再 Photoshop 中来回倒腾,现在只需要搭建 ComfyUI 工作流,就可以瞬间实现。 更多相关教程:Kontext 效果展示.
7/25/2025 1:43:22 AM
Conor

消息称蚂蚁集团新设通用人工智能研究中心,一众“明星 AI 新秀”加盟

AI在线 7 月 24 日消息,雷峰网“AI 科技评论”今晚爆料称,蚂蚁集团近日新设了通用人工智能研究中心,隶属于蚂蚁技术研究院,人员包括蓝振忠、武威、吴翼、赵俊博等一众“明星 AI 新秀”,发力 AGI 基础技术研究。 今年年初,就有消息称蚂蚁将设立 AGI 研究部门,不过上半年是隶属于蚂蚁集团 CTO 线,由何征宇直接领导。 这次的调整则是由 AGI 研究转向研究院,并由蓝振忠担任中心主任,赵俊博、吴翼、武威等人向其汇报。
7/24/2025 9:31:29 PM
清源

谷歌 AI 帮你画出梦中情衣,还能一键找同款进行虚拟试穿

AI在线 7 月 24 日消息,谷歌正在将其在线购物体验与生成式人工智能进一步深度融合,其 AI Mode 即将推出一个功能根据用户描述生成服装和装饰品图片的功能,以帮助用户找到视觉上相似的产品。 同时推出的还有一款新工具,可让用户进行虚拟试穿。 新的 AI Mode 购物功能将于今年秋季在美国上线,该功能旨在通过视觉辅助手段更好地引导推荐产品,而不仅仅是依赖文字描述。
7/24/2025 9:22:54 PM
远洋

OpenAI资金链告急!紧急启动300亿美金融资,星际之门岌岌可危

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI果然,奥特曼自己画的饼,他自己hold不住的。 确实被马斯克说中了。 据悉,OpenAI正在寻求新一轮400亿美元融资,迫切需要资金支持其岌岌可危的星际之门项目。
7/24/2025 6:38:54 PM
鹭羽

突破单token预测局限!南洋理工首次将多token预测引入微调

告别Next-token,现在模型微调阶段就能直接多token预测! 从GPT到Claude,当前主流LLM都依赖next-token prediction(下一token预测)进行训练,但它却让AI很难真正理解跨越多token的完整概念。 于是南洋理工大学最近提出了一项新技术——概念感知微调(CAFT),首次实现将multi-token prediction(多token预测)引入微调阶段,让模型能够像人类一样理解和学习完整概念。
7/24/2025 6:34:27 PM
鹭羽

老黄刚走,全球最强算力Robotaxi方案落地中国

贾浩楠 发自 副驾寺. 智能车参考 | 公众号 AI4Auto全球最强算力Robotaxi方案,刚刚在中国落地:板卡算力全球No.1:2000TOPS 。 底层芯片行业最强:英伟达Thor-X首次量产,黄仁勋当年的承诺和夙愿兑现。
7/24/2025 6:32:01 PM
贾浩楠