AI在线 AI在线

模型

基于闪电注意力机制,创新高效开源大模型

从数学竞赛、编程到自然语言处理,通过大规模的强化学习的模型正不断提升其推理能力。 但传统的Transformer架构由于其注意力机制的二次计算复杂度,在处理长文本和复杂推理任务时面临着效率瓶颈。 尽管有研究提出了多种改进方法,如稀疏注意力、线性注意力等,但这些方法在大规模推理模型中的应用效果尚未得到充分验证,大多数领先的模型仍然依赖于传统的注意力设计。
7/16/2025 10:15:51 AM

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。 现在,紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。 OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。
7/16/2025 10:12:35 AM

首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍

大模型在潜空间中推理,带宽能达到普通(显式)思维链(CoT)的2700多倍? 史上首篇潜空间推理综述,对这种新兴的推理范式进行了全面总结。 这篇综述当中,作者分析了循环、递归、连续思维等潜空间推理的形式,并将这些方法总结成了一个框架。
7/16/2025 10:08:57 AM

老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元

种子轮,估值120亿美元! 硅谷乃至全球创纪录的创业种子轮诞生了。 OpenAI前CTO Mira创业公司,Thinking Machines Lab——思考机器实验室,刚刚公告了首款融资情况:顺利筹集约20亿美元(约合人民币143亿元),公司估值一夜飙升至120亿美元(约合人民币861亿元),成为硅谷史上最大种子轮之一。
7/16/2025 10:03:14 AM

加拿大丛林迷路五小时,ChatGPT救命神技,比地图还靠谱!

最近,X平台上一个帖子火了,一群人在加拿大偏远的小镇Mabou骑全地形车(ATV)玩,结果迷路了整整五小时,最后靠ChatGPT导航才安全回来。 Mabou是个小地方,周围全是没开发过的森林和小路。 他们本来打算从Upper Southwest Mabou Rd出发,骑18公里到Whycocomagh玩一圈。
7/16/2025 9:58:47 AM

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

AI驯服人类第一步:教人重新说英语? 最近,越来越多的媒体发现:说话的方式,越来越像ChatGPT了! 这不是模仿,而是「入侵」。
7/16/2025 9:52:07 AM

秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人

就在刚刚,国内第一家免费公开可用的「深度研究」产品来了! 这个产品,可以直接对标海外的Deep Research能力,性能十分强大。 在BrowseComp等评测集上,它们超越了上周刚开源且达到最好结果的WebSailor模型,准确率有明显提升。
7/16/2025 9:48:23 AM

五个月估值120亿!OpenAI前CTO自曝首个多模态AI,竟要免费开源

OpenAI前CTO初创,又拿到新融资了! 一早,Mira Murati官宣由a16z领投20亿美元融资,至此,Thinking Machines Lab估值120亿美元。 同时,英伟达、AMD、Accel、ServiceNow等多家明星风投也参与了本次融资。
7/16/2025 9:44:29 AM

一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖

深度学习界的传奇论文,终于等来了它的“封神”时刻! 刚刚,ICML 2025会议上,2015年发表的Batch Normalization(批次归一化,简称BatchNorm)论文荣获时间检验奖。 这篇如今引用量超过6万次的开创性工作,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。
7/16/2025 9:15:17 AM

小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”

快把硅谷大厂挖成筛子的小扎,终于站出来正面回应了:大把研究人员因为天价薪资被打动来了Meta? 这个说法基本不对哦,lol~他们加入Meta,并非贪图金钱,而是为了造神——build god。 他嘴皮子一秃噜滑,全都招了,Meta超级智能实验室为顶尖AI人才提供超乎想象的强大支持:直接向小扎汇报,并且最强GPU无上限随!
7/15/2025 4:28:35 PM

放世界任务成功率82%!美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变? 美的AI研究院和华东师范大学联合提出ChatVLA-2——一个具有开放世界具身推理能力的视觉-语言-动作模型(VLA)模型。 它引入动态混合专家架构,并结合双阶段训练流程,不仅最大程度保留了视觉-语言模型(VLM)的多模态认知和推理能力,还能将推理结果真正转化为可执行的动作。
7/15/2025 4:28:05 PM

卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像

疯狂,太疯狂了~大神卡帕西预测的「下一代GUI系统」这就水灵灵地实现了? 玩法相当easy,当你移动鼠标、点击图标或敲键盘时,这个完全由神经网络驱动的操作系统就和咱们平时的电脑一样,能在屏幕上实时显示对应的图形界面。 就是说,AI现在能完全模拟Windows,直接预测下一帧屏幕图像。
7/15/2025 4:26:16 PM

硅谷大戏!Scale AI刚卖身就被集体拉黑,谷歌OpenAI无情断供

听说了吗? 不久前,Meta花费143亿美元收购了28岁少年Alexandr Wang创办的数据标注公司Scale AI近一半的股份。 别小看这个数据标注公司,这一笔交易让Meta在AI竞赛中直接提升了实力,瞬间成为焦点。
7/15/2025 9:47:22 AM

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员,Bernhard Schölkopf是德国马普所所长,Weiyang Liu是香港中文大学计算机系助理教授。 随着大型语言模型(LLM)推动人工智能领域取得突破性进展,如何实现高效、稳定的超大规模模型训练,始终是该领域最富挑战性的核心议题之一。
7/15/2025 9:27:29 AM

谷歌发布首个嵌入模型:MTEB排行榜第一,超过OpenAI

今天凌晨1点,谷歌发布了首个Gemini嵌入模型刷新了MTEB榜单记录成为第一,并且价格很便宜每100万token只要0.15美元,已经开放API。 根据谷歌在多文本嵌入基准测试平台MTEB上的测试结果显示,Gemini嵌入模型平均分达到了68.37,大幅度超过了OpenAI文本嵌入模型的58.93分。 在双语挖掘、分类、聚类、指令检索、多标签分类、配对分类、重排、检索、语义文本相似性等测试中,全部都非常出色成为目前最强嵌入模型。
7/15/2025 9:07:00 AM

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/15/2025 9:00:00 AM

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

2023年以来,大模型的战场由decoder-only架构一统江湖。 从GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,能叫得出名字的主流LLM,几乎都是清一色的「纯解码器」(decoder-only)。 但今天,Google带着T5Gemma杀回来了——不仅重启了encoder-decoder的技术路线,还略施小技就让它原地起飞,暴打原版Gemma 2。
7/15/2025 8:58:00 AM

MIT满分学霸掏空AI初创,谷歌24亿收购黑幕曝光!数百员工血本无归

OpenAI收购Windsurf在即,突然半路杀出个谷歌!  但这波可不是收购,而是釜底抽薪:谷歌直接挖走了整个Windsurf领导层 前30位核心AI工程师! 为了这次挖角,谷歌豪掷24亿美元!
7/15/2025 8:52:00 AM