AI在线 AI在线

模型

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。
2/28/2025 9:30:00 AM
量子位

DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类

近日,来自斯坦福和普林斯顿的研究者发现,DeepSeek-R1已经能生成自定义CUDA内核了,而且还在一众推理模型中,直接拿下了TOP 1! 紧随其后,OpenAI o1和Claude 3.5 Sonnet分别排第二和第三。 具体过程,就是给定一个PyTorch程序,让模型对其优化,然后生成一个包含自定义CUDA内核的PyTorch版本。
2/28/2025 9:22:00 AM
新智元

机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天

好家伙! 机器人已入厂打工分拣快递,手法娴熟和人类一模一样。 前几天,Figure推出了端到端通用控制模型——Helix,能让机器人像人一样感知、理解和行动。
2/28/2025 9:20:00 AM
量子位

大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪

传统的大语言模型训练需要依赖”纯净数据”——那些经过仔细筛选、符合标准语法且逻辑严密的文本。 但如果这种严格的数据过滤,并不像我们想象中那般重要呢? 这就像教孩子学语言:传统观点认为他们应该只听语法完美的标准发音。
2/28/2025 9:15:00 AM
量子位

Grok 3疯狂实测,满屏都是马斯克!3D乒乓球破屏,火星殖民实时播报

各位坐稳了,AI的世界开始变得疯狂起来了! 自从上周马斯克发布Grok 3以来,其热度一直不减。 它可不仅仅是另一个聊天机器人,这家伙正在扭曲现实!
2/28/2025 9:07:00 AM
新智元

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

公认的编程开发能力第一! Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。 大幅甩第二名100多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。
2/28/2025 9:00:00 AM
量子位

OpenAI 发布 GPT-4.5:迄今最强大模型亮相 强化推理与情感智能

2025年2月27日—— OpenAI 于今日正式推出其最新语言模型 GPT-4.5,作为研究预览版率先提供给 ChatGPT Pro 用户(每月订阅费200美元)。 这款被誉为“迄今为止最大、最知识渊博”的模型基于 GPT-4o 构建,在推理能力、情感智能以及写作、编程等实用功能上实现显著提升。 OpenAI 表示,未来几周内,GPT-4.5将逐步开放给 Plus、Team、Enterprise 和 Edu 用户,标志着人工智能技术的又一里程碑。
2/28/2025 8:22:00 AM
AI在线

黄仁勋:感谢DeepSeek!英伟达财报破纪录,Blackwell开卖血赚800亿老黄笑疯

就在刚刚,英伟达公布财报。 那一刻,全世界都在观望。 出人意料的是,英伟达2025财年第四季度,情况一片大好,并未受DeepSeek影响!
2/28/2025 8:20:00 AM
新智元

OpenAI正式发布GPT-4.5 率先向ChatGPT Pro用户开放

2月28日,OpenAI通过官方博文宣布,其最新研发的GPT-4.5AI模型已正式亮相。 这款模型被OpenAI标榜为其目前最大、表现最佳的聊天模型,并将以研究预览版的身份率先向ChatGPT Pro用户开放体验。 GPT-4.5在预训练和后训练规模上进行了显著扩大,这一改变直接提升了其非监督学习能力。
2/28/2025 7:55:00 AM
AI在线

腾讯混元新一代快思考模型 Turbo S 发布 即将在腾讯元宝中上线

2025年2月27日,腾讯正式发布混元新一代快思考模型Turbo S,标志着大模型技术在响应速度和性能优化方面取得了重要突破。 与传统的慢思考模型如Deepseek R1和混元T1不同,混元Turbo S能够实现“秒回”,大幅提升输出答案的速度,吐字速度提升一倍,首字时延降低44%。 这一创新使得模型在知识、数理、创作等多个领域表现出色,为大模型的快速响应能力提供了新的解决方案。
2/27/2025 5:38:00 PM
AI在线

智能体或带来灾难性风险,图灵奖得主Bengio指明新路径Scientist AI:世界模型+推理机

编辑丨coisini领先的人工智能公司越来越专注于构建通用 AI 智能体,旨在让系统能够自主规划、行动并追求目标,几乎涵盖人类能够执行的所有任务。 虽然这些系统可能非常有用,但不受约束的 AI 智能体对人类安全构成了重大风险。 一些学者认为我们迫切需要一种更安全且仍具实用性的替代方案,以取代当前以智能体为导向的发展路径。
2/27/2025 3:54:00 PM
ScienceAI

B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。 该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。 这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
2/27/2025 2:21:00 PM
AI在线

微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。 2024 年底,微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型(SLM)。 仅用了 40% 合成数据,140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。
2/27/2025 1:45:00 PM
机器之心

不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。 也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式,比如我们之前报道过的 LLaDA。 不过,之前这些成果都还只是研究探索,并未真正实现大规模应用。
2/27/2025 1:45:00 PM
机器之心

DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发

按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
2/27/2025 1:10:00 PM
量子位

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位

超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1

阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列! Wan2.1 亮点速览✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭🧲 物理模拟: 物体交互更真实,视频更具沉浸感🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性✏️ 可控编辑: 编辑能力更强大,创作空间更广阔✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富🎶 音效音乐: 视听体验一体化,视频极具感染力Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
2/27/2025 12:44:41 PM
AI寒武纪

CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒

刚刚,CVPR 2025录用结果出炉! 今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。 近两年来,CVPR录用结果逐年递减。
2/27/2025 12:30:00 PM
新智元