资讯列表
小红书开源首个 AI 文本大模型:11.2T 精炼语料吊打海量数据,证明“大模型≠大数据”
近日,在中文开源大模型愈发稀缺的背景下,小红书旗下 hi lab 公布了中等规模的 MoE 模型 dots.llm1,以 1420 亿总参数、每次仅激活 140 亿参数的设计,达成与 Qwen2.5-72B 相近的性能,吸引了社区的关注。 图片据悉,dots.llm1 是一个 Mixture of Experts(MoE)结构的语言模型。 尽管总参数规模达 142B,但在每次推理中只激活 14B,有效控制了计算开销。
6/11/2025 2:44:48 PM
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
大模型强推理赛道,又迎来一位重量级玩家。 本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。 它能够进行不断反思,并解决更复杂的任务。
6/11/2025 2:39:50 PM
硅谷AI圈变天!OpenAI弃微软转投谷歌,LeCun被边缘小扎组队血战复仇
一夜醒来,硅谷变天了! OpenAI抛弃微软,竟转头和谷歌合作,达成了前所未有的云服务协议。 可以说,这笔交易,直接一举重塑了AI竞争格局。
6/11/2025 2:36:16 PM
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral。 然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比? (此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)图片图片在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。
6/11/2025 2:28:34 PM
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
近年来,LLM Multi-Agent系统引起广泛关注。 它们各显神通,协同作战解决复杂难题。 然而,一顿操作猛如虎,最终结果却“惨不忍睹”,一整个任务失败。
6/11/2025 1:44:44 PM
o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini、Claude
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)经历了 5 月份的“买买买”的节奏之后,6月的 OpenAI 终于开始对谷歌的Gemini 2.5 Pro 发起了反击。 今天凌晨,Sam Altman 动作非常密集。 先是宣布 o3 价格“截肢”(价格直接降至 1/5 ),紧接着不到 2 小时后就发布了 o3-pro。
6/11/2025 12:44:40 PM
云昭
谷歌 AI 搜索功能被指冲击新闻出版商流量:未经许可提取内容 + 低链接率
据《华尔街日报》报道,谷歌AI概览工具导致新闻网站流量大幅下降,出版商们正寻求新的商业模式应对冲击。一些出版商已与AI公司达成内容共享协议,如《纽约时报》与亚马逊合作。#AI冲击新闻业# #谷歌AI#
6/11/2025 12:34:02 PM
远洋
AI 助长“幽灵学生”骗局,美国社区大学遭遇助学金诈骗潮
这些机器人通常在课程中短暂停留,等待资金到账后即“消失”,部分高校甚至出现一整个班级几乎没有真实学生的现象。
6/11/2025 11:27:55 AM
清源
字节跳动推出豆包大模型 1.6 和视频模型 Seedance1.0,前者客户使用成本降至三分之一
火山引擎今日发布豆包大模型1.6和视频生成模型Seedance 1.0 pro,豆包1.6在复杂推理、竞赛级数学等测试中表现全球前列,Seedance在文生视频、图生视频任务中排名首位。豆包大模型已服务全球TOP10手机厂商中的9家、8成主流汽车品牌等。#火山引擎# #豆包大模型#
6/11/2025 10:56:35 AM
远洋
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。 贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论文奖提名。 扩散模型近年来在图像生成领域取得了令人瞩目的成就,其生成图像的质量和多样性令人惊叹。
6/11/2025 9:21:28 AM
法国 AI 实验室 Mistral 推出推理模型 Magistral 系列,Small 版已开源
6 月 11 日消息,法国人工智能实验室 Mistral 周二宣布进军推理人工智能模型领域。 6 月 . 10 日,Mistral 正式推出其首个推理模型系列 .
6/11/2025 9:19:46 AM
远洋
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成。 过去三年,该领域的研究呈指数级增长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 注:图中 2025 年的数据截至 4 月底来自南洋理工大学 S-Lab 的研究者们全面调研了该领域最前沿的研究方法,发表了综述《3D Scene Generation: A Survey》,对 300 篇代表性论文进行了系统归纳,将现有方法划分为四大类:程序化方法、基于神经网络的 3D 表示生成、图像驱动生成,以及视频驱动生成。
6/11/2025 9:19:22 AM
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
大幅缓解LLM偏科,只需调整SFT训练集的组成。 本来不擅长coding的Llama 3.1-8B,代码能力明显提升。 上海交大&上海AI Lab联合团队提出创新方法IDEAL,可显著提升LLM在多种不同领域上的综合性能。
6/11/2025 9:17:00 AM
消息称 Meta CEO 扎克伯格亲自组建 AI 团队,目标实现“超级智能”
据彭博社报道,Meta CEO扎克伯格亲自组建AI团队,目标实现“超级智能”。他对Meta AI进展不满,计划招50人。Meta正与OpenAI等竞争,“超级智能”目标雄心勃勃。#Meta #扎克伯格 #人工智能#
6/11/2025 9:16:43 AM
远洋
AMD MI350 系列 "CDNA 4" AI 加速器提前亮相,单模块功耗可达 1400W
MI350 系列 AI 显卡加速器采用 3nm 制程,配备 288GB HBM3E 内存,引入了对 FP6 和 FP4 的支持,在 FP16、FP8 上的算力可达前代 1.8 倍。
6/11/2025 9:16:41 AM
溯波(实习)
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
相邻的 KV 缓存将合并为一个。 在生成第一个字符时,KV 缓存长度为 1;生成第二个字符后,新生成的 KV 与前一个被合并,KV 缓存长度仍然保持为 1。 这种动态合并机制有效压缩了时间维度上的冗余信息。
6/11/2025 9:15:51 AM
刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.前沿模型的轮流更新这一次轮到 OpenAI 了。 ,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。 Team 用户也可在模型选择器选择使用它。
6/11/2025 9:13:44 AM
一块4090搞定实时视频生成!Adobe黑科技来了
近年来,视频合成技术已经取得了显著突破。 其中,基于双向注意力机制的扩散 Transformer(DiT)可以生成具有复杂时序动态的逼真内容,但其非因果性设计导致无法满足实时流媒体等场景需求。 相比之下,另一类自回归(AR)模型虽然具有天然时序因果性优势,却因依赖有损向量量化技术而难以达到顶尖画质。
6/11/2025 9:12:00 AM