模型
Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现
预训练Scaling Law到尽头了? ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。 他公布了最新的关于多模态Scaling的最新见解,而训练数据达到了1000亿的规模!
3/10/2025 9:30:00 AM
新智元
精度效率双冠王!时序预测新范式TimeDistill:跨架构知识蒸馏,全面超越SOTA
如何在保证预测精度的同时降低计算成本,是时序预测应用面临的核心挑战。 传统的时序预测模型(如基于Transformer或CNN的复杂结构)虽在精度上表现卓越,但计算开销往往难以满足实际部署需求。 而轻量级MLP(多层感知器)虽然具备较高的推理速度,却常因建模能力不足,导致预测精度较低。
3/10/2025 9:22:00 AM
新智元
AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX
人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。 以DeepSeek为代表的LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。 然而,LLM的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态——GUI代理(GUI Agents)。
3/10/2025 9:15:00 AM
量子位
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
GRPO训练又有新的工具链可以用,这次来自于ModelScope魔搭社区。 随着DeepSeek-R1的成功出圈,其使用的GRPO算法受到了业界的广泛关注。 GRPO训练是来自于PPO算法的一种改进,旨在利用采样原理对value model进行简化,以增大训练的稳定性和可维护性。
3/10/2025 9:10:00 AM
量子位
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek
模仿是传统语言模型训练的主要方式。 LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。 在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。
3/10/2025 9:00:00 AM
新智元
DeepSeek占比升至9.6%,稳居全球第二!「全球生成式AI行业趋势」发布
近日,SimilarWeb发布了最新的「全球生成式AI行业趋势」报告。 报告中详细分析了截至2月28日,全球生成式AI工具在各个领域的趋势和表现。 报告链接:,AI工具在过去12周的增速约为20%,其中代码自动补全与DevOps增长高达72%。
3/10/2025 8:55:00 AM
新智元
狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投
正如Ilya所说,AI的下一步,就是「超级智能」。 近日,由DeepMind近12年老将、做出AlphaGo/AlphaZero/MuZero等项目的超级天才Ioannis Antonoglou,和Gemini强化学习的核心负责人Misha Laskin,联合成立的初创Reflection AI终于浮出了水面。 Reflection AI的目标十分明确——构建超级智能自主系统!
3/10/2025 8:38:00 AM
新智元
ICLR 2025 Spotlight |「免费」多模态信息助力3D小样本分割
该文章的第一作者安照崇,目前在哥本哈根大学攻读博士学位,导师为 Serge Belongie。 他硕士毕业于苏黎世联邦理工学院(ETH Zurich),在硕士期间,他跟随导师 Luc Van Gool 进行了多个研究项目。 他的主要研究方向包括场景理解、小样本学习以及多模态学习。
3/10/2025 8:25:00 AM
机器之心
Anthropic预测26年AI智力堪比诺奖得主!美国AI行动计划发布在即,五角大楼紧急布局
截止到2026-2027年,AI智力水平将达到诺奖级得主。 Anthropic最新长文,再次宣告,人类离超级智能体近在咫尺。 报告地址:,CEO Dario Amodei在「Machines of Loving Grace」一文中,曾大胆预测——2026年底-2027年初,人类将见证强大AI系统诞生。
3/10/2025 7:30:00 AM
新智元
7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
见识过32B的QwQ追平671的DeepSeek R1后——刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事? 图片新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。 使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛(MIT Integration Bee)上达到90分超越o1。
3/10/2025 1:00:00 AM
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心
自己训练模型才能掌握未来?一股脑押注应用层或许值得警惕
「所有投资者都在押注应用层…… 对训练能力存在强烈的负面偏见…… 我担心这是一场冒险赌注和市场误判。 」这是一篇标题为「The Model is the Product(模型即产品)」的文章的主要观点。 文章指出,当前很多企业都以集成商的形式在提供 AI 服务,也就是调用 OpenAI、Anthropic 等大公司模型的 API。
3/8/2025 3:31:00 PM
机器之心
Nature子刊 | 光镜电镜通用,Meta「分割一切」模型用到显微镜图像上了
编辑丨coisini识别显微镜图像中的对象,例如光学显微镜(LM)下的细胞和细胞核是生物学图像分析中的关键任务之一。 由于显微镜成像方式的多样性和不同维度(二维 / 三维,时间维度)的存在,这些识别任务具有挑战性,目前需要采用不同的方法来解决。 基于深度学习的方法在过去几年中显著改善了 LM 下的细胞和细胞核分割,电子显微镜(EM)下的细胞、神经元和细胞器分割。
3/7/2025 1:14:00 PM
ScienceAI
DeepSeek的MLA架构:大模型迁移的新突破
在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。 其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。 这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。
3/7/2025 10:52:00 AM
AI在线
沉寂很久的Mistral AI推出号称世界最强OCR
欧洲AI明星公司Mistral AI 今日发布 Mistral OCR,一款号称“世界最佳文档理解 API”的全新产品。 Mistral OCR 是一款光学字符识别(OCR)API,但它远不止于简单的文字识别。 与其他模型不同,Mistral OCR 能够全面理解文档的每一个元素,包括媒体、文本、表格、公式等,并展现出前所未有的准确性和认知能力。
3/7/2025 10:23:03 AM
AI寒武纪
另一个来自中国本土"DeepSeek"时刻?全球首个通用人工智能代理发布
I 圈又炸了锅! 另一个来自中国本土"DeepSeek"时刻今天,Manus AI 悄悄憋了一年的大招终于揭开了神秘面纱——通用AI Agent「Manus」正式发布早期预览版! 这可不是市面上那些只能跟你聊天的“智能聊天机器人”的升级版,而是一个 真正意义上的自主智能体,它最大的亮点在于:打通了从想法到执行的完整链路!
3/7/2025 10:12:16 AM
AI寒武纪
Light-R1-32B:低成本高性能的数学解题新星闪耀登场
2025年3月6日,一款名为 **Light-R1-32B** 的全新语言模型正式亮相。 这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器,经过特别训练,以其卓越的数学解题能力、低廉的训练成本以及可复现性,成为人工智能领域的一大亮点。 开发团队xAI表示,Light-R1-32B不仅在性能上超越同类模型,还为学术研究和实际应用提供了极具价值的参考。
3/7/2025 10:00:29 AM
AI在线
诸葛亮 + 水浒传 - 三国演义 = ?一文搞懂什么是向量嵌入
一起来开个脑洞,如果诸葛亮穿越到《水浒传》的世界,他会成为谁? 武松、宋江、还是吴用? 这看似是一道文学题,但我们可以用数学方法来求解:诸葛亮 水浒传 - 三国演义 = ?
3/7/2025 9:00:00 AM
小喵学AI
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
搜索
Claude
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成