AI在线 AI在线

资讯列表

AMD开源科研AI Agent,一站式自动写论文

科学研究的漫长历程中,受限于时间和资源,许多高质量的研究想法未能得到充分探索。 如果能够减少探索想法的限制,研究人员将能够同时研究多个概念,增加科学发现的效率。 所以,为了帮助科研人员节省时间快速撰写论文,AMD和约翰·霍普金斯大学的研究人员联合开源了一个专用于科研的AI Agent——Agent Laboratory。
2/12/2025 1:44:12 PM
AIGC开放社区

DeepSeek并非完美,训练过程存在“深度诅咒”

高性能大模型在训练的过程中通常需要数千个GPU,耗费数月甚至更长时间才能完成一次训练。 这种巨大的资源投入使得模型的每一层都必须高效训练,才能确保算力资源最大化利用。 但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现,这些模型的深层在训练过程中表现并不好,甚至可以被完全剪枝而不会影响模型性能。
2/12/2025 1:42:25 PM
AIGC开放社区

AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评

验证码通过利用人类与机器的认知差异实现身份验证。 传统的验证码方案主要依赖文本扭曲[1]、图像分类[2,3]或逻辑推理[4]来区分人类与机器,但随着多模态LLMs(Large Language Model)的发展[5],这些方法逐渐失效,机器也能达到人类水平的认知。 GPT-4o对简单「文本验证码」的破解成功率超过90%,Gemini 1.5 Pro 2.0[6]能识别带噪声的「reCAPTCHA图像」(成功率50%);LLMs在「推理验证码」上的表现较差(平均成功率20%),但人类用户的失败率也同样很高。
2/12/2025 1:37:56 PM
新智元

如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践

本文的通讯作者是北京大学计算机学院长聘教授李戈。 本文一作是 aiXcoder 蒋思源和北大李戈教授课题组博士生李佳,团队重点关注融合深度学习与软件工程的代码建模方法。 如何训练一个代码大模型?
2/12/2025 1:34:40 PM
机器之心

统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA

在最近的一篇论文中,来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。 市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 论文地址:: 地址:,研究者设计了一套统一的指令微调格式 (Instruction Tuning Pipeline),整合了五种不同的任务,超过 20 个数据集一起进行联合训练。
2/12/2025 1:31:33 PM
机器之心

海信电视接入 DeepSeek,支持 AI 语音对话

接入 DeepSeek 后,海信电视用户无需复杂的操作步骤,使用海信电视遥控器小聚 AI 键或者直接通过语音打开 DeepSeek,在对应的智能体对话页面内,用户通过语音对话即可体验。
2/12/2025 1:25:57 PM
汪淼

淘宝卖DeepSeek安装包一月赚数十万???我们免费教你本地部署DeepSeek-R1

当看到这条消息时,机器之心编辑部陷入了集体沉默。 作为一个免费开源的模型,DeepSeek 竟能让倒卖商如此大赚特赚,也着实让人震惊。 而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。
2/12/2025 1:23:47 PM
机器之心

奥特曼公开回怼马斯克,OpenAI董事会成员:说要收购,没收到报价啊?

奥特曼马斯克互怼继续! 继两人因“收购OpenAI”在𝕏平台爆发口水大战后,OpenAI CEO奥特曼在随后的巴黎AI峰会上,对马斯克予以公开回击。 马斯克此举只是压制竞争的小伎俩,我希望他能通过打造更好的产品来竞争;可能他的一生都处于不安全状态,我为这个人感到难过…我不认为他是个快乐的人。
2/12/2025 1:17:25 PM
量子位

DeepSeek 被曝估值最高 1500 亿美元达 OpenAI 一半,巴黎地铁 70 岁老人都在聊

最近,外媒 Bloomberg 曝出了惊人消息:DeepSeek 的估值竟已飙至 1500 亿美元,已经达到 OpenAI 的一半?在巴黎 AI 峰会现场,DeepSeek 已经如同房间里的大象。甚至巴黎地铁里的 70 岁老人也开始讨论 DeepSeek!
2/12/2025 1:06:26 PM
汪淼

豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%

实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。
2/12/2025 12:58:01 PM
清源

消息称百度今年下半年将发布新一代 AI 大模型文心 5.0,提升多模态能力

据外媒CNBC援引知情人士消息称,百度计划在今年下半年发布下一代AI模型“文心 5.0”,以应对正在打破当前市场格局的DeepSeek等新兴企业的挑战。
2/12/2025 12:53:12 PM
清源

DeepSeek被曝估值1500亿达OpenAI一半?巴黎地铁70岁老人都在聊!

DeepSeek的估值,被曝已达1500亿美元,达到了OpenAI的一半? 最近,Bloomberg的这个数据,引起了轩然大波。 所有人都在问:真的假的?
2/12/2025 12:47:01 PM
新智元

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛

DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。 而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。 因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
2/12/2025 12:45:59 PM

三分钟学会计算DeepSeek的显存内存配置

DeepSeek本地部署前段时间DeepSeek震惊了全世界不容易啊终于国内有了自己的精品图片但访问过程中频繁的 “服务器繁忙”,也让很多人尝而不得作为技术人员都在考虑如何充分利用开源的价值让我们的程序也能借船出海搭上AI的快车,那么问题来了。 如果我需要本地部署一个大模型需要什么配置的电脑呢? 显卡、显存怎么选配模型的大小,决定了对硬件的需求以 DeepSeek-R1 为例1.5b、7b、32b、70b、671b 之间差距非常大图片很多人埋怨说:我的大模型就是个“人工智障”但你得反过来检视一下是不是用的模型参数太少了?
2/12/2025 12:45:06 PM
了不起

突发:苹果AI与阿里牵手成功!曝本地AI功能已提交网信部审批!曾考虑采用DeepSeek

编辑 | 伊风终于定了? 几经波折,苹果AI在中国的落地终于有了眉目! 阿里最终与苹果牵手成功,合作开发国行的Apple Intelligence。
2/12/2025 12:36:11 PM
伊风

景嘉微国产 GPU 完成 DeepSeek R1 系列模型适配

景嘉微 JM 系列完成了 DeepSeek-R1-Distill-Qwen-1.5B 模型和 DeepSeek-R1-Distill-Qwen-7B 模型的适配。
2/12/2025 12:17:08 PM
汪淼

DeepSeek R1 搭建个人 AI 知识库

前言上一篇文章写到了部署本地deepseek,基于这篇文章,继续讲一下如何搭建自己的知识库。 可能很多人会有疑问,本地部署有什么优势呢。 其实如果不是有特别的技术研究和比较私密的数据,可以不用搭建。
2/12/2025 12:12:59 PM
cqhly

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心