AI在线 AI在线

资讯列表

70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍

人人都想有一个自己的DeepSeek,但并不是人人都有「一打」96GB显存的H20。 虽然量化可以极大地降低模型对于显存的需求,但它本质上是一种有损压缩技术。 换句话说就是,量化模型的输出分布不可避免地会受到影响,进而降低LLM的准确性和可靠性。
4/27/2025 9:15:40 AM
新智元

从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标

抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。 来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG (Group Policy Gradient)。 GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法偏差,提高训练效率。
4/27/2025 9:12:00 AM

大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析

近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。 上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。 这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。
4/27/2025 9:10:00 AM
机器之心

首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理

随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。 然而,技术的进步也伴随着潜在风险——大模型安全这一议题正成为全球科技界关注的焦点。 南洋理工大学、新加坡国立大学等全球40余所顶尖机构的67位学者联袂打造大模型全链路安全综述,综合梳理了843篇文章,系统的从全栈视角分析了大模型从出生到应用的全栈安全,涵盖数据准备→预训练→后训练→部署→商业化应用以及安全性评估等全部阶段。
4/27/2025 9:07:00 AM
量子位

GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化,背后贡献者也能扒 |免费

专为GitHub打造的免费百科全书来了——DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开发者们查阅起来很方便。
4/27/2025 9:05:00 AM
量子位

Step1X-Edit:开源图像编辑新标杆 媲美GPT-4o等闭源模型

2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。 这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。 以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。
4/27/2025 9:00:49 AM
AI在线

DeepWiki:AI驱动的GitHub代码库百科全书正式亮相

2025年4月27日 AIbase报道,由Cognition AI推出的DeepWiki项目近日引发广泛关注。 这一创新平台旨在为GitHub上的开源代码库生成动态、可交互的文档,堪称“代码库的维基百科”。 规模宏大的代码索引DeepWiki的核心亮点之一是其惊人的数据处理能力。
4/27/2025 9:00:49 AM
AI在线

国行版苹果AI智能要来了?iOS 18.5正式版预计5月份推送

苹果公司即将在5月向中国用户推送iOS18.5正式版更新,为国行版iPhone带来备受关注的Apple智能(Apple Intelligence)功能。 此前,该AI功能已在美版、欧版iPhone上线,而中国用户则等待了近一个月的时间。 这一更新标志着苹果在中国市场正式迈入生成式AI时代。
4/27/2025 9:00:49 AM
AI在线

​DeepMind 员工抗议谷歌与军工合同,引发工会组建潮

近日,谷歌旗下的 DeepMind 公司在英国的员工们正积极寻求组建工会,以对抗公司将人工智能技术出售给军工集团的决定,以及与以色列政府之间的合作关系。 据悉,约有300名位于伦敦的 DeepMind 员工已向英国通信工人工会(CWU)递交了申请,期望通过工会的力量来改变公司现有的商业化策略。 谷歌正在推动 DeepMind 寻找其技术的商业应用,这一过程引起了员工们的广泛担忧。
4/27/2025 9:00:49 AM
AI在线

​谷歌AI发布601个真实世界的生成式AI应用案例,涵盖各行业

谷歌云近期发布了一份令人瞩目的报告,展示了601个来自全球顶尖企业的真实世界生成式 AI(GenAI)应用案例。 这一数字比去年在谷歌云大会上分享的101个案例增长了六倍,展现了生成式 AI 技术从原型走向生产应用的飞速进展,这些技术正在几乎所有行业中推动变革。 在2025年谷歌云大会上宣布的这份报告涵盖了从优步、三星、花旗到梅赛德斯 - 奔驰、德意志银行和阿拉斯加航空等多家知名公司的应用。
4/27/2025 9:00:48 AM
AI在线

GPT-4o图像生成功能现已集成至自定义GPTs

2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。 这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。 无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。
4/27/2025 9:00:21 AM
AI在线

结构化提示词驱动开发实践

最近有幸参加了公司组织的关于AI实践的对外直播,我分享的内容是《结构化提示词驱动开发实践》。 现在将其记录成一篇博客,在此与大家分享我们团队在提示词驱动开发领域的一些实践与思考。 随着大语言模型的不断成熟,我们逐步认识到,如何高效运用结构化提示词,引导AI生成高质量代码,已成为提升软件开发效率与质量的关键所在。
4/27/2025 9:00:00 AM
Thoughtworks洞见

北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!

当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。 但大多研究者们选择 7B 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。 同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。
4/27/2025 9:00:00 AM
机器之心

具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互

OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮,但这些推理模型大多关注数学、代码等专业领域。 如何将这种深度推理模型扩展到智能体和具身领域,让机器人通过思考和推理来完成复杂具身交互等任务? 近期,来自浙江大学、中科院软件所和阿里巴巴的团队提出了 Embodied-Reasoner,让机器人或智能体拥有深度思考和交互决策能力,从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。
4/27/2025 8:55:00 AM
机器之心

英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞

AI数学奥赛第一名「答卷」终于公布! NVIDIA公布并开源了他们的冠军模型OpenMath-Nemotron系列! 论文地址:、软件工程师Chan Kha Vu,则盛赞道:这些模型太不可思议了!
4/27/2025 8:54:00 AM
新智元

秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心

OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!

在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。 这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师,在 AI 社区引起广泛关注。 最近,这门课又上新了。
4/27/2025 8:40:00 AM
机器之心

英伟达开源「描述一切」模型,拿下7个基准SOTA

图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
4/27/2025 8:30:00 AM
机器之心