资讯列表
百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具
近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM 超参数优化的全新的普适性缩放规律,为更好地提升 LLM 性能,提供了开箱即用的工具。 该研究也是第一个全面研究模型最优超参随着 Model Shape、Dense/MoE、预训练数据分布的变化,是否稳定不变的工作。 研究中凸显出 Step Law 的鲁棒性,大大增加了该工具的实用性和普适性。
3/13/2025 9:20:20 AM
机器之心
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元
谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini
谷歌Gemma 3全家桶来了! 刚刚,在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。 此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。
3/13/2025 9:12:35 AM
新智元
理想汽车AI助手理想同学网页版上线:接入DeepSeek R1满血版
理想汽车宣布其人工智能助手理想同学网页版正式上线,用户现在可以在电脑端使用这一智能助手。 这一举措标志着理想汽车正进一步拓展其智能服务生态,实现跨场景的智能服务协同。 理想同学网页版全面接入了DeepSeek R1V3671B满血版,为用户提供了更强大的问答能力。
3/13/2025 9:11:00 AM
AI在线
谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。 令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。
3/13/2025 8:52:00 AM
AI在线
大模型指标:RPM、TPM…这些“神秘代码”到底是什么?
一、RPM:每分钟能“说多少话”? 定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。 比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。
3/13/2025 8:33:37 AM
若有无
Midjourney隐藏黑科技!4 种 Sref 代码实现100%风格复刻
大家好,我是竹子,竹笋集视觉创始人,同时也是一名设计师。 很高兴成为优设 AI 特邀专栏作者,未来我将与大家分享 AI 绘画的心得与实践经验。 随着 AI 工具的兴起,绘画的门槛正在迅速降低。
3/13/2025 8:26:32 AM
竹笋集
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖
不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发
作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程
企业可以采用六种方式实现网络安全自动化以应对由AI驱动的攻击
为什么AI对于网络安全至关重要?因为每天都有,事实上是每秒都有,恶意行为者利用AI来扩大他们的攻击手段的范围和速度。 一方面,正如CrowdStrike高级副总裁Adam Meyers在最近接受记者采访时所说,“敌人每年都快了10到14分钟。 随着他们的突破时间缩短,防御者必须反应更快——在威胁扩散之前检测、调查和阻止它们。
3/13/2025 7:00:00 AM
Louis Columbus
用AI把PDF一键变成能玩的可视化网页,这不比PPT酷多了?
前几天,看到好基友歸藏在 X 上发了一个帖子:还挺爆,一天半的时间过去,已经有 17.3 万的阅读了。 这个东西,简单点说,就是用一个 Prompt,把一些非常难以阅读的文字报告,一键转成更舒服更易读的可视化网页。 甚至,还是能交互的那种。
3/13/2025 6:53:33 AM
数字生命卡兹克
谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务
北京时间今晚,谷歌 DeepMind 推出两款新型 AI 模型,旨在帮助机器人完成更多现实世界中的任务。
3/12/2025 11:22:56 PM
清源
从聊天机器人到智能玩具:人工智能正在中国蓬勃发展
中国正在积极推动人工智能产业的发展,目标是到 2030 年成为全球科技强国。以 DeepSeek 为代表的本土人工智能公司已取得显著成就,展示了中国在该领域的竞争力。随着政府投资和教育系统的支持,人工智能在中国的应用迅速扩展,从教育机器人到智能玩具等产品层出不穷。
3/12/2025 11:15:06 PM
小小
理想汽车旗下 AI 助手理想同学网页版上线,接入 DeepSeek R1&V3 满血版
理想同学网页版支持千字长文本输入,并且在 MindGPT 模型下支持传图问答;支持用户随时打断生成的结果,开始新的对话;“多端历史对话同步”能够确保跨设备对话的连贯性。
3/12/2025 10:48:20 PM
汪淼
谷歌联合创始人拉里・佩奇押注 AI+3D 打印,探索制造低成本飞机
佩奇一直关注 3D 打印和电动垂直起降 (eVTOL) 飞机的潜力。在 Kittyhawk 期间,他曾要求团队探索 3D 打印制造飞行器部件的可能性,希望借此大幅降低成本。
3/12/2025 10:18:14 PM
清源
优必选联合北京人形机器人创新中心发布“天工行者”科研机器人,29.9 万元
官方表示,“天工行者”是业内首款30万元以内的科研级人形机器人,具备高仿生、高强度、高性能、高稳定、高拓展、高开放的6高特性。
3/12/2025 9:58:17 PM
清源
Anthropic CEO:半年内 AI 将编写 90% 的代码,一年内几乎包揽全部
Anthropic 首席执行官达里奥・阿莫代伊(Dario Amodei)强调软件工程领域极易被 AI 自动化。阿莫代伊表示:“如果看编程这一领域,这是 AI 进展最快的地方。我们发现,距离 AI 编写 90% 代码的世界可能只有 3 到 6 个月的时间,而在 12 个月后,我们可能会进入一个 AI 几乎编写所有代码的世界。”
3/12/2025 9:00:52 PM
远洋