模型
Anthropic CEO:全体失业好过50%失业!AI将接管所有代码,但可以一键「躺平」
「再过一年,所有的代码可能都是AI生成的。 」「它们会随机抢走世界上50%的工作。 」「应该设计一个按钮,让AI可以一键『躺平』。
3/14/2025 10:29:43 AM
新智元
南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成
(1Prompt1Story)是一种无训练的文本到图像生成方法,通过整合多个提示为一个长句子,并结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术,解决了生成图像中身份不一致的问题,同时保持了文本描述的精准对齐。 相关链接论文:::,通过单个连接提示实现一致的文本到图像生成。 我们的方法可以应用于所有基于文本嵌入的文本到图像模型。
3/14/2025 10:02:38 AM
AIGC Studio
科学家构建多模态LLM框架,进行3D脑CT放射学报告生成
编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。 虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。 在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。
3/13/2025 2:23:00 PM
ScienceAI
DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab
最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答,其思考过程仍可能泄露有害内容。 现有防御技术深陷两难:要么防不住攻击,要么让模型变成”惊弓之鸟”,连正常问题都拒绝回答。 上海交大与上海AI Lab联合推出安全防御方案——X-Boundary,试图破解两难局面。
3/13/2025 1:10:00 PM
量子位
自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构
不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了! SCoT,即自结构化推理链(Self-structured Chain of Thought )。 它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
3/13/2025 1:00:00 PM
量子位
DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1
号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
3/13/2025 12:41:37 PM
量子位
11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍
224张GPU,训出开源视频生成新SOTA! Open-Sora 2.0正式发布。 11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
3/13/2025 12:39:22 PM
量子位
长链推理表象下,大模型精细表征张冠李戴的本质
近些年,大模型的发展可谓是繁花似锦、烈火烹油。 从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。 然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。
3/13/2025 11:18:14 AM
张拳石、陈鹭
YOLOe问世,实时观察一切,统一开放物体检测和分割
它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。 自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only Look Once)以来,这项突破性的目标检测技术就像为机器装上了「闪电之眼」,凭借单次推理的实时性能刷新了计算机视觉的认知边界。 传统的 YOLO 系列如同我们人工效准的精密仪器,其识别能力被严格框定在预定义的类别目录之中,每个检测框的背后,都需要工程师手动输入认知词典。
3/13/2025 11:11:04 AM
机器之心
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
3/13/2025 11:07:30 AM
机器之心
担心成为「AI界奥本海默」!DeepMind、Anthropic CEO同框,26年AGI降临?
当今世界,谁最有可能成为「AI时代的奥本海默」? DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。 近日,这两位AI巨头罕见地坐到了一起,在《经济学人》的访谈中,直面AGI(通用人工智能)带来的种种争议与挑战。
3/13/2025 10:50:00 AM
新智元
只需7.6% token,性能还更强!华人团队提全新「草稿链」CoD,成本延迟大降
当下,企业正处于部署AI的关键节点。 随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。 来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。
3/13/2025 10:40:00 AM
新智元
Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹
今天,视频生成领域迎来开源革命! Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。 权威评测VBench及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。
3/13/2025 10:26:45 AM
新智元
多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合
在实际应用过程中,闭源模型(GPT-4o)等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。 与之相反的是,在General VQA任务上表现最好的开源模型(如InternVL2-78B)在面对开放式、需要知识储备的问题时,表现不尽人意:△InternVL2-78B和GPT-4o在回复的完备性和美观性上有较大差距上述现象引发了上海交大、上海AI Lab等联合团队的思考。 他们首先猜测:MLLM的回复质量下降可能是因为经过了多模态数据训练之后,LLM本身的能力退化。
3/13/2025 9:47:29 AM
量子位
百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具
近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM 超参数优化的全新的普适性缩放规律,为更好地提升 LLM 性能,提供了开箱即用的工具。 该研究也是第一个全面研究模型最优超参随着 Model Shape、Dense/MoE、预训练数据分布的变化,是否稳定不变的工作。 研究中凸显出 Step Law 的鲁棒性,大大增加了该工具的实用性和普适性。
3/13/2025 9:20:20 AM
机器之心
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元
谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini
谷歌Gemma 3全家桶来了! 刚刚,在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。 此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。
3/13/2025 9:12:35 AM
新智元
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。 报告将豆包文生图模型称为 Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。 从模型能力看,Seedream 2.0 是原生的中英双语图像生成基础模型,拥有很强的美感和文本渲染效果,与目前即梦上的文生图主力模型特性匹配。
3/12/2025 2:40:53 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉