理论
架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练
随着大模型技术向多场景渗透,算力需求呈现「大规模、高弹性、低成本」三重挑战。 清微智能基于全球领先的可重构计算架构(CGRA)推出可重构算力芯片RPU(Reconfigurable Processing Unit),实现单机高效运行千亿级参数模型推理和训练,以动态硬件重构、全栈优化及高能效比,重新定义国产AI芯片的性价比标杆。 新年伊始,DeepSeek的惊艳亮相,不仅在科技圈掀起巨浪,其影响还涉及到经济、社会、政策等多个维度,相关企业迅速跟进。
2/7/2025 2:04:44 PM
新智元
英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。 为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。 SANA1.5在此基础上,聚焦了两个关键问题:线性扩散Transformer的可扩展性如何?
2/7/2025 2:01:20 PM
新智元
DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法
自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。 GRPO 是一种在线学习算法(online learning algorithm),它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。
2/7/2025 1:45:58 PM
机器之心
微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变
奥特曼预言,2025年软件工程将迎来巨变。 开年智能体大爆发,AI自动化软件工程已成为不争的事实。 就在今天,纳德拉官宣,GitHub Copilot将all-in智能体,微软自主的SWE智能体首次亮相。
2/7/2025 1:26:13 PM
新智元
DeepSeek R1 集成难题完美解决:Deepseek4j 已开源
一、为什么需要 deepseek4j? 1.1 现有框架的局限性思维链内容丢失:R1 最核心的推理过程完全被忽略响应模式不兼容:无法处理"思考在前、结论在后"的输出模式参数限制:temperature、top_p 等关键参数设置失效流式处理不完善:用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API,但这种方式存在一些问题:开发成本高:直接调用 API 或改造现有框架需要处理大量细节,包括请求构建、响应解析、错误处理等。 一不做二不休,为了彻底解决这些问题,笔者基于 OpenAI4J[1] 项目的优秀架构,打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter,提供自动配置 二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成,同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持 三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制
2/7/2025 1:10:06 PM
冷冷
未来教室的变革:大语言模型LLM会取代老师吗?揭秘教育新纪元
大语言模型(LLM)的发展是近年来人工智能领域的重要突破,其背后是深度学习、自然语言处理等技术的快速进步。 从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型,大语言模型已经广泛应用于各个领域,包括客服机器人、智能搜索引擎、自动化写作等。 随着技术的进步,人们开始探讨这样一个问题:大语言模型是否将在未来取代老师的角色?
2/7/2025 12:54:57 PM
tune
突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅
OpenAI,真的被DeepSeek逼急了! 活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。 比如问「怎么今天不是星期五啊😅」?
2/7/2025 11:20:50 AM
新智元
DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!
中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio
DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程,文中附模型和工作流下载
今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程,包含ComfyUI安装,模型下载,工作流下载等,欢迎大家一起交流学习,也欢迎添加公众号小助手加入读者交流群,一起探索AIGC好玩的应用。 Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型,同时具有图像理解和生成的能力。
2/7/2025 10:21:42 AM
AIGC Studio
轨迹预测新基准!清华开源Ultra-AV:统一自动驾驶纵向轨迹数据集
摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/7/2025 10:17:55 AM
Hang Zhou等
OpenAI联创Schulman闪电跳槽!从Anthropic转投Murati新公司
跑去隔壁Anthropic的OpenAI联创John Schulman,又又又跳槽了。 《财富》爆料,Schulman新的去向,是加入原OpenAI首席技术官Mira Murati的新创业公司。 此时距离他转投Anthropic,仅仅不到半年。
2/7/2025 10:13:16 AM
量子位
零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案
一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。
2/7/2025 10:10:05 AM
萍哥学AI
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
刚刚,OpenAI把o3-mini的推理思维链公开了。 从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。 图片评论区网友纷纷:让我们谢谢DeepSeek。
2/7/2025 9:05:36 AM
817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。 特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。
2/7/2025 9:00:00 AM
机器之心
基于 Ray 的融合计算引擎在生命科学领域的应用
一、从 2024 年诺贝尔化学奖谈起2024 年诺贝尔化学奖得主都不是来自化学专业。 其中 David Baker 从事多年蛋白质设计研究,包括一些模型和传统生物信息工具,类似于现在的生成式场景。 另外两位得主来自谷歌旗下的 DeepMind 团队,该团队主要专注于蛋白质生成领域,其另一重要成就是之前在围棋比赛中战胜人类的 AlphaGo。
2/7/2025 8:50:47 AM
饶星
基于Langbase Memory Agents将任意LLM转为 可对话式AI文档助手
译者 | 刘涛审校 | 重楼在 2025 年当下,大语言模型(LLM)依旧无法获取用户的私有数据。 当用户向其询问某些与个人相关的问题时,大语言模型要么凭借推测进行回应,要么给出错误的解答。 这体现了大语言模型存在的固有局限性——它们仅基于公开信息进行训练,无法获取用户的私有上下文信息。
2/7/2025 8:44:46 AM
刘涛
从某个角度看,Deepseek之于AI与当年Oracle之于信息化的意义是相同的
春节前这段时间里最热的莫过于DEEPSEEK,我因为家中老人住院,春节前后都泡在医院里。 无聊的时候只能看看头条消磨时光。 最近这段时间,我的头条推送几乎被DS占据了。
2/7/2025 8:32:56 AM
白鳝
DeepSeek正在杀死程序员?不,它杀死的是一整个时代
——从“人肉编码”到“AI工程化”,中国软件行业的范式革命已至导语:当技术革命的枪声响起2023年GitHub统计显示,中国开发者平均每天写300行代码,其中270行是重复性业务逻辑。 而在DeepSeek等AI编码工具冲击下,这种“人肉堆代码”的模式正在崩塌——某跨国IT服务商已裁撤40%初级Java岗位,同时开出百万年薪急招AI工程师。 这不是简单的工具替代,而是一场关乎行业生死存亡的认知革命。
2/7/2025 8:30:37 AM
斯巴达人
资讯热榜
量大管饱!我整理了10个好用到爆的即梦4.0进阶玩法
甲骨文公司股价飙升 27%,人工智能未来收入大幅增长
全球高校 “猎杀” AI作业!学生如何应对 “人类化” 挑战?
AI 数据版权新纪元:Real Simple Licensing 协议引发行业关注
ChatGPT能随便连MCP了!对话就能开发票、帮退款…奥特曼的野心毕露:将OpenAI打造成全能型平台!开发者:太危险了不敢用
OpenAI进军韩国市场,携手三星与SK海力士共建AI未来!
为什么 LangChain ReAct 机制值得关注 ?
数十亿人将用上免费AGI!OpenAI奥特曼高调断言:全球经济将迎来极度通缩!效率强如DeepSeek,全球AI也需百吉瓦能源!
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型