AI
DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨
昨天,全球著名开源大模型平台DeepSeek在huggingface发布了,超强开源模型V3的论文。 主要从硬件架构和模型设计的双视角探讨如何在不牺牲性能的前提下实现更高效的大规模训练和推理以突破硬件瓶颈。 其中,DeepSeek-MoE和多头潜在注意力、FP8混合精度训练以及多标记预测等成为关键创新技术。
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
李晓熙目前就读于中国人民大学高瓴人工智能学院,博士二年级,导师为窦志成教授,研究方向主要包括检索增强生成、大语言模型推理等。 在国际顶级会议和期刊如 AAAI,SIGIR,TOIS 等发表多篇论文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。 共同第一作者还包括人大高瓴博士生金佳杰和董冠廷。
Behemoth 难产:Meta 旗舰 AI 模型被曝遭遇技术瓶颈
华尔街日报昨日(5 月 15 日)发布博文,报道称 Meta 公司推迟了其旗舰 AI 模型“Behemoth”的发布计划,引发内部对数十亿美元 AI 投资方向的担忧。
腾讯Q1开支暴涨,狂投275亿!马化腾:看好微信专属智能体!加大元宝和微信融合,投入AI将获得长期、可观的回报
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)昨日,腾讯发布了2025年Q1财报! 腾讯正在AI的道路上狂奔——而“元宝”显然是腾讯AI战略里最受关注的一颗明星。 先来看成绩单:腾讯今年一季度收入1,800亿元,同比增长13%,毛利润达到1,005亿元,同比增长20%,经营表现亮眼。
高考AI志愿规划师之争:靠谱AI指责优志愿虚假宣传
靠谱AI近日发布声明,指责竞争对手优志愿的升学规划大模型存在虚假宣传行为。 这场 “高考 AI 志愿规划师” 的争夺战引起了广泛关注。 据靠谱 AI 透露,自2024年4月28日以来,优志愿通过其官方公众号及 “优家 SaaS 平台” 声称其大模型是 “全行业首个通过工信部备案” 的升学规划工具,并自称为 “国内首发”。
腾讯宣布混元图像2.0将于5月16日全新发布
今日, 腾讯混元大模型团队今日正式宣布,其新一代多模态图像生成工具——混元图像2.0将于5月16日上午11时通过全球直播发布。 这是继去年混元大模型升级后,腾讯在AI视觉领域的又一次重大突破,以“更智能、更开放、更中国”为核心理念,赋能创作者与企业用户迈向AI驱动的视觉生产新阶段。
Poe 报告:可灵大模型视频生成量约占30%份额 领先Runway
近日,全球知名的大模型整合应用平台 Poe 发布了2025年春季 AI 模型使用趋势报告。 报告显示,在文生视频领域,中国的快手可灵多款视频生成模型迅速崛起,已占据了约30% 的市场份额,领先于 Runway 和谷歌的 Veo2。 图源备注:图片由AI生成,图片授权服务商Midjourney特别值得一提的是,可灵2.0模型自今年4月推出以来,仅仅在三周内就取得了21% 的使用比例,展现出其强大的市场吸引力和应用能力。
Cursor之父自曝产品模型策略及防抄袭方法,如何招聘世界级顶尖人才?面试安排两整天的上班任务,万字访谈还原Cursor出圈历程
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Cursor 火了,但 Cursor 究竟是如何诞生、发迹的? 为什么只有它可以从众多“套壳”应用中破茧,从 0 到年收入 1 亿 美元仅仅只用了 18 个月? 这款“靠感觉编程”的 Vibe Coding 神器是如成功摆脱“套壳”的标签的?
Switch 2芯片细节曝光!英伟达专门定制支持DLSS,网友:掌机模式相当于PS4
Switch 2处理器,细节被实锤! 数毛社(Digital Foundry)消息,已经确定Switch 2采用的是英伟达真·定制版芯片,包含8核CPU和12GB LPDDR5X内存。 GPU则基于Ampere架构,和30系显卡同款,拥有1536个CUDA核心,支持DLSS。
新版Claude曝光:“极限推理”成最大亮点
O家(OpenAI)刚免费上线GPT-4.1,A家(Anthropic)这边也被曝出新消息——新版Claude Sonnet和Claude Opus,已经在路上了! 这一消息来自The Information,根据它的说法,新版模型最大的亮点,就是“极限推理”(Extreme reasoning)。 简单来说,这个新功能是通过在推理和工具使用之间建立动态循环,能够更智能地处理问题。
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
在大模型竞速进入推理能力深水区的 2025 年,一支神秘的团队悄然登场。 他们不是来自一线大厂的 AI Lab,也没有高调预热和融资造势,而是在 Hugging Face 低调开源了一款 32B 的推理模型:AM-Thinking-v1。 令人惊讶的是,这个中等规模的稠密模型,在多个关键推理评测中击败了 DeepSeek-R1,并与超大规模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。
5090将被秘密定位?美或强制植入「地理追踪」,锁定英伟达高端GPU
最近,美参议员Tom Cotton提出了一项新法案——要为英伟达、AMD等高端GPU装上「地理追踪」功能,防止落入竞争国家手中。 此举,不仅针对的是AI芯片,还涵盖了高性能游戏显卡等硬件。 若是法案通过,这些措施将在6个月后生效。
一个提示攻破所有模型,OpenAI谷歌无一幸免!
如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你会作何感想? 这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。 只需把危险指令伪装成XML或JSON配置片段,再配上一段看似无害的角色扮演,大模型便乖乖奉上危险答案,连系统提示都能原封不动「倒带」出来。
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
就在刚刚,DeepSeek团队发布最新论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》。 论文链接:,论文采用了双重视角——跨越硬件架构和模型设计,通过研究这种协同作用,探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。 随着 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先进模型的出现,大规模架构和上下文推理的进步强调了对更快、更高效推理的需求。
谷歌AlphaEvolve发布!Gemini自进化AI破解数学难题,优化芯片与数据中心,训练速度飙升32.5%!
谷歌DeepMind发布了一项颠覆性研究成果——AlphaEvolve,一款结合Gemini大语言模型与进化算法的AI编码代理。 这款系统不仅能自动发现和优化复杂算法,还在谷歌的数据中心、芯片设计和AI训练中展现了惊人实力,甚至助力Gemini模型自我优化,堪称AI领域的“左脚踩右脚”式突破。 AIbase深入剖析这一技术里程碑,揭示其核心原理与广泛影响。
新晋顶流Agent颠覆设计师!Lovart一手实测来了:是该刷屏爆火
又一个Agent火爆全网——一句话搞定专业视觉设计,就连专业设计师大V都在疯狂安利! 画风be like:咱就是说,一整个被fashion住了。 创作出它们的设计从业者@Ege表示,自己用这个AI设计助手轻松搞定了一整套时装品牌视觉设计方案,而原本他自己一个人需要“花好几天时间”。
瑞士电信巨头 Swisscom 加盟国家人工智能研究所,推动生成式 AI 发展
瑞士电信公司 Swisscom 近日宣布,加入了瑞士国家人工智能研究所(SNAI),这一研究所由苏黎世联邦理工学院(ETH Zurich)和洛桑联邦理工学院(EPFL)于2024年共同成立。 Swisscom 此举旨在加强其在瑞士人工智能(AI)领域的承诺,推动创新、可靠和可信的 AI 产品与服务的发展,以支持瑞士经济并增强国家在 AI 领域的自主权。 随着 AI 模型的快速发展,科学、社会和商业都将经历深远的变革。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
AI设计
大型语言模型
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Transformer
Copilot
架构
MCP
编程
视觉