AI
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是“一题强化学习”(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。 但与此同时,一个现实难题也随之而来:哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。 有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力?
8/5/2025 9:05:00 AM
独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。 目前,该项目正处于核心团队招募阶段。 项目的核心人物之一代季峰,是清华大学电子工程系副教授,研究方向聚焦于视觉信息理解的基础模型与核心算法。
8/4/2025 10:33:00 PM
郑佳美
基于RAGFlow实现「乱序」协议差异对比:Diff算法+向量相似度
7 月初知识星球的会员微信群中,有几个星友问到一个条款存在内容和顺序差异的协议对比问题,以及如何进一步封装一个可视化页面进行实现的需求。 我在过去的咨询项目中做过一个类似 demo,但是不是很完善。 过去两天花了点时间做了一些工程调参的优化,初步效果比较稳定了,这篇来做个思路分享。
8/4/2025 9:42:42 AM
韦东东
突破信息茧房:新闻学引导的AI如何通过“导语、引述、结论”精准破译立场密码?
大家好,我是肆〇柒。 我看到一篇由韩国KAIST与Soongsil University联合完成的研究论文《Journalism-Guided Agentic In-Context Learning for News Stance Detection》。 文中介绍了一种名为JOA-ICL的新闻学引导智能体上下文学习框架,通过分析新闻的导语、引述、结论等结构要素来精准识别长文本的隐含立场。
8/4/2025 9:36:19 AM
肆零柒
揭秘大模型的魔法:实现带可训练权重的自注意力机制
大家好,我是写代码的中年人。 上一篇我们实现了一个“无可训练参数”的注意力机制,让每个词都能“看看别人”,计算出自己的上下文理解。 虽然实现起来不难,但它只是个“玩具级”的注意力,离真正的大模型还差了几个“亿”个参数。
8/4/2025 9:31:49 AM
写代码的中年人
万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
从最初的GPT架构问世以来,已经过去七年了。 回顾2019年GPT-2,再看2024-2025年的DeepSeek-V3和Llama 4,你会发现,这些模型的结构依然惊人地相似。 当然,位置嵌入已从绝对位置编码演变为旋转位置编码(RoPE),多头注意力(Multi-Head Attention)大多被分组查询注意力(Grouped-Query Attention)取代,更高效的SwiGLU激活函数也逐渐取代了GELU。
8/4/2025 9:20:00 AM
弹尽粮绝!陶哲轩自曝遭资金断供,美顶尖数学圣殿IPAM命悬一线
数学大神正在遭遇「学术寒冬」! 菲尔兹奖得主陶哲轩自曝,科研经费全被切断,团队已「断粮」几乎无法开展研究。 美政府制裁大棒,如今挥向了加州大学洛杉矶分校(UCLA)。
8/4/2025 9:17:00 AM
马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏
Grok的Imagine来了! 刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。 Grok iOS App升级,Imagine功能重磅升级!
8/4/2025 9:17:00 AM
阿里、南开大学发布免训练,视频大模型创新压缩方法
视频模型相比单图像输入需要对每一帧图像单独编码,这种序列化处理方式会导致token数量成倍增长,严重影响模型推理速度与扩展性。 传统的token压缩方法主要依赖于基于注意力机制的筛选,例如FastV、VisionZip、PLLaVA等方法虽然在图像领域取得了一定进展,但在视频理解中却暴露出语义覆盖不足,时序冗余无法处理等一系列问题。 为了解决这些难题,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了创新压缩方法LLaVA-Scissor。
8/4/2025 9:11:07 AM
Sam Altman亲晒GPT-5实测问答,发布进入倒计时
今天凌晨2点,OpenAI联合创始人兼首席执行官Sam Altman晒了一张问答图,左上角使用的是ChatGPT-5,也就是大家期待的GPT-5模型。 也就是说,OpenAI基本已经完成了GPT-5的基础开发,进入安全、功能测试阶段将很快发布。 但从这张GPT-5的回答来看,似乎和o1、豆包、KIMI、DeepSeek的回答差不多,没有什么特别之处。
8/4/2025 9:08:34 AM
哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
Cluely创始人Roy Lee宣称,哥伦比亚大学几乎每位学生都使用AI工具作弊。 对此网友表示,「我上大学时,从未使用过AI。 那时候我们用的是脑子!
8/4/2025 9:08:00 AM
Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?
掀桌,拔网线,彻底拉黑! 本周二,AI领域的两大巨头撕破脸。 据多位知情人士爆料,Anthropic公司已经切断了OpenAI对其所有大语言模型的API访问权限。
8/4/2025 8:58:00 AM
智能体将吞噬SaaS市场?专家意见两极分化
随着对智能体的炒作达到新高度,一种新兴理论认为,突破性的AI工具将终结长期存在的SaaS模式。 这一观点并非特别新颖,但一直不断被提及,微软CEO萨蒂亚·纳德拉(Satya Nadella)等人士就持此观点。 今年早些时候,纳德拉在BG2播客中表示,智能体将具备“多存储库增删查改”(创建、读取、更新和删除)功能,这将使底层SaaS工具变得过时。
8/4/2025 7:00:00 AM
Grant Gross
AI 不会取代程序员,而是让程序员取代其他人
今天偶然看到 Naval 在今年 1 月份发布的一条推文:AI 不会取代程序员,而是让程序员更容易取代其他所有人。 这条推文仅有这一句话,没有任何额外的解释。 评论区很多人追问:“为什么?
8/4/2025 4:25:00 AM
前端小智
AI Agent的工作原理和架构
大家好,我是人月聊 IT。 今天聊AI智能体的工作原理,既然谈AI工作原理,刚好就让AI自己来做回答。 参考提示词:如果要描述一个事物或一个系统的工作原理,我的核心思路就是要打开事物内部,看事物内部由哪些组件组成,这些组件之间是如何交互和协同的,最终对我展示了某种输出或行为特征。
8/4/2025 2:55:00 AM
何明路
30分钟重建150亿美元App?AI开发工具让程序员集体失业倒计时
想象一下这个场景:一个周末的下午,你打开电脑,输入一句话"重建一个像Duolingo那样的语言学习应用",然后去泡了杯咖啡。 等你回来,一个功能完整的App已经躺在那里,可以直接上架App Store。 这听起来像科幻小说,但它正在成为现实。
8/4/2025 1:55:00 AM
阿丸笔记
2025年最新AI应用加速世界变革
2025年,人工智能(AI)技术正以惊人的速度融入我们的日常生活,深刻影响着教育、医疗、商业和国家安全等领域。 从智能代理到生成式AI,从科学突破到可持续基础设施,AI正在推动前所未有的创新。 根据斯坦福大学2025年AI指数报告,AI的全球投资创下历史新高,技术性能显著提升,同时其社会影响也引发了广泛讨论。
8/4/2025 1:55:00 AM
了不起
天呐,Meta编程面试允许使用AI,不算作弊!
有朋友问我,最近硅谷出了什么大新闻。 我想了想,可能是Meta宣布允许求职者在编程面试中使用AI这件事。 说实话,当我看到这个消息的时候,第一反应是:这不是作弊吗?
8/4/2025 1:33:00 AM
阿丸笔记
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
Anthropic
英伟达
论文
AI新词
代码
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
腾讯
开发者
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
华为
AI设计
工具
RAG
大语言模型
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
特斯拉
应用
DeepMind