AI
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。 实验过程中,强化学习的数据均由被训练的模型自身生成。
机器人也会挤牙膏?ManipTrans:高效迁移人类双手操作技能至灵巧手
研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨专业研究者组成,致力于具身智能领域的前沿研究。 团队成员在开发高效、智能的通用机器人技术,特别是机械灵巧手操作方面,拥有丰富的研究经验。 一作为北京通用人工智能研究院研究员李恺林,其它作者为清华大学博士生李浦豪、北京通用人工智能研究院研究员刘腾宇、北京大学博士生李宇飏;通讯作者为北京通用人工智能研究院研究员黄思远。
北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断
近年来,智能三维形状生成(3D AIGC)技术迅速崛起,正成为推动数字内容创作革新的关键力量,特别是在游戏、影视、虚拟现实和工业设计等领域表现出巨大的应用潜力。 随着技术的不断进步,三维内容的生成质量与效率持续提升,成为业界与学界广泛关注的焦点。 最近,北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局! 复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。
突发!OpenAI免费开放Deep research,超强AI Agent
今天凌晨4点30,OpenAI推出轻量级版本的Deep research功能提高当前的速率限制,以扩大Plus、Team和Pro用户的使用范围。 值得一提的是,从今天开始免费ChatGPT用户可以使用Deep research,并且支持最新的o4-mini模型。 下面「AIGC开放社区」就用免费版为大家展示一下Deep research的免费功能。
微软重磅官宣:「AI智能体」同事连夜上线!预言25年人类同事成稀有物种
就在刚刚,微软宣布:AI同事真来了! CEO纳德拉亲自种草,激动表示:今天,对Microsoft 365 Copilot来说是个大日子。 Copilot的界面,已经完全AI化。
Adobe 挑战 OpenAI,安卓 / iOS 版 AI 生图工具 Firefly 蓄势待发
CNBC 昨日(4 月 24 日)发布博文,报道称 Adobe 公司为更有力挑战 OpenAI,计划推出移动版 AI 图像生成工具 Firefly。
智能体的五大商业用例
AI的下一代已经到来,它具有自主性。 智能体与聊天机器人由相同的AI系统提供支持,但可以独立行动、协作以实现更大的目标,并接管整个业务流程,这项技术相对较新,但所有主要参与者都已经加入。 去年10月,微软宣布包括标准银行、路透社、Virgin Money和苏黎世保险在内的10万家组织正在使用Copilot .
199元!小米新款智能音箱发布:AI大模型加持,智能对话再升级
继今年2月小米智能音箱Pro惊艳亮相后,小米再次为我们带来了惊喜——新一代标准款小米智能音箱正式登场!这款备受期待的新品现已登陆各大电商平台,售价仅为199元,再次点燃了智能家居市场的热情。 外观设计:经典延续,细节微调新款小米智能音箱在外观上延续了Pro版本的简约设计风格,顶部标志性的灯条得以保留,营造出科技感十足的氛围。 不过,为了区分定位,标准款采用了更显清爽的浅灰色外壳,并且尺寸略小于Pro版本,更显小巧精致。
英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落
NVIDIA最新发布Describe Anything 3B(DAM-3B)模型,专门针对图像和视频中特定区域的详细描述难题设计。这款多模态大语言模型能通过点、边界框、涂鸦或掩码等方式锁定目标区域,生成贴合上下文的描述文本。
“AI 教父”等发布联名公开信: OpenAI 重组背离初衷,呼吁监管介入
前 OpenAI 员工、研究人员及非营利组织联名发表公开信,强烈呼吁监管机构阻止 OpenAI 提出的公司重组计划。
Anthropic 示警:Claude 等 AI 被滥用,引导舆论威胁公众认知
Anthropic 昨日(4 月 23 日)发布博文,报告称 Claude 等前沿 AI 模型正被恶意行为者滥用,涉及“舆论引导服务”(influence-as-a-service)操作、凭证填充、招聘诈骗及恶意软件开发等活动。
SLAM3R:北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云
北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统 SLAM3R,首次实现从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。 SLAM3R 使用消费级显卡(如 4090D)即可达到 20 FPS 的性能,重建点云的准确度和完整度达到当前最先进水平,同时兼顾了运行效率和重建质量。 该研究成果被 CVPR 2025 接收为 Highlight 论文,并在第四届中国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(共同一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,第一作者为北京大学本科生刘宇政。
扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"完整重建交互式3D场景|CVPR'25
你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。 更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。
告别“AI失忆症”!新型SD-LoRA算法实现终身学习|ICLR 2025
彻底摆脱传统方法对旧数据存储的依赖! 哈佛团队联手香港城大、西安交大最新发布的SD-LoRA技术,通过固定已学习任务的方向参数,仅调整幅度权重,完全避免了历史数据的存储需求。 能够在减少50%以上参数存储的同时保持最高准确率,并且在不增加推理开销的前提下显著缓解了灾难性遗忘问题。
挤爆字节服务器的Agent到底啥水平?一手实测来了
“字节版Manus”有多能打? 量子位实测在此。 △扣子智能体生成的活动介绍网页我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。
大模型数据味蕾论
AI大模型就像一位厨师,预训练数据就是这位厨师的味蕾。 没有经过训练的味蕾,再好的食材也无法变成美味佳肴。 没有优质的预训练数据,再强大的计算资源也打造不出卓越大模型。
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉