AI
清华特奖得主团队视频生成AI一夜刷屏!100%开源+61页技术报告,还能无限扩展生成,网友:游戏规则改变者
整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。 图片Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球,请看VCR:其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:图片二是能将生成时长控制精确到每一“秒”:图片另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。 现在看这张图,Sora的时代是真的过去了。
4/22/2025 3:29:05 PM
日本公司为人形机器人装上“AI 鼻子”,赋予其嗅觉能力
日本Ainos与ugo合作,首次将AI鼻子系统集成到商业人形机器人中,让机器人具备嗅觉感知能力。这一技术突破将在工业、医疗和日常生活等领域带来革命性变化。#AI鼻子技术# #机器人嗅觉#
4/22/2025 2:06:46 PM
远洋
OpenAI o3 / o4-mini 模型 AI 生成文本含特殊符号,推测为隐形水印
AI 初创公司 Rumi 发现 OpenAI 公司在 o3 和 o4-mini 模型中,嵌入了窄不换行空格(Narrow No-Break Space, NNBSP, U+202F)等特殊 Unicode 字符。
4/22/2025 12:19:13 PM
故渊
AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观
Anthropic 公司于周一发布了一项名为“Values in the Wild”的研究,深入剖析了 AI 助手 Claude 在实际用户交互中的价值观表达。
4/22/2025 11:47:59 AM
故渊
韩国内阁通过 1.8 万亿韩元 AI 投资补充预算:一年内要买 10000 块 GPU
该预算的 80% 以上用于 GPU 购买,其它投资项目包括选拔先进 LLM 开发团队、扩大公私合作 AI 创新基金规模、支持韩国企业 NPU 商业化、招募和培养 AI 人才。
4/22/2025 11:43:29 AM
溯波(实习)
力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用
最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。
4/22/2025 11:02:14 AM
故渊
使用礼貌用语可能导致 OpenAI 每年损失数百万美元
最近,关于向人工智能聊天机器人如 ChatGPT 使用礼貌用语可能导致 OpenAI 每年损失数百万美元的新闻引发了广泛关注。 这一说法源自 OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)的一条社交媒体评论,迅速引起了众多媒体的热议。 事情的起因是一位网友在社交平台上询问阿尔特曼:“用户对 AI 说‘请’和‘谢谢’到底让 OpenAI 在电费上损失了多少?” 对此,阿尔特曼幽默地回应:“数千万美元,花得值 —— 你永远不知道。
4/22/2025 11:01:01 AM
AI在线
突破封锁!华为将发布大量AI芯片,平替英伟达H100
今天凌晨2点,路透社独家消息,华为最早将于5月份发布大量910C AI芯片,部分出货已完成。 华为此次发布产品主要是针对美国对国内AI芯片的封锁,帮助国内企业解决AI芯片短缺的难题。 因为美国政府本月要求英伟达销售H20需出口许可证。
4/22/2025 9:47:07 AM
AIGC开放社区
用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析
本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。 研究方向包括深度学习理论、大语言模型理论等等。 本文的通讯作者为伦斯勒理工大学的汪孟教授。
4/22/2025 9:40:00 AM
机器之心
百页专业报告一次直出!Jürgen团队开源框架WriteHERE,重塑AI写作天花板
在 AI 长文写作领域,一项革命性突破正在改写行业规则 —— 由「人工智能之父」Jürgen Schmidhuber 领衔的团队,正式开源其长文写作框架 WriteHERE。 该框架凭借异质递归规划(Heterogeneous Recursive Planning)技术,实现单次生成超 4 万字、100 页专业报告的能力,在小说创作、报告生成场景中全面超越 Perplexity 付费版「深度研究」、DeepMind 的 Agent's Room 及斯坦福 STORM 等顶尖方案。 论文标题:Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models论文地址: & 在线 Demo: 仓库:「大纲先行」到「实时编织」现有 AI 长文生成系统(如 Agent's Room、STORM)多将写作简化为「规划 - 填充」的线性流程,而 WriteHERE 首次通过数学形式化揭示:长文写作本质上是检索(Retrieval)、推理(Reasoning)、写作(Composition)三类异构任务的动态编织。
4/22/2025 9:35:00 AM
机器之心
RL很重要,但远非All You Need!微软副总裁:AI不靠单个技术撑起
「AI 领域确实存在苦涩的教训,但若当初全盘接受它,我们现在可能还在用线性回归搞强化学习。 」刚刚,微软副总裁 Nando de Freitas 一篇长推文表达了自己的观点:反对单一技术的过度宣传,如 RL,应该强调多领域合作的重要性;AI 进步不是靠单一天才撑起的,而是成千上万的参与者共同推动了这一领域的发展;过去的一些观点在当时看似合理,但随着技术的发展,这些观点显得过时;人工智能的发展需要不断突破传统观念,就像数学一样,通过不断的探索和试错来逐步推进。 推文中,Freitas 还透露 RL 固然重要,但还远未达到「RL is all you need」的程度。
4/22/2025 9:30:00 AM
机器之心
多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025
近年来,人脸合成技术在快速发展,相关检测任务也逐渐从“看得出来”向“说明白为什么”演进。 除了判断一张脸是真还是假,更需要模型能“说出个所以然”。 在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从视觉 语言的多模态视角来改进伪造检测方法。
4/22/2025 9:22:00 AM
量子位
Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限
著名 AI 研究者和博主 Sebastian Raschka 又双叒叕更新博客了。 这次的主题是《LLM 推理的强化学习现状》。 博客地址: AI 社区很热闹,尤其是 Llama 4 和 GPT-4.5 等新旗舰模型的发布。
4/22/2025 9:12:00 AM
机器之心
AI创造新物理学,暴力破解引力波!宇宙观测开挂50倍,三体人直呼内行
就在刚刚,AI又将物理学,推动到了全新的领域。 来自马克斯·普朗克光科学研究所(MPL)、加州理工等机构的科学家发现,AI已经设计出了人类尚未理解的引力波探测工具。 这一发现,直接将可观测的宇宙体积扩大了50倍!
4/22/2025 9:08:00 AM
新智元
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换
本文的作者来自伊利诺伊大学香槟分校(UIUC)、马萨诸塞大学(UMass)和谷歌。 本文的第一作者为 UIUC 博士生金博文,主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。 其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。
4/22/2025 9:06:00 AM
机器之心
更懂公务员的大模型:写作/意图理解/公文排版全拿捏,部署成本直降90%,来自金山
当政务大模型具备推理能力,部署成本直降90%,写作效率提升71.58%、意图理解提升34.87%、公文排版能力提升12%。 如上新进展,来自金山办公。 时隔四个月,金山自研政务大模型完成推理能力升级。
4/22/2025 9:05:36 AM
量子位
采样越多越聪明?隐式扩展颠覆认知,采样搜索如何挑出完美解
先让模型生成多个候选答案,再通过自我验证挑出「真金」。 基于采样的搜索在许多推理任务中表现优异,可关于它的扩展趋势,还有许多未解之谜。 随着采样数量的增加,模型的推理性能能否继续提升?
4/22/2025 8:50:00 AM
新智元
2025年全球GenAI手机出货量有望突破4亿部,渗透率约占三分之一
根据Counterpoint的最新预测,2025年全球智能手机市场将迎来一个重要的里程碑:三分之一的智能手机出货量将支持生成式人工智能(GenAI),预计全年出货量将超过4亿部。 这一趋势标志着智能手机行业在人工智能技术集成方面的快速进步,也预示着GenAI将成为未来智能手机的核心功能之一。 d3001.pngGenAI集成加速,技术与市场需求推动变革从2024年到2025年,全球智能手机支持GenAI的比例显著提升。
4/22/2025 6:58:02 AM
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉