模型
满血o3降智和幻觉倍增的原因可能找到了
OpenAI推出的满血O3“跑分”(Benchmark)貌似又被独立测试揭穿是刷榜了,而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因? 你可能要问了,一个数学基准测试,与降智和幻觉有什么关系? 事情要从去年12月说起。
4/22/2025 9:18:57 AM
AI寒武纪
全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源
不是5秒,不是10秒,更不只是1分钟。 AI视频生成,正式迎来无限时长的时代! 来,话不多说,直接来看一部AI版《罗马假日》:而就是这么一部小短剧片段,它的“起点”,仅仅就是一张照片和一句Prompt:身着优雅西装的欧美男子与一位美女漫步在罗马街头,分享各自的生活趣事,眼神中满是欣赏;夕阳西下,余晖洒在两人脸上,彼此深情对视。
4/22/2025 9:17:00 AM
量子位
Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限
著名 AI 研究者和博主 Sebastian Raschka 又双叒叕更新博客了。 这次的主题是《LLM 推理的强化学习现状》。 博客地址: AI 社区很热闹,尤其是 Llama 4 和 GPT-4.5 等新旗舰模型的发布。
4/22/2025 9:12:00 AM
机器之心
AI创造新物理学,暴力破解引力波!宇宙观测开挂50倍,三体人直呼内行
就在刚刚,AI又将物理学,推动到了全新的领域。 来自马克斯·普朗克光科学研究所(MPL)、加州理工等机构的科学家发现,AI已经设计出了人类尚未理解的引力波探测工具。 这一发现,直接将可观测的宇宙体积扩大了50倍!
4/22/2025 9:08:00 AM
新智元
更懂公务员的大模型:写作/意图理解/公文排版全拿捏,部署成本直降90%,来自金山
当政务大模型具备推理能力,部署成本直降90%,写作效率提升71.58%、意图理解提升34.87%、公文排版能力提升12%。 如上新进展,来自金山办公。 时隔四个月,金山自研政务大模型完成推理能力升级。
4/22/2025 9:05:36 AM
量子位
采样越多越聪明?隐式扩展颠覆认知,采样搜索如何挑出完美解
先让模型生成多个候选答案,再通过自我验证挑出「真金」。 基于采样的搜索在许多推理任务中表现优异,可关于它的扩展趋势,还有许多未解之谜。 随着采样数量的增加,模型的推理性能能否继续提升?
4/22/2025 8:50:00 AM
新智元
被LangChain4j坑惨了!
最近在深度体验和使用 Spring AI 和 LangChain4j,从开始的满怀期待五五开,但最后极具痛苦的使用 LangChain4j,让我真正体验到了正规军和草台班子的区别。 Spring AI VS LangChain4jSpring AI:使用简单、写法优雅、但功能提供的较少、成熟度稍高;LangChain4j:作为移植大模型著名框架 LangChain 功能稍多、灵活度高、使用复杂、满是 BUG。 还有根本找不到关键内容的官方文档,该有的重要内容是一点都不介绍啊,使用和学习成本很高。
4/22/2025 3:00:00 AM
磊哥
o3被曝「无视」前成果?华人博士生实名指控,谢赛宁等大牛激烈争辩
在视觉感知方面,o3和o4-mini在思维链中进行图像推理, 代表了一个重要突破。 华盛顿大学计算机科学博士生施惟佳站出来表示,o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。 论文链接:,曾提出通过可视化辅助增强模型推理。
4/21/2025 4:32:29 PM
新智元
o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
OpenAI新模型发布后,大家体感都幻觉更多了。 甚至有人测试后发出预警:使用它辅助编程会很危险。 图片具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩,甚至还会说是用户的错。
4/21/2025 4:25:58 PM
清华张亚勤:10年后,机器人将可能比人都多
“10年后,机器人将可能比人都多,会陆续进入工厂、社会,最终形态是进入家庭。 未来每个人、每个家庭都有机器人。 ”这样的预言,来自清华大学智能产业研究院(AIR)院长张亚勤。
4/21/2025 9:30:00 AM
量子位
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
满血o3更强了,却也更爱「胡言乱语」了。 OpenAI技术报告称,o3和o4-mini「幻觉率」远高于此前的推理模型,甚至超过了传统模型GPT-4o。 根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是o1(16%)的2倍。
4/21/2025 9:27:00 AM
新智元
文科已死,计算机科学将亡?ACM警告:不想被AI团灭,关键在融合新生
GenAI日新月异,引发了大众选择职业和大学专业的焦虑。 但最近,美国的国际计算机协会(Association for Computing Machinery,ACM),发布了一篇博客文章,表示:文科和计算机科学,这两个专业最后可能合流,融合在一起才能存活。 在哲学中,「存在危机」指的是质疑自己人生目的、意义和在世界中位置的状态。
4/21/2025 9:14:00 AM
新智元
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。 Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。 Mamba Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。
4/21/2025 9:07:00 AM
新智元
这样在本地搭建DeepSeek可以直接封神:本地部署+避坑指南(升级版)
本文旨在提供一个全面且详细的DeepSeek本地部署指南,帮助大家在自己的设备上成功运行DeepSeek模型。 无论你是AI领域的初学者还是经验丰富的开发者,都能通过本文的指导,轻松完成DeepSeek的本地部署。 一、本地部署的适用场景DeepSeek本地部署适合以下场景:高性能硬件配置:如果你的电脑配置较高,特别是拥有独立显卡和足够的存储空间,那么本地部署将能充分利用这些硬件资源。
4/21/2025 8:47:18 AM
冰河
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制
推理模型的内心世界是怎么想的? 推理模型与普通LLM之间有没有本质的区别? 一直以来,AI内部的运作机理就像个「黑箱子」。
4/21/2025 8:42:00 AM
新智元
LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败
凭借着GPT/o系列、Gemini 2.5、Claude的强大能力,OpenAI、谷歌、Anthropic纷纷在AI大战中各领风骚。 唯独Meta,没有走在前沿。 Llama 4自发布以来种种拉跨的表现,让Meta在某种程度上沦为了业内的「笑柄」。
4/21/2025 8:40:00 AM
新智元
仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑
大模型轻量化终于又有好玩的了。 就在最近,微软亚研院开源了第一款参数量达到20亿,并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。 论文地址:,其实都在模型名字里了:1.
4/21/2025 8:30:00 AM
新智元
马斯克炫酷变身毒液!实测通义Wan2.1首尾帧视频模型,还能“拼接”经典梗图
在GitHub狂揽1w 星标的通义万相Wan2.1,又双叒上新了! 最新打开方式是酱婶儿的:给出开始(首帧)和结束(尾帧)两张图片,Wan2.1便能分分钟生成一段丝滑的5s、720p视频。 根据前后视角的不同,还能自动调整镜头角度,缓慢变成高空俯拍,并同时保证人物光影正确:原来这是阿里通义万相Wan2.1最新开源的首尾帧视频模型,基于Wan2.1文生视频14B大模型,为创作者们提供更高效、更灵活的视频制作方式。
4/21/2025 8:27:00 AM
量子位
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用