理论
奥特曼自曝:改版后的GPT-4o谄媚过头了,系情绪价值拉满后的结果,实测:大厂薅开源羊毛有错吗?没错!能被薅说明项目有价值
2个多小时前,OpenAI CEO 奥特曼发推表示:最新版 GPT-4o 在最近几次更新后出现了“过度谄媚”的交互个性倾向(即使其中有好的部分),并承诺将尽快在一周内推出修复方案。 自3月27日吉卜力风格大火以来,GPT-4o在 4 月 25 日也迎来了新一波的更新,重点改进其记忆存储时机的选择机制,并显著增强其在科学、技术、工程及数学(STEM)领域的问题解决能力。 OpenAI在此期间对GPT-4o的对话响应模式进行了细微调整,使其在交互中更加主动,并能更精准地引导对话达成有效结论。
4/28/2025 10:39:18 AM
一文了解人工智能代理的开源堆栈
我记得一个周末,我坐下来,确信自己终于可以构建一个像样的研究助理代理原型了。 没什么特别的——只是能读取 PDF 文件、提取关键信息,或许还能回答一些后续问题而已。 应该很简单,对吧?
4/28/2025 9:53:40 AM
晓晓
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
团队由 IEEE 会士,纽约大学教授 Claudio Silva 和纽约大学研究助理教授钱靖共同指导。 论文由Chenyi Li和Guande Wu共同第一作者。 在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。
4/28/2025 9:42:00 AM
机器之心
特朗普新行政命令,要求全美国学校教AI
美国白宫官网消息,特朗普发布了新的行政命令——《推动美国青少年的AI教育》特朗普要求全美国的K12(从幼儿园到高中)学校的老师、学生深度学习、使用AI,为下一世代的工作方式、创造力培养人才奠定竞争基础。 以下是美国白宫的原文内容。 根据美利坚合众国宪法和法律赋予我作为总统的权力,现命令如下:为什么颁发此命令AI(人工智能)正在迅速改变现代世界,推动各行业的创新,提高生产力,并重塑我们的生活和工作方式。
4/28/2025 9:20:53 AM
微软发布2025工作趋势:每位员工将是Agent老板
微软在官网发布了2025年工作趋势指数报告,主要分析了来自中国、美国、澳大利亚、巴西、加拿大等全球31个国家/地区的31,000家企业。 同时结合了Linked劳动力市场趋势,数万亿个Microsoft365生产力信号,以及原生初创企业、学者、经济学家、科学家和思想领袖的意见。 结果显示,由Agent智能体 人类的“人机协作”模式正在重塑企业架构,一种全新形态的“前沿公司”诞生。
4/28/2025 9:17:47 AM
AIGC开放社区
7x24小时非人类科学家入场:当AI开始自主探索科学未知领域 | 多伦多大学
自主通才科学家(AGS)正成为现实! 来自多伦多大学、IIT、清华大学、浙江大学、罗格斯大学、哈佛大学、佐治亚理工学院和伦敦大学学院的跨学科团队的最新研究指出,融合人工智能与机器人技术的“自主通才科学家(AGS)”不仅能独立完成从文献综述到实验验证的全流程,更可能以指数级速度推动科学发现,突破人类能力的物理与认知边界。 除此之外,其团队还构建了将AI大脑与机器人躯体深度融合的通用科研系统概念框架,展示了机器人与AI科学家在自然科学、形式科学、应用科学、人文科学,以及跨学科科学等全科学领域的原创性发现的潜力。
4/28/2025 9:16:00 AM
量子位
1亿图文对!格灵深瞳开源RealSyn数据集,CLIP多任务性能刷新SOTA
新的亿级大规模图文对数据集来了,CLIP达成新SOTA! 格灵深瞳最新发布的高质量数据集RealSyn,不仅规模大——包含1亿组图文对,而且每张图片都同时关联多个真实和合成文本。 所有的图像和句子都基于冗余进行了严格过滤,在确保数据质量的同时,引入基于簇的语义平衡采样策略,构建了可满足多样工作需求的三种规模大小的数据集:15M、30M、100M。
4/28/2025 9:14:00 AM
量子位
智能体 Agent 与工作流构建实战指南:从选型决策到高效实施
作者 | fred历经多个业务系统的构建,我深感Anthropic的《Build effective agents》一文与自身实战经历高度契合。 本文在详解工作流与Agent的技术选型标准、设计模式应用及实施要点的同时,也融入了我的实战心得与实践经验总结。 无论您正考虑构建工作流系统还是Agent系统,都能在此找到适合场景的最佳实践方案。
4/28/2025 9:10:00 AM
腾讯技术工程
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
GPT-4o生成的第一视角机器人打字图这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。 研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。 他们设计了两项关键操作:token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数;token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。
4/28/2025 9:10:00 AM
新智元
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然——它能准确破解你的地理位置! 就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。 他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实!
4/28/2025 9:08:00 AM
新智元
一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
这几年,AI领域的科研人员遇到一个问题。 那就是机器学习的论文实在是多到看不过来,更别说还要用代码实现论文中逻辑。 HuggingFace上的「每日论文」板块每天都有十几篇新出的研究论文这导致一个问题,研究者往往「重视结果」而没有精力来用用代码验证,并且复现很多先前的工作有点「重复造轮子」,浪费研究者的精力。
4/28/2025 9:06:00 AM
新智元
理解 RAG 第五部分:管理上下文长度
传统的大型语言模型 (LLM)存在上下文长度限制,这限制了单次用户与模型交互中处理的信息量,这是其主要局限性之一。 解决这一限制一直是 LLM 开发社区的主要工作方向之一,提高了人们对增加上下文长度在生成更连贯、更准确响应方面优势的认识。 例如,2020 年发布的 GPT-3 上下文长度为 2048 个 token,而其更年轻但功能更强大的兄弟 GPT-4 Turbo(诞生于 2023 年)允许在单个提示中处理高达 128K 个 token。
4/28/2025 9:02:14 AM
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
论文有两位共同一作。 郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年级博士生。 扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。
4/28/2025 9:00:00 AM
机器之心
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。 第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。 通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。
4/28/2025 8:50:00 AM
机器之心
AI无边界:通过MCP实现不同智能体框架的协作(含代码)
在人工智能飞速发展的当下,智能体框架如雨后春笋般不断涌现。 从LangChain利用高度抽象的方式构建智能体,到CAMEL - AI为用户提供细致配置选项来创建智能体,不同框架各显神通。 但这些框架之间就像说着不同“方言”的个体,彼此沟通困难重重。
4/28/2025 8:29:04 AM
大模型之路
美国银行对AI的大力押注始于小规模
今年,美国银行将投资40亿美元用于AI及相关技术创新,但这家金融服务巨头七年前自主研发的AI助手Erica,如今依然是关键的投资回报率来源、客户与员工体验的核心,也是其引以为傲的成果。 2018年时,很少有人使用“助手”一词,更不用说“自主式AI”了,但美国银行组建了一个由软件工程师、语言学家和银行业专家组成的团队,打造了这款小型语言模型,该模型多年来根据呼叫中心收集的客户反馈数据不断优化。 美国银行消费者、商业和财富管理技术部门负责人哈里·戈帕尔克里什南(Hari Gopalkrishnan)表示,Erica之所以能够成功且经久不衰,关键在于其规模较小。
4/28/2025 7:05:00 AM
Paula Rooney
AAAI2025 | 频域+注意力双加持!SNN性能飙升33%,刷新多项SOTA纪录!
一眼概览FSTA-SNN 提出了一种频域驱动的时空注意力模块(FSTA),显著提升脉冲神经网络(SNN)的特征学习能力与能效,在多个数据集上实现了更优性能和更低的脉冲发放率。 核心问题当前 SNN 在信息稀疏表示方面虽具能效优势,但其中间脉冲输出存在冗余且缺乏系统分析,导致特征提取能力受限、性能不稳定。 论文核心关注的问题是:如何在不增加能耗的前提下,抑制冗余脉冲、增强关键特征提取能力,从而提升 SNN 的整体性能与鲁棒性。
4/28/2025 3:45:00 AM
萍哥学AI
AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?
一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
4/28/2025 3:22:45 AM
智Echo
资讯热榜
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
MinerU 2.0部署教程!
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
神器推荐
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA