AI在线 AI在线

理论

OpenAI 发布新工具,推动 AI 智能体从“回答问题”跨越到“执行任务”

IT之家 3 月 12 日消息,OpenAI 公司昨日(3 月 11 日)发布博文,面向开发者推出了一系列新的工具,帮助其创建 AI 智能体过程中,简化开发流程和增强智能体技能和功能。 此次发布标志着 OpenAI 的 API 平台向更实用、更贴近现实世界的应用迈出了重要一步。 IT之家简要介绍下本次发布的新开发者工具:Responses API:该 API 结合了聊天功能与集成工具(如网页搜索和文件搜索),基于 ChatGPT 搜索模型,提供实时信息并附带引用来源,为开发者提供了更灵活的开发基础。
3/12/2025 7:52:59 AM
故渊

浅谈 AI 对数据库生态带来哪些影响

近期,AI(主要是大模型)大火,很多人也都非常关注。 自己在尝试使用同时,也在思考AI会对数据库有哪些影响? 这些影响可能会是全方面的,包括对人、公司、行业等等。
3/12/2025 7:35:59 AM
韩锋

为什么说JSON不一定是LLM结构化输出的最佳选择?

当要求大语言模型(LLM)输出结构化数据时,所采用的格式会对结果产生比较大的影响。 本文对比了六种不同的格式,评估考察了它们的处理速度、tokens 消耗以及各自的限制。 1.简要说明JSON 虽然是多数人的首选,但它对 tokens 的消耗极大。
3/12/2025 6:55:00 AM
BaiHai IDP

Finer-CAM:让AI像‘找不同’一样精准捕捉细粒度特征!

一眼概览Finer-CAM 是一种改进的类激活映射(CAM)方法,能够精准定位区分视觉上相似类别的细粒度特征,在不增加计算复杂度的情况下,大幅提升可解释性。 核心问题传统的 CAM 方法在细粒度分类任务中往往会高亮整个目标区域,而无法有效区分相似类别之间的细微差异。 这导致模型的可解释性受限,难以识别用于决策的真正判别特征。
3/12/2025 3:00:00 AM
萍哥学AI

大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元

从鹦鹉学舌到灵魂对话,AI的人话革命

2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位

人工智能重塑美国就业市场,AI技术正成为职场必备技能

据华尔街日报报道,人工智能(AI)正在深刻改变美国的就业格局,其渗透程度远超预期。 最新数据显示,2025年至今,美国近四分之一的技术岗位招聘明确要求应聘者具备AI技能,这一比例在过去几年中呈爆发式增长。 科技行业引领AI岗位增长在信息科技领域,人工智能的影响力尤为突出。
3/11/2025 1:14:15 PM
小菲

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心

美股一夜蒸发1.75万亿!特斯拉、英伟达七巨头集体跳水,马斯克DOGE再干一年

昨夜,美国上演了真正的黑色星期一。 截止10日收盘,美股三大指数集体暴跌,道指跌2.08%,纳指跌4%,标普500跌近2.8%。 纳指暴跌创2022年以来最大跌幅,而标普500已经抹去了自去年11月美国大选以来所有涨幅。
3/11/2025 1:04:21 PM
新智元

L²M条件,MIT团队为长文本建模建立新理论框架

编辑 | ScienceAI在追求更强大 AI 系统的道路上,大语言模型处理长上下文的能力始终是制约其发展的关键瓶颈。 尽管 DeepSeek、GPT-4、LLaMA-3 等顶尖模型已能处理数万 token 的文本,但学界对「模型究竟需要何种能力才能有效理解长文本」这一根本问题仍缺乏理论指导。 近日,麻省理工学院 Zhuo Chen、Oriol Mayn ́e i Comas 、Zhuotao Jin 、Di Luo 、Marin Soljači 领衔的研究团队提出自然语言中隐藏的互信息缩放定律(Mutual Information Scaling Law),并由此提出长上下文语言建模的 L²M 条件(Long-context Language Modeling condition),为理解大语言模型的长文本处理能力建立了首个系统化理论框架。
3/11/2025 12:17:00 PM
ScienceAI

基于药效团与GPT从头生成分子,北大开发TransPharmer助力药物发现

编辑 | 萝卜皮深度生成模型推动了药物发现,但生成的化合物通常结构新颖性有限,限制了药物化学家的灵感。 为了解决这个问题,北京大学的研究人员开发了 TransPharmer,这是一种生成模型,它将基于配体的可解释药效团指纹与基于生成预训练 Transformer(GPT)的框架相结合,用于从头生成分子。 TransPharmer 在无条件分布学习、从头生成和药效团约束下的骨架构建方面表现出色。
3/11/2025 12:16:00 PM
ScienceAI

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

刚刚,陶哲轩亲测了一下o3-mini,然后他给出了这样的结论:重建图论中一个标准(专家级)结果的证明,o3-mini是完全可以hold住的。 图片陶哲轩要重建的这个证明,叫做三角形移除引理(triangle removal lemma),由Ruzsa和Szemeredi于1978年提出,是极值图论中的重要结果:对于任意的η>0,都存在c0,使得对于任意一个足够大的有n个顶点的图,如果该图中最多包含cn3个三角形,那么可以通过移除最多ηn2条边,使这个图变为无三角形的图。 用另一种表述方式就是,如果一个有n个顶点的图包含o(n3)个三角形,那么可以通过移除o(n2)条边来删除所有的三角形。
3/11/2025 12:07:10 PM

基于Dify与DeepSeek:零门槛训练自己的专属AI大模型

在人工智能(AI)技术日益普及的今天,训练属于自己的AI大模型不再是遥不可及的梦想。 随着DeepSeek  R1的发布,其部署成本仅为ChatGPT的十分之一,这一突破让更多企业和个人能够轻松参与AI开发。 未来,垂直领域的AI大模型和应用将如雨后春笋般涌现,这无疑是一个巨大的机遇。
3/11/2025 10:51:35 AM
冰河技术