AI在线 AI在线

GPT-4o

GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车

AGENTSAFE团队 投稿. 量子位 | 公众号 QbitAI想象一下,你家的智能机器人管家,不仅能听懂“把苹果放进冰箱”,也能执行“用打火机点燃房间”这样的指令。 这听起来是不是有点吓人?
8/1/2025 2:30:54 PM
闻乐

Routine:把 GPT-4o 准确率从 41% 拉到 96% 的企业级 Agent 稳定器

大家好,我是肆〇柒。 在企业落地 AI 的进程中,自主智能体凭借其强大的自主决策与任务执行能力,可以成为企业提升效率、优化流程的关键力量。 然而,当我们将视角聚焦于企业级应用场景时,不难发现,部署智能体系统并非易事。
7/25/2025 9:31:34 AM
肆零柒

深入探索 GPT-4o:图像生成的多面手

大家好,我是肆〇柒。 图像生成技术正以前所未有的速度演进,从早期的 GANs(生成对抗网络)到如今的扩散模型,每一次技术迭代都为视觉创作领域注入了新的活力。 而近期,GPT-4o 发布的生图能力,真是火出圈,甚至带火了吉卜力风格。
7/23/2025 9:32:02 AM
肆零柒

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘

刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款

刘璐也转投Meta了。 刘璐,略显低调OpenAI的研究员,但创造出了全网火爆的GPT-4o吉卜力生图功能。 依然是大学本科学于国内的华人学霸,但不同于之前清北浙大中科大的C9们,刘璐的母校是华南理工大学。
7/15/2025 5:11:05 PM
鹭羽

​OpenAI 启动高端企业 AI 咨询服务 客户收费至少 1000 万美元

据 The Information 报道,OpenAI 正在加大其企业 AI 咨询业务的力度,收费标准至少为每位客户1000万美元。 公司工程师直接与各组织合作,调整如 GPT-4o 等模型以适应其特定数据,并构建定制应用程序,包括聊天机器人等。 这一举措使 OpenAI 与诸如 Palantir 和 Accenture 等知名企业展开直接竞争。
7/2/2025 11:00:54 AM
AI在线

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

一上手就令网友直呼「生图能力」比GPT-4o更强? ! 就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。
6/30/2025 8:43:00 AM

华科开源MonkeyOCR:3B小模型,居然把GPT-4o给比下去了

看到这个标题,你可能会想"又一个号称吊打GPT的模型"。 但这次不一样,华中科技大学真的搞出了点名堂。 前几天,华科和金山办公联合开源了一个叫MonkeyOCR的文档解析模型。
6/25/2025 9:14:00 AM
阿丸笔记

「摸鱼」被踢,GPT-4o真不行!30天筹款破万,AI真人秀太上头

当AI获得自由:慈善筹款大赛中,GPT-4o竟成「摸鱼王」! AI Digest进行了一项为期30天的「智能体村庄」实验:4个AI各配备电脑和网络;任务是为慈善筹款,每天直播2小时;共筹集2000美元。 第一季度持续30天,Claude 3.7 Sonnet表现最佳,最终获得冠军。
6/18/2025 11:06:02 AM

多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎

近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线

奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降

奥特曼使用大模型的方法,竟然是错的? 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的“直接回答”提示,竟然会显著降低模型准确率。 图片不过另一方面,这项研究也发现,在提示词中加入思维链(CoT)命令同样不好用——CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。
6/9/2025 3:26:53 PM

NUS 推出 OmniConsistency:低成本实现图像风格化一致性,挑战 GPT-4o!

近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。 这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。 近年来,图像风格化的技术不断发展,但在实际应用中,风格与内容一致性之间的平衡一直是个难题。
6/3/2025 10:01:04 AM
AI在线

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

在AI领域,参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。 这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
5/27/2025 3:19:52 PM
新智元

GPT-4o 语音模式全新升级:唱歌功能上线,AI交互进入新境界

OpenAI 旗下 GPT-4o 的高级语音模式(Advanced Voice Mode)近期迎来重大更新,不仅能进行更自然的语音交互,还新增了令人瞩目的“唱歌”功能。 尽管当前唱歌表现尚显稚嫩,但这一突破无疑为 AI 的多模态交互能力开辟了新可能。 AIbase 综合整理最新信息,为您解析 GPT-4o 语音模式的最新进展及其潜力。
5/27/2025 12:01:00 PM
AI在线

​谷歌推出 LMEval:统一评估大语言与多模态模型的新工具

近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。 该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。 以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。
5/27/2025 10:01:25 AM
AI在线

Claude 4王者降临!连码7小时碾压GPT-4o,开发者直呼:AI编程新神!

一、Claude 4重磅登场2025年5月23日凌晨,Anthropic扔出核弹级新品——Claude 4! 由CEO Dario Amodei亲自站台,携Claude Opus 4(旗舰款)和Claude Sonnet 4(性价比款)强势亮相,重新定义AI编程与推理标准。 核心亮点:编程神器:Claude Opus 4号称全球最强编程模型,在SWE-bench测试中以72.5%得分碾压OpenAI Codex-1(68.2%),连续编码7小时稳定如初!
5/26/2025 2:15:00 AM
Hank

AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一

判断AI是否智能,评价维度如今已不仅限于刷榜成绩。 当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。 所以,AI的“EQ”又该如何评价?
5/22/2025 1:42:28 PM

Poe 发布 AI 模型报告:GPT-4o 独占鳌头,Gemini 推理异军突起,快手可灵黑马搅局!

AI 模型市场,就像一场不停撤掉椅子的游戏,玩家们争抢着位置。 谁坐得稳,谁被挤下,数据在说话。 Poe 平台拿出了一份报告,打开一个窗口,让我们看看 2025 年 1 月到 5 月,这个市场的风云变幻。
5/14/2025 3:06:28 PM