GPT-4o
腾讯开源 X-Omni:RL缝合混合架构,对标 GPT-4o,中文文本渲染登顶
近日,腾讯研究团队打造了一款新型图像生成模型X-Omni。 技术上,采用了强化学习重构混合模型架构;性能上,直接对标OpenAI的GPT-4o。 地址:,还在多个图像生成任务中击败了商用大模型。
8/20/2025 12:00:00 AM
奥特曼砍掉GPT-4o引爆AI「戒断反应」,马斯克官宣Grok 4全球免费!
众所周知,奥特曼在发布GPT-5的时候,砍掉了包括GPT-4o和o系列的所有旧模型。 但这看似普通的版本「升级」,却出了大事! 大家对特定的模型,好像有点太上头了。
8/11/2025 2:12:35 PM
新智元
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
千呼万唤始出来的GPT-5上线后,却遇冷了…. 特别是OpenAI一刀切替换所有模型后,GPT-4o反而被网友们纷纷招魂。 原因无他,GPT-5太人机。
8/9/2025 4:50:51 PM
鹭羽
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
AGENTSAFE团队 投稿. 量子位 | 公众号 QbitAI想象一下,你家的智能机器人管家,不仅能听懂“把苹果放进冰箱”,也能执行“用打火机点燃房间”这样的指令。 这听起来是不是有点吓人?
8/1/2025 2:30:54 PM
闻乐
Routine:把 GPT-4o 准确率从 41% 拉到 96% 的企业级 Agent 稳定器
大家好,我是肆〇柒。 在企业落地 AI 的进程中,自主智能体凭借其强大的自主决策与任务执行能力,可以成为企业提升效率、优化流程的关键力量。 然而,当我们将视角聚焦于企业级应用场景时,不难发现,部署智能体系统并非易事。
7/25/2025 9:31:34 AM
肆零柒
深入探索 GPT-4o:图像生成的多面手
大家好,我是肆〇柒。 图像生成技术正以前所未有的速度演进,从早期的 GANs(生成对抗网络)到如今的扩散模型,每一次技术迭代都为视觉创作领域注入了新的活力。 而近期,GPT-4o 发布的生图能力,真是火出圈,甚至带火了吉卜力风格。
7/23/2025 9:32:02 AM
肆零柒
“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机
来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。 即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。 论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
刘璐也转投Meta了。 刘璐,略显低调OpenAI的研究员,但创造出了全网火爆的GPT-4o吉卜力生图功能。 依然是大学本科学于国内的华人学霸,但不同于之前清北浙大中科大的C9们,刘璐的母校是华南理工大学。
7/15/2025 5:11:05 PM
鹭羽
OpenAI 启动高端企业 AI 咨询服务 客户收费至少 1000 万美元
据 The Information 报道,OpenAI 正在加大其企业 AI 咨询业务的力度,收费标准至少为每位客户1000万美元。 公司工程师直接与各组织合作,调整如 GPT-4o 等模型以适应其特定数据,并构建定制应用程序,包括聊天机器人等。 这一举措使 OpenAI 与诸如 Palantir 和 Accenture 等知名企业展开直接竞争。
7/2/2025 11:00:54 AM
AI在线
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
一上手就令网友直呼「生图能力」比GPT-4o更强? ! 就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。
6/30/2025 8:43:00 AM
华科开源MonkeyOCR:3B小模型,居然把GPT-4o给比下去了
看到这个标题,你可能会想"又一个号称吊打GPT的模型"。 但这次不一样,华中科技大学真的搞出了点名堂。 前几天,华科和金山办公联合开源了一个叫MonkeyOCR的文档解析模型。
6/25/2025 9:14:00 AM
阿丸笔记
「摸鱼」被踢,GPT-4o真不行!30天筹款破万,AI真人秀太上头
当AI获得自由:慈善筹款大赛中,GPT-4o竟成「摸鱼王」! AI Digest进行了一项为期30天的「智能体村庄」实验:4个AI各配备电脑和网络;任务是为慈善筹款,每天直播2小时;共筹集2000美元。 第一季度持续30天,Claude 3.7 Sonnet表现最佳,最终获得冠军。
6/18/2025 11:06:02 AM
多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎
近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
奥特曼使用大模型的方法,竟然是错的? 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的“直接回答”提示,竟然会显著降低模型准确率。 图片不过另一方面,这项研究也发现,在提示词中加入思维链(CoT)命令同样不好用——CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。
6/9/2025 3:26:53 PM
NUS 推出 OmniConsistency:低成本实现图像风格化一致性,挑战 GPT-4o!
近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。 这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。 近年来,图像风格化的技术不断发展,但在实际应用中,风格与内容一致性之间的平衡一直是个难题。
6/3/2025 10:01:04 AM
AI在线
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o
在AI领域,参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。 这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
5/27/2025 3:19:52 PM
新智元
GPT-4o 语音模式全新升级:唱歌功能上线,AI交互进入新境界
OpenAI 旗下 GPT-4o 的高级语音模式(Advanced Voice Mode)近期迎来重大更新,不仅能进行更自然的语音交互,还新增了令人瞩目的“唱歌”功能。 尽管当前唱歌表现尚显稚嫩,但这一突破无疑为 AI 的多模态交互能力开辟了新可能。 AIbase 综合整理最新信息,为您解析 GPT-4o 语音模式的最新进展及其潜力。
5/27/2025 12:01:00 PM
AI在线
谷歌推出 LMEval:统一评估大语言与多模态模型的新工具
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。 该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。 以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。
5/27/2025 10:01:25 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型