AI在线 AI在线

人工智能

“我没错!”GPT-4o嘴硬翻车,AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现:人工智能模型在处理意外事件时的推理能力存在严重缺陷。  即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型(VLM),其表现也远逊于人类,差距最高可达32%。  论文地址:《黑天鹅》的研究指出,当前主流的AI评估方式普遍存在一个根本性问题:大多数基准测试围绕“常规模式”构建,也就是说,它们聚焦于可预测、规律清晰的视觉场景。
7/17/2025 7:19:35 AM
大数据文摘

月之暗面开源 Kimi-K2:万亿参数,超强Agent,全线 SOTA

2023年成立的中国AI初创公司月之暗面,刚刚发布了其最新重量级产品Kimi-K2。 这是一款参数规模高达一万亿的开源大模型,以挑战GPT-4.1和Claude Sonnet 4为目标。 Kimi-K2没有配备专门的“推理模块”,却依然在多个关键领域打破性能壁垒,这一策略让人想起早前Deepseek的发布。
7/17/2025 7:12:45 AM
大数据文摘

一文读懂开源 AI Agent 工作流构建新范式-Sim Studio

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的开源 AI Agent 工作流引擎 - Sim Studio。 在大模型应用爆发的当下,越来越多团队开始尝试构建属于自己的 AI Agent。 然而从 LLM 接入、任务解析、插件整合到执行流程编排,整个链路不仅复杂,而且难以维护。
7/17/2025 4:00:00 AM
Luga Lee

孤注一掷!小扎本人回应天价挖人策略!顶尖人才更在乎GPU支配权!不是我针对谁,能挖的地方就五六个!可劲造泰坦集群

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)小扎“天价挖人”继续上强度! 今天刚刚爆出重磅消息:OpenAI参与o系列模型研发的两位大神Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了! !
7/16/2025 5:32:36 PM
伊风

谷歌未来两年将在美投资 250 亿美元,用于 AI 数据中心建设

AI在线 7 月 16 日消息,谷歌公司于本周二宣布,将在未来两年内投资 250 亿美元(AI在线注:现汇率约合 1794.8 亿元人民币)在美国最大的电力网区域建设数据中心,以支持其在人工智能领域的大规模布局。 谷歌公司总裁兼首席投资官鲁思・波拉特(Ruth Porat)预计将与美国总统特朗普一同出席在宾夕法尼亚州举行的人工智能峰会,并在峰会上宣布这一投资计划。 波拉特在一份声明中表示:“我们支持总统特朗普明确且紧迫的指示,即我国应投资于人工智能基础设施、技术和能源,以释放其带来的益处,从而确保美国在人工智能领域继续保持领先地位。
7/16/2025 3:43:29 PM
远洋

从麦当劳AI招聘系统漏洞事件看自动化招聘的阴暗面

罪魁祸首是:Olivia,一款来自Paradox.ai的AI聊天机器人,旨在处理求职申请、收集个人信息,甚至进行性格测试。 从表面上看,它是现代效率的典范,但实际上,由于安全漏洞太过基础,这些漏洞简直可以称得上是荒谬可笑,整个系统完全处于不设防状态。 出了什么问题?发现这些漏洞并不需要高超的黑客技术,研究人员Ian Carroll和Sam .
7/16/2025 1:07:47 PM
Tony Bradley

OpenAI前员工万字爆料刷屏!Codex发布会前紧急部署、已有63 万PR!工程混乱靠自造轮子;建议创始人去AI大厂当螺丝钉!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 前员工的万字离职帖,在海外技术社区刷屏了! 作者 Calvin French-Owen 把「从初创企业CTO到OpenAI 工程师」的 14 个月,写成了一篇既热血又克制的“内部纪录片”:• 7 周极限冲刺,上线 Codex,上线当天凌晨 4 点还在部署;• 一年扩张几千人,代码库秒变“巨型垃圾场”;• 第一天打开开关,流量就涌进来,“从没见过这么离谱的冷启动”为什么刷屏? 就像作者说得那样:外界关于 OpenAI 的传闻太多,真正从“里面”走出来讲真点一手体验的人太少。
7/16/2025 12:57:50 PM

AI+主数据:为什么你的数据还在"各自为政"?

周一早上,销售总监急匆匆跑到你办公室:"我们需要分析一下华东区域的客户画像,制定下季度的营销策略。 " 你打开CRM系统,发现客户信息不全。 打开ERP系统,发现交易数据格式乱七八糟。
7/16/2025 10:51:46 AM
大数据AI智能圈

错题本 × LLM:人机协作如何炼成“最严代码考官”

大家好,我是肆〇柒。 在 vibe coding 活跃的当下,有时,我们不得不思考一个问题:在软件开发流程中,我们能否完全依赖、使用 LLM 生成的代码? 大型语言模型(LLM)在代码生成基准测试中的卓越表现备受瞩目,从 HumanEval 到 LiveCodeBench,众多基准测试平台见证了 LLM 在代码生成任务上的飞速进步。
7/16/2025 9:51:43 AM
肆零柒

帮助职场人士提高办公效率的十款免费人工智能工具

译者 | 李睿审校 | 重楼提高办公效率并不能只依赖埋头苦干。 在通常情况下,“巧干胜于蛮干”。 因此,为了持续领先,关键在于融合个人才智、专注投入,以及高效应对日常挑战的方案。
7/16/2025 8:37:02 AM
李睿

一文带你彻底理解 AIGC、Agent、MCP 的概念和关系

作者 | willzhen近两年 AI 技术发展迅猛,日新月异。 大语言模型 (LLM)、AIGC、多模态、RAG、Agent、MCP 等各种相关概念层出不穷,若不深入了解,极易混淆。 本文旨在简要介绍这些 AI 技术的核心概念、基本原理及其相互关系,主要帮助非 AI 行业的开发者建立基础认知。
7/16/2025 8:00:00 AM
腾讯技术工程

Gartner:数据可用性和质量是实施AI面临的首要挑战

7月15日消息,市场研究机构Gartner一项新调查显示,数据的可用性与质量始终是AI实施过程中面临的关键难题。 该调查于2024年第四季度进行,目的是了解企业如何使用AI和生成式人工智能(GenAI)。 来自美国、英国、法国、德国、印度和日本的432名受访者参与了此次调查。
7/16/2025 12:10:00 AM
Yu

机器人“梅西”的养成:干活之前,得先学踢足球

人类驯服足球的历史已经有177年了,如果再算上蹴鞠、哈巴斯托姆这样的早期形态,还可以再往前追溯大约两千多年。 这项“世界第一运动”迄今已吸引了超过40亿人投身。 在此之后,人类还希望驯化机器人踢足球。
7/15/2025 3:18:00 PM
丁莉

零售业加速布局GenAI投资

超过一半(56%)的零售企业今年相比去年增加了对GenAI的投资,这是凯捷另一份报告所指出的。 零售业是采用AI智能体或多智能体系统最先进的五大行业之一,有18%的零售企业已经实施了AI智能体或多智能体系统,该报告显示。 在所有行业中,大约40%追踪投资回报率的企业预计在一到三年内从AI中获得正回报。
7/15/2025 2:33:14 PM
Xanayra

LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0

AI在线 7 月 15 日消息,LG AI Research 研究所今日发布公告,宣布正式推出新一代混合推理 AI 模型 EXAONE 4.0,这也是韩国首个混合推理 AI 模型。 据介绍,该模型融合通用自然语言处理能力与经 EXAONE Deep 验证的高级推理能力,在数学、科学及编程等高难度领域实现突破。 该模型支持 MCP 与函数调用功能,为 Agentic AI 提供技术基础,除了韩语、英语之外还支持西班牙语。
7/15/2025 2:31:42 PM
问舟

RAGFlow引用机制揭秘:LLM引导与后端验证如何协同工作?

昨天知识星球内有个提问:RAGFlow 显示引用为什么不通过提示词直接显示在回答中,而是通过分块后和检索片段比较向量相似度? 判断引用出处? 能不能直接通过提示词实现。
7/15/2025 12:24:16 PM
韦东东

AGENTGROUPCHAT-V2:大型语言模型多智能体协作的创新思考

大家好,我是肆〇柒。 LLM 多智能体系统在社会模拟和复杂任务解决这两大领域大显身手。 在社会模拟里,它们精准地复刻人类社交互动模式,助力我们洞察群体行为背后的社会学;在复杂任务解决场景下,智能体们协同合作,先是制定详尽规划,再按部就班执行,轻松应对复杂局面。
7/15/2025 12:14:44 PM
肆零柒

世界最大的招聘搜索引擎Indeed利用AI技术帮助求职者寻找新工作

Indeed的云原生和数据驱动的数字化转型,使其非常适合快速发展的AI时代,公司CIO兼CSO的Anthony Moisant如是说。 “我们不仅仅是在采用AI技术,我们正在构建一家智能体公司,在这里人类智慧与同理心能够与机器智能相结合。 ”Moisant表示。
7/15/2025 11:20:57 AM
Paula Rooney