测试
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
人类一眼就能看懂的文字,AI居然全军覆没。 来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。 先切再叠,AI束手无策VYU团队设计了两个小实验:1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。
9/10/2025 8:31:00 AM
Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?
掀桌,拔网线,彻底拉黑! 本周二,AI领域的两大巨头撕破脸。 据多位知情人士爆料,Anthropic公司已经切断了OpenAI对其所有大语言模型的API访问权限。
8/4/2025 8:58:00 AM
MedGemma开源发布:谷歌推出支持多医学任务的AI模型套件
谷歌和DeepMind联合发布了一个全新的开源人工智能模型套件:MedGemma。 这一套件面向医疗领域打造,不仅支持文本、图像和多模态输入,还能广泛适配放射学、皮肤病学、组织病理学和眼科学等多个分支。 它在今年的I/O开发者大会上首次亮相,MedGemma包含两个版本:一个是体量为40亿参数的4B模型,支持图文混合处理;另一个是更强大的270亿参数的27B模型,提供文本和多模态两种版本。
7/31/2025 2:00:15 AM
高水准的开发:能用AI解决的问题,绝不自己动手去写
对于开发人员和软件测试人员来说,最重要的是有一款量身定制的接口调试工具,可以让开发和测试工作事半功倍。 Apipost是AI驱动的集API设计、调试、文档生成、自动化测试、性能测试于一体的API开发协作管理平台,功能全面,尤其适合注重团队协作和轻量体验的用户。 图片一、Apipost核心优势无需登录,离线可用:Apipost无需账号登录,支持离线调试,保护用户隐私,提升效率;高效的AI智能开发助手:集成AI大模型,解决接口开发测试过程中命名难题、手动维护文档繁琐等痛点问题,实现API设计、调试、文档生成和自动化测试的闭环高效开发管理;超轻量设计:资源占用少,加载迅速,适合对性能敏感的用户;100%兼容Postman脚本语法:用户可以无缝迁移现有Postman脚本,降低学习成本。
7/31/2025 12:00:05 AM
TTD-DR:基于测试时(Test-Time)扩散的深度研究Agent突破
谷歌在扩散技术领域持续发力。 这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。 该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。
7/30/2025 2:00:00 AM
无影寺
媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型
阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。 根据阿里公布的测试数据显示,Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中,500轮交互的测试分数达到了69.6%,常规分数为67%,可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。 同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。
7/25/2025 10:06:05 AM
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
测试时训练(test-time training)是一种通用的训练方法。 该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。 而对于大模型训练,通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。
7/22/2025 10:22:02 AM
特斯拉Robotaxi无人出租车正式测试:全自动驾驶迈向新里程碑!
Tesla在德克萨斯州奥斯汀启动了Robotaxi无人出租车的公开测试,标志着其全自动驾驶(FSD)Unsupervised模式的重大突破。 此次测试中,车辆驾驶座完全空置,运行全程由AI系统自主控制,仅在副驾驶位置配备一名安全监控员,且无方向盘或踏板控制权限。 全自动驾驶新篇章:FSD Unsupervised模式亮相Tesla Robotaxi测试采用FSD Unsupervised(无监督全自动驾驶)模式,车辆完全依赖AI系统进行导航、决策和操作,无需人类驾驶员干预。
6/23/2025 5:00:39 PM
AI在线
月之暗面发布首款自主智能体 Kimi-Researcher
月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。 据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。 Kimi-Researcher:强大的多轮搜索与推理智能体Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。
6/23/2025 11:00:48 AM
AI在线
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着? 面对1000道多步骤音频推理题时,30款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎猜。
6/10/2025 9:10:00 AM
大厂实践: LLM 加速大规模测试迁移
Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移,将 3500 个测试文件从 Enzyme 更新为 React测试库(RTL,React Testing Library)。 最初我们估计这需要 1 年半的时间来手工完成,但通过使用前沿模型和强大的自动化组合,我们在 6 周内完成了整个迁移。 本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战,如何通过 LLM 解决这些挑战,以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。
6/10/2025 8:15:00 AM
俞凡 DeepNoMind
AI疯狂进化6个月,一张天梯图全浓缩!30+模型混战,大神演讲爆火
半年之期已到,AI龙王归位! (AI卷成啥样了? )就在刚刚,AI圈大神Simon Willison在旧金山AI工程师世博会(AI Engineer World’s Fair)上带来爆笑又干货满满的主题演讲:「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。
6/10/2025 2:10:00 AM
当测试遇见 AI:用 Streamlit+AutoGen+Deepseek 构建智能用例生成器
一、引言: 测试用例的 AI 进化之路1.1 行业困境:手工用例的三重效率枷锁在软件测试领域,测试用例是质量保障的核心载体。 据 ISTQB 2024 全球测试报告揭示:测试用例承担着 70%的质量决策责任,但是传统手工编写方式正面临三大痛点:1.1.1 痛点一:效率瓶颈 —— 百级用例的时间黑洞数据支撑:腾讯云测试效能调研显示:某电商平台年编写用例 1.2w 条,其中 68.3% 因需求变更需重复修改。 某金融 APP 密码修改功能开发中,23 条用例编写耗时占项目周期 42% (相当于 1 个资深测试工程师 80 工时)。
5/30/2025 3:33:00 AM
魏文晏
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
大模型做数独,总体正确率只有15%? ? ?
5/29/2025 8:47:00 AM
利用DeepSeek与Python自动生成测试用例!
在当今快节奏的软件开发领域,自动化测试已然成为保障软件质量的中流砥柱。 传统手动编写测试用例的方式,非但耗时费力,还极易遗漏关键场景。 所幸,AI 技术的飞速发展为我们带来了全新的解决方案。
5/27/2025 1:45:00 AM
狂师
字节发布 Seed1.5-VL 视觉-语言多模态大模型,20B 参数狂揽 60 项公开评测基准中 38 项 SOTA!
5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。 同时,Data Agent 和 Trae 等产品也有了新进展。 今天给大家介绍的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。
5/19/2025 9:07:00 AM
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law
Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲,介绍了「解决通用机器人问题的第一性原理」,包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。 其中尤其提到了「物理图灵测试」,大意是说对于一个真实的物理场景和一个指令,会有人类或机器人根据该指令对这个场景进行相应的处理,然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。 很显然,Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。
5/12/2025 9:02:00 AM
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。
5/6/2025 3:32:23 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP