测试

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

近年来，大语言模型在各类任务上表现出色，但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。这促使研究者持续探索提升模型输出可靠性的新路径。现有主流范式各有优势，也存在局限。

10/23/2025 8:50:32 AM

将科研脏活累活真·丢给AI！上海AI Lab推出深度科研智能体FlowSearch

将复杂科研过程自动化落地，上海人工智能实验室推出FlowSearch！在GAIA、HLE、GPQA以及TRQA等科研基准上，FlowSearch不仅实现了性能全面领先，还展示了AI在复杂科研任务中的动态协作与深度推理能力。展开来说，当AI在问答基准和标准化测试中表现卓越之时，其进行科学研究的能力也在被更多关注。

10/14/2025 1:54:01 PM

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错

让AI像金融分析师一样搜索和分析数据，到底有多难？当前的大模型虽然能回答基础金融知识，在CFA考试中取得高分，但面对真实的金融场景，它们的表现究竟如何？为了回答这个问题，字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp，这是首个完全开源的金融搜索与推理基准测试。

9/22/2025 9:04:00 AM

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

人类一眼就能看懂的文字，AI居然全军覆没。来自A*STAR、NUS、NTU、清华、南开等机构的研究团队，最近有个新发现：不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、Anthropic Claude，甚至国内的Qwen、LLaVA，在面对一些“看得见但读不懂”的文字时，全都表现极差，直接“翻车”。先切再叠，AI束手无策VYU团队设计了两个小实验：1、选取了100条四字成语，把每个汉字横切、竖切、斜切，再把碎片重新拼接。

9/10/2025 8:31:00 AM

Anthropic官宣「封杀」OpenAI！GPT-5发布在即，竟被曝用Claude Code做开发？

掀桌，拔网线，彻底拉黑！本周二，AI领域的两大巨头撕破脸。据多位知情人士爆料，Anthropic公司已经切断了OpenAI对其所有大语言模型的API访问权限。

8/4/2025 8:58:00 AM

MedGemma开源发布：谷歌推出支持多医学任务的AI模型套件

谷歌和DeepMind联合发布了一个全新的开源人工智能模型套件：MedGemma。这一套件面向医疗领域打造，不仅支持文本、图像和多模态输入，还能广泛适配放射学、皮肤病学、组织病理学和眼科学等多个分支。它在今年的I/O开发者大会上首次亮相，MedGemma包含两个版本：一个是体量为40亿参数的4B模型，支持图文混合处理；另一个是更强大的270亿参数的27B模型，提供文本和多模态两种版本。

7/31/2025 2:00:15 AM

高水准的开发：能用AI解决的问题，绝不自己动手去写

对于开发人员和软件测试人员来说，最重要的是有一款量身定制的接口调试工具，可以让开发和测试工作事半功倍。 Apipost是AI驱动的集API设计、调试、文档生成、自动化测试、性能测试于一体的API开发协作管理平台，功能全面，尤其适合注重团队协作和轻量体验的用户。图片一、Apipost核心优势无需登录，离线可用：Apipost无需账号登录，支持离线调试，保护用户隐私，提升效率；高效的AI智能开发助手：集成AI大模型，解决接口开发测试过程中命名难题、手动维护文档繁琐等痛点问题，实现API设计、调试、文档生成和自动化测试的闭环高效开发管理；超轻量设计：资源占用少，加载迅速，适合对性能敏感的用户；100%兼容Postman脚本语法：用户可以无缝迁移现有Postman脚本，降低学习成本。

7/31/2025 12:00:05 AM

TTD-DR：基于测试时(Test-Time)扩散的深度研究Agent突破

谷歌在扩散技术领域持续发力。这次，他们将扩散技术应用于深度研究agent，专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。

7/30/2025 2:00:00 AM 无影寺

媲美Claude 4，支持100万上下文！阿里开源超强代码AI Agent模型

阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。根据阿里公布的测试数据显示，Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中，500轮交互的测试分数达到了69.6%，常规分数为67%，可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

7/25/2025 10:06:05 AM

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

测试时训练（test-time training）是一种通用的训练方法。该方法将单个未标记的测试实例转化为自监督学习问题，在对测试样本进行预测之前更新模型参数。而对于大模型训练，通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。

7/22/2025 10:22:02 AM

特斯拉Robotaxi无人出租车正式测试：全自动驾驶迈向新里程碑！

Tesla在德克萨斯州奥斯汀启动了Robotaxi无人出租车的公开测试，标志着其全自动驾驶（FSD）Unsupervised模式的重大突破。此次测试中，车辆驾驶座完全空置，运行全程由AI系统自主控制，仅在副驾驶位置配备一名安全监控员，且无方向盘或踏板控制权限。全自动驾驶新篇章:FSD Unsupervised模式亮相Tesla Robotaxi测试采用FSD Unsupervised（无监督全自动驾驶）模式，车辆完全依赖AI系统进行导航、决策和操作，无需人类驾驶员干预。

6/23/2025 5:00:39 PM AI在线

月之暗面发布首款自主智能体 Kimi-Researcher

月之暗面（Moonshot AI）今日推出其备受期待的 Kimi 研究功能，正式加入日益激烈的 AI 智能体(Agent)竞争。据称，该功能在多项基准测试中表现出色，尤其在名为“人类终极考验”(Humanity's Last Exam，HLE)的测试中，其性能超越了谷歌和 OpenAI 的同类产品，一举登顶。 Kimi-Researcher:强大的多轮搜索与推理智能体Kimi 研究功能的核心是 Kimi-Researcher，这是一款擅长多轮搜索与推理的自主智能体。

6/23/2025 11:00:48 AM AI在线

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

用AI来整理会议内容，已经是人类的常规操作。不过，你猜怎么着？面对1000道多步骤音频推理题时，30款AI模型竟然几乎全军覆没，很多开源模型表现甚至接近瞎猜。

6/10/2025 9:10:00 AM

大厂实践： LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移，将 3500 个测试文件从 Enzyme 更新为 React测试库（RTL，React Testing Library）。最初我们估计这需要 1 年半的时间来手工完成，但通过使用前沿模型和强大的自动化组合，我们在 6 周内完成了整个迁移。本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战，如何通过 LLM 解决这些挑战，以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。

6/10/2025 8:15:00 AM 俞凡 DeepNoMind

AI疯狂进化6个月，一张天梯图全浓缩！30+模型混战，大神演讲爆火

半年之期已到，AI龙王归位！（AI卷成啥样了？）就在刚刚，AI圈大神Simon Willison在旧金山AI工程师世博会（AI Engineer World’s Fair）上带来爆笑又干货满满的主题演讲：「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。

6/10/2025 2:10:00 AM

当测试遇见 AI：用 Streamlit+AutoGen+Deepseek 构建智能用例生成器

一、引言：测试用例的 AI 进化之路1.1 行业困境：手工用例的三重效率枷锁在软件测试领域，测试用例是质量保障的核心载体。据 ISTQB 2024 全球测试报告揭示：测试用例承担着 70%的质量决策责任，但是传统手工编写方式正面临三大痛点：1.1.1 痛点一：效率瓶颈 —— 百级用例的时间黑洞数据支撑：腾讯云测试效能调研显示：某电商平台年编写用例 1.2w 条，其中 68.3% 因需求变更需重复修改。某金融 APP 密码修改功能开发中，23 条用例编写耗时占项目周期 42% （相当于 1 个资深测试工程师 80 工时）。

5/30/2025 3:33:00 AM 魏文晏

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

大模型做数独，总体正确率只有15%？？？

5/29/2025 8:47:00 AM

利用DeepSeek与Python自动生成测试用例！

在当今快节奏的软件开发领域，自动化测试已然成为保障软件质量的中流砥柱。传统手动编写测试用例的方式，非但耗时费力，还极易遗漏关键场景。所幸，AI 技术的飞速发展为我们带来了全新的解决方案。

5/27/2025 1:45:00 AM 狂师

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

测试

不改模型也能提升推理性能？ICLR投稿提出测试时扩展新范式OTV

将科研脏活累活真·丢给AI！上海AI Lab推出深度科研智能体FlowSearch

马斯克转发字节Seed&amp;哥大商学院新基准：大模型搞金融，连查个股价都能出错

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

Anthropic官宣「封杀」OpenAI！GPT-5发布在即，竟被曝用Claude Code做开发？

MedGemma开源发布：谷歌推出支持多医学任务的AI模型套件

高水准的开发：能用AI解决的问题，绝不自己动手去写

TTD-DR：基于测试时(Test-Time)扩散的深度研究Agent突破

媲美Claude 4，支持100万上下文！阿里开源超强代码AI Agent模型

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

特斯拉Robotaxi无人出租车正式测试：全自动驾驶迈向新里程碑！

月之暗面发布首款自主智能体 Kimi-Researcher

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

大厂实践： LLM 加速大规模测试迁移

AI疯狂进化6个月，一张天梯图全浓缩！30+模型混战，大神演讲爆火

当测试遇见 AI：用 Streamlit+AutoGen+Deepseek 构建智能用例生成器

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

利用DeepSeek与Python自动生成测试用例！

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错