测试

MedGemma开源发布：谷歌推出支持多医学任务的AI模型套件

谷歌和DeepMind联合发布了一个全新的开源人工智能模型套件：MedGemma。这一套件面向医疗领域打造，不仅支持文本、图像和多模态输入，还能广泛适配放射学、皮肤病学、组织病理学和眼科学等多个分支。它在今年的I/O开发者大会上首次亮相，MedGemma包含两个版本：一个是体量为40亿参数的4B模型，支持图文混合处理；另一个是更强大的270亿参数的27B模型，提供文本和多模态两种版本。

7/31/2025 2:00:15 AM

高水准的开发：能用AI解决的问题，绝不自己动手去写

对于开发人员和软件测试人员来说，最重要的是有一款量身定制的接口调试工具，可以让开发和测试工作事半功倍。 Apipost是AI驱动的集API设计、调试、文档生成、自动化测试、性能测试于一体的API开发协作管理平台，功能全面，尤其适合注重团队协作和轻量体验的用户。图片一、Apipost核心优势无需登录，离线可用：Apipost无需账号登录，支持离线调试，保护用户隐私，提升效率；高效的AI智能开发助手：集成AI大模型，解决接口开发测试过程中命名难题、手动维护文档繁琐等痛点问题，实现API设计、调试、文档生成和自动化测试的闭环高效开发管理；超轻量设计：资源占用少，加载迅速，适合对性能敏感的用户；100%兼容Postman脚本语法：用户可以无缝迁移现有Postman脚本，降低学习成本。

7/31/2025 12:00:05 AM

TTD-DR：基于测试时(Test-Time)扩散的深度研究Agent突破

谷歌在扩散技术领域持续发力。这次，他们将扩散技术应用于深度研究agent，专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。

7/30/2025 2:00:00 AM

无影寺

媲美Claude 4，支持100万上下文！阿里开源超强代码AI Agent模型

阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。根据阿里公布的测试数据显示，Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中，500轮交互的测试分数达到了69.6%，常规分数为67%，可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

7/25/2025 10:06:05 AM

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

测试时训练（test-time training）是一种通用的训练方法。该方法将单个未标记的测试实例转化为自监督学习问题，在对测试样本进行预测之前更新模型参数。而对于大模型训练，通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。

7/22/2025 10:22:02 AM

特斯拉Robotaxi无人出租车正式测试：全自动驾驶迈向新里程碑！

Tesla在德克萨斯州奥斯汀启动了Robotaxi无人出租车的公开测试，标志着其全自动驾驶（FSD）Unsupervised模式的重大突破。此次测试中，车辆驾驶座完全空置，运行全程由AI系统自主控制，仅在副驾驶位置配备一名安全监控员，且无方向盘或踏板控制权限。全自动驾驶新篇章:FSD Unsupervised模式亮相Tesla Robotaxi测试采用FSD Unsupervised（无监督全自动驾驶）模式，车辆完全依赖AI系统进行导航、决策和操作，无需人类驾驶员干预。

6/23/2025 5:00:39 PM

AI在线

月之暗面发布首款自主智能体 Kimi-Researcher

月之暗面（Moonshot AI）今日推出其备受期待的 Kimi 研究功能，正式加入日益激烈的 AI 智能体(Agent)竞争。据称，该功能在多项基准测试中表现出色，尤其在名为“人类终极考验”(Humanity's Last Exam，HLE)的测试中，其性能超越了谷歌和 OpenAI 的同类产品，一举登顶。 Kimi-Researcher:强大的多轮搜索与推理智能体Kimi 研究功能的核心是 Kimi-Researcher，这是一款擅长多轮搜索与推理的自主智能体。

6/23/2025 11:00:48 AM

AI在线

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

用AI来整理会议内容，已经是人类的常规操作。不过，你猜怎么着？面对1000道多步骤音频推理题时，30款AI模型竟然几乎全军覆没，很多开源模型表现甚至接近瞎猜。

6/10/2025 9:10:00 AM

大厂实践： LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移，将 3500 个测试文件从 Enzyme 更新为 React测试库（RTL，React Testing Library）。最初我们估计这需要 1 年半的时间来手工完成，但通过使用前沿模型和强大的自动化组合，我们在 6 周内完成了整个迁移。本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战，如何通过 LLM 解决这些挑战，以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。

6/10/2025 8:15:00 AM

俞凡 DeepNoMind

AI疯狂进化6个月，一张天梯图全浓缩！30+模型混战，大神演讲爆火

半年之期已到，AI龙王归位！（AI卷成啥样了？）就在刚刚，AI圈大神Simon Willison在旧金山AI工程师世博会（AI Engineer World’s Fair）上带来爆笑又干货满满的主题演讲：「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。

6/10/2025 2:10:00 AM

当测试遇见 AI：用 Streamlit+AutoGen+Deepseek 构建智能用例生成器

一、引言：测试用例的 AI 进化之路1.1 行业困境：手工用例的三重效率枷锁在软件测试领域，测试用例是质量保障的核心载体。据 ISTQB 2024 全球测试报告揭示：测试用例承担着 70%的质量决策责任，但是传统手工编写方式正面临三大痛点：1.1.1 痛点一：效率瓶颈 —— 百级用例的时间黑洞数据支撑：腾讯云测试效能调研显示：某电商平台年编写用例 1.2w 条，其中 68.3% 因需求变更需重复修改。某金融 APP 密码修改功能开发中，23 条用例编写耗时占项目周期 42% （相当于 1 个资深测试工程师 80 工时）。

5/30/2025 3:33:00 AM

魏文晏

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

大模型做数独，总体正确率只有15%？？？

5/29/2025 8:47:00 AM

利用DeepSeek与Python自动生成测试用例！

在当今快节奏的软件开发领域，自动化测试已然成为保障软件质量的中流砥柱。传统手动编写测试用例的方式，非但耗时费力，还极易遗漏关键场景。所幸，AI 技术的飞速发展为我们带来了全新的解决方案。

5/27/2025 1:45:00 AM

狂师

字节发布 Seed1.5-VL 视觉-语言多模态大模型，20B 参数狂揽 60 项公开评测基准中 38 项 SOTA！

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。今天给大家介绍的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。

5/19/2025 9:07:00 AM

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。

5/12/2025 9:02:00 AM

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集，让20多个中外主流大模型集体“挂科”：GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%。

5/6/2025 3:32:23 PM

64页论文揭示AI模型排行榜黑幕：Llama4发布前私下测试27个版本，只取最佳成绩

近日，一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注，尤其是对大型语言模型（LLM）领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出，排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。论文显示，一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。

5/3/2025 11:00:48 AM

AI在线

程序员挑战极限：在古老的 DOS 系统上成功运行 Llama 2 模型

在科技飞速发展的今天，一位勇敢的程序员选择回归经典，尝试在老旧的 DOS 环境中运行 Meta 公司最新发布的大语言模型 Llama2。 Yeo Kheng Meng，这位因开发 ChatGPT DOS 客户端而声名鹊起的程序员，花费了一个周末的时间，成功地将这个大型语言模型移植到传统计算环境中，展现了无与伦比的技术创造力。项目的起步得益于开源代码的便利。

4/30/2025 9:01:01 AM

AI在线

资讯热榜

DeepRare 重磅发布：全球首个可循证智能体诊断系统，直击医学Last Exam难题李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩考试提分新工具：网页版 ChatGPT 测试“学习和掌握”功能，AI 助你成学霸预定最强视频生成 AI 模型，OpenAI Sora 2 现踪迹 MyShell ShellAgent 2.0发布：一句话创建App，零前端的AI革命来袭因为不用AI写代码，我在终面挂了 | 一个程序员的奇葩面试经历 AI视频记忆革命来了！Memories.ai获800万美元融资，挑战千万小时视频分析极限硅谷 AI 初创重新拥抱 996

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文智能体英伟达 Anthropic 代码算法 Stable Diffusion 训练芯片开发者蛋白质腾讯生成式 LLM 苹果神经网络 AI新词 Claude 3D 研究生成机器学习 AI for Science Agent xAI 计算人形机器人 Sora AI视频 GPU AI设计百度华为搜索大语言模型工具场景字节跳动具身智能 RAG 大型语言模型预测深度学习伟达视觉 Transformer AGI 视频生成神器推荐亚马逊 Copilot DeepMind 架构模态 LLaMA