测试
不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV
                        近年来,大语言模型在各类任务上表现出色,但幻觉、逻辑错误、推理漏洞等问题仍屡见不鲜。 这促使研究者持续探索提升模型输出可靠性的新路径。 现有主流范式各有优势,也存在局限。
                    
                    10/23/2025 8:50:32 AM
                        
                    将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch
                        将复杂科研过程自动化落地,上海人工智能实验室推出FlowSearch! 在GAIA、HLE、GPQA以及TRQA等科研基准上,FlowSearch不仅实现了性能全面领先,还展示了AI在复杂科研任务中的动态协作与深度推理能力。 展开来说,当AI在问答基准和标准化测试中表现卓越之时,其进行科学研究的能力也在被更多关注。
                    
                    10/14/2025 1:54:01 PM
                        
                    马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
                        让AI像金融分析师一样搜索和分析数据,到底有多难? 当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。
                    
                    9/22/2025 9:04:00 AM
                        
                    人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
                        人类一眼就能看懂的文字,AI居然全军覆没。 来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。 先切再叠,AI束手无策VYU团队设计了两个小实验:1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。
                    
                    9/10/2025 8:31:00 AM
                        
                    Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?
                        掀桌,拔网线,彻底拉黑! 本周二,AI领域的两大巨头撕破脸。 据多位知情人士爆料,Anthropic公司已经切断了OpenAI对其所有大语言模型的API访问权限。
                    
                    8/4/2025 8:58:00 AM
                        
                    MedGemma开源发布:谷歌推出支持多医学任务的AI模型套件
                        谷歌和DeepMind联合发布了一个全新的开源人工智能模型套件:MedGemma。 这一套件面向医疗领域打造,不仅支持文本、图像和多模态输入,还能广泛适配放射学、皮肤病学、组织病理学和眼科学等多个分支。 它在今年的I/O开发者大会上首次亮相,MedGemma包含两个版本:一个是体量为40亿参数的4B模型,支持图文混合处理;另一个是更强大的270亿参数的27B模型,提供文本和多模态两种版本。
                    
                    7/31/2025 2:00:15 AM
                        
                    高水准的开发:能用AI解决的问题,绝不自己动手去写
                        对于开发人员和软件测试人员来说,最重要的是有一款量身定制的接口调试工具,可以让开发和测试工作事半功倍。 Apipost是AI驱动的集API设计、调试、文档生成、自动化测试、性能测试于一体的API开发协作管理平台,功能全面,尤其适合注重团队协作和轻量体验的用户。 图片一、Apipost核心优势无需登录,离线可用:Apipost无需账号登录,支持离线调试,保护用户隐私,提升效率;高效的AI智能开发助手:集成AI大模型,解决接口开发测试过程中命名难题、手动维护文档繁琐等痛点问题,实现API设计、调试、文档生成和自动化测试的闭环高效开发管理;超轻量设计:资源占用少,加载迅速,适合对性能敏感的用户;100%兼容Postman脚本语法:用户可以无缝迁移现有Postman脚本,降低学习成本。
                    
                    7/31/2025 12:00:05 AM
                        
                    TTD-DR:基于测试时(Test-Time)扩散的深度研究Agent突破
                        谷歌在扩散技术领域持续发力。 这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。 该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。
                    
                    7/30/2025 2:00:00 AM
                        无影寺
                    媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型
                        阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。 根据阿里公布的测试数据显示,Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中,500轮交互的测试分数达到了69.6%,常规分数为67%,可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。 同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。
                    
                    7/25/2025 10:06:05 AM
                        
                    超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
                        测试时训练(test-time training)是一种通用的训练方法。 该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。 而对于大模型训练,通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。
                    
                    7/22/2025 10:22:02 AM
                        
                    特斯拉Robotaxi无人出租车正式测试:全自动驾驶迈向新里程碑!
                        Tesla在德克萨斯州奥斯汀启动了Robotaxi无人出租车的公开测试,标志着其全自动驾驶(FSD)Unsupervised模式的重大突破。 此次测试中,车辆驾驶座完全空置,运行全程由AI系统自主控制,仅在副驾驶位置配备一名安全监控员,且无方向盘或踏板控制权限。 全自动驾驶新篇章:FSD Unsupervised模式亮相Tesla Robotaxi测试采用FSD Unsupervised(无监督全自动驾驶)模式,车辆完全依赖AI系统进行导航、决策和操作,无需人类驾驶员干预。
                    
                    6/23/2025 5:00:39 PM
                        AI在线
                    月之暗面发布首款自主智能体 Kimi-Researcher
                        月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。 据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。 Kimi-Researcher:强大的多轮搜索与推理智能体Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。
                    
                    6/23/2025 11:00:48 AM
                        AI在线
                    AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
                        用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着? 面对1000道多步骤音频推理题时,30款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎猜。
                    
                    6/10/2025 9:10:00 AM
                        
                    大厂实践: LLM 加速大规模测试迁移
                        Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移,将 3500 个测试文件从 Enzyme 更新为 React测试库(RTL,React Testing Library)。 最初我们估计这需要 1 年半的时间来手工完成,但通过使用前沿模型和强大的自动化组合,我们在 6 周内完成了整个迁移。 本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战,如何通过 LLM 解决这些挑战,以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。
                    
                    6/10/2025 8:15:00 AM
                        俞凡 DeepNoMind
                    AI疯狂进化6个月,一张天梯图全浓缩!30+模型混战,大神演讲爆火
                        半年之期已到,AI龙王归位! (AI卷成啥样了? )就在刚刚,AI圈大神Simon Willison在旧金山AI工程师世博会(AI Engineer World’s Fair)上带来爆笑又干货满满的主题演讲:「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。
                    
                    6/10/2025 2:10:00 AM
                        
                    当测试遇见 AI:用 Streamlit+AutoGen+Deepseek 构建智能用例生成器
                        一、引言: 测试用例的 AI 进化之路1.1 行业困境:手工用例的三重效率枷锁在软件测试领域,测试用例是质量保障的核心载体。 据 ISTQB 2024 全球测试报告揭示:测试用例承担着 70%的质量决策责任,但是传统手工编写方式正面临三大痛点:1.1.1 痛点一:效率瓶颈 —— 百级用例的时间黑洞数据支撑:腾讯云测试效能调研显示:某电商平台年编写用例 1.2w 条,其中 68.3% 因需求变更需重复修改。 某金融 APP 密码修改功能开发中,23 条用例编写耗时占项目周期 42% (相当于 1 个资深测试工程师 80 工时)。
                    
                    5/30/2025 3:33:00 AM
                        魏文晏
                    大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
                        大模型做数独,总体正确率只有15%? ? ?
                    
                    5/29/2025 8:47:00 AM
                        
                    利用DeepSeek与Python自动生成测试用例!
                        在当今快节奏的软件开发领域,自动化测试已然成为保障软件质量的中流砥柱。 传统手动编写测试用例的方式,非但耗时费力,还极易遗漏关键场景。 所幸,AI 技术的飞速发展为我们带来了全新的解决方案。
                    
                    5/27/2025 1:45:00 AM
                        狂师
                    
        资讯热榜
    
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                