测试

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？

编辑 | ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。当 Devin Singh 还是一名儿科住院医师时，他曾在急诊室照顾过一个因长时间等待救治而心脏骤停的儿童。「我记得，当时我给这个病人做心肺复苏，感觉那个孩子快要死了。」他说。Singh 对孩子的死感到十分伤心，他曾想过，如果能缩短等待时间，是否就能避免这种情况。经历了这件事，他想，如果将自己的儿科专业知识与计算机科学结合起来，看看人工智能 (AI) 是否有助于缩短等待时间。Singh

8/22/2024 2:33:00 PM ScienceAI

首批万人测试已招满，OpenAI 关闭 SearchGPT 候补名单

OpenAI 公司已经关闭 SearchGPT 候选名单，仅邀请 10000 人参与测试，并已经开始向未被选中参与测试的用户发送通知邮件。AI在线于 7 月也同样提交了候选申请，于 8 月 17 日收到来自 OpenAI 的邮件，表示感谢报名参加 SearchGPT，目前无法发出邀请，后续会进一步扩大邀请测试规模。SearchGPT 目前仅向少量用户开放，官方介绍为：“全新搜索功能原型，利用我们人工智能模型的优势，为您提供清晰、相关的快速答案”。SearchGPT 可以让用户用自然语言提问，并获得详细、易懂的答案，

8/20/2024 12:19:30 PM 故渊

Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的，但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉，Geekbench ML 包括计算机视觉和自然语言处理测试，已经进行了一段时间的预览。开发者意识到，ML（机器学习）这个术语并不太适合推广工具，取而代之的是更适合营销的 Geekbench AI（人工智能）测试。Geekbench AI 1.0 基准测试支持跨平台，但由于 AI 算法在不同平台上的表现可能截然不

8/16/2024 8:05:44 AM 汪淼

AI在用 | 微软总裁疯狂安利的AI小游戏，虐我千千万万遍

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。天啊噜，AI 真的成精了。最近，AI 生图真假难辨这事儿，闹得那叫一个沸沸扬扬。（查看详情，请移步：AI在用 | 三步速成AI美女，又被AI一秒打回原形）除了火爆全网的 AI 谷歌小姐姐，社交平台上又冒出了形形色色的 FLUX 生

8/13/2024 6:11:00 PM 机器之能

你能分辨 AI 生成的图片和真实照片吗？微软总裁挑战你的眼力

微软副董事长兼总裁布拉德・史密斯推出了一项趣味测试，挑战人们辨别 AI 生成图像和真实照片的能力。他在名为“真或假”网站上线了该测试，每个测试包含 15 张图片，玩家需要判断图片是 AI 生成的还是真实拍摄的。测试中的图片每次都会随机更换，因此玩家可以反复挑战，提高鉴别能力。虽然最初的几道题相对简单，但随着测试的进行，难度逐渐增加。尽管有些图片一眼就能看出真假，但 AI 生成图像的逼真度已经达到令人惊讶的水平。同时，现实世界中也存在许多奇特的场景，足以迷惑人们。经过多次尝试，笔者发现测试难度逐渐增加，前十题相对简单

8/6/2024 2:20:18 PM 远洋

Anthropic 基于 Claude 3.5 Sonnet 扩充 AI 开发工具：细化提示词、增强评估和测试

Anthropic 公司昨日（7 月 10 日）发布新闻稿，宣布推出了多项新工具，基于 Claude 3.5 Sonnet 大语言模型自动化、细化提示词（prompt）。AI在线附上完整演示视频如下：增强开发环境，可生成提示Anthropic 控制面板新增“评估”（Evaluate）单元，借助 Claude 3.5 Sonnet 大语言模型，帮助开发者高效地生成、微调和测试提示（Prompt）。这些增强功能旨在改进语言模型对各种任务的响应，为使用 Claude 开发人工智能产品的企业提供宝贵的资源。开发者只需描述

7/11/2024 11:31:32 AM 故渊

菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败

编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀，去解决动物过河难题。在此，他给出了一个新的基准 —— 废话比率（crapness ratio），即 L

6/30/2024 2:15:14 PM 远洋

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

6/17/2024 2:51:16 PM 远洋

麦当劳“炒掉”AI 点餐员，叫停与 IBM 合作的自动点餐测试项目

麦当劳近期饱受争议的自动点餐 AI 系统将暂时停止测试，经常被人工智能聊天机器人搞错订单的顾客们，现在可以松一口气了。据行业刊物《餐馆商业》报道，麦当劳已通知其加盟商，将在 2024 年 7 月 26 日之前结束与 IBM 合作的自动语音点餐系统测试。图源 Pexels这项始于 2021 年的合作项目在超过 100 家麦当劳得来速餐厅试点，目前，麦当劳尚未公布终止与 IBM 合作的具体原因。不过，麦当劳依然看好自动点餐 AI 技术的前景。他们此前表示，此次测试让他们坚信“语音点餐解决方案将成为未来餐厅的一部分”。外

6/17/2024 6:46:48 AM 远洋

北上广深等六地政策对比｜中国无人驾驶产业发展背后的城市竞速

2015年5月，国务院发布《中国制造2025》，将发展智能网联汽车正式上升至国家战略高度，无人驾驶也被列为汽车产业未来转型升级的重要方向之一。此后的九年时间里，从工信部、国家发改委、科技部等中央部委到北京、上海、广州、深圳、武汉等重点城市，都将自动驾驶汽车列为重点任务之一，并陆续出台相关法规、政策和标准，逐步构建起智能网联汽车产业的政策体系，为更高阶自动驾驶大规模落地持续铺路。顶层设计的背后，是各个城市对自动驾驶技术发展的重视和支持。同时，各个城市之间也在上演着暗流激荡的产业竞赛。尤其是北京、上海、广州、深圳、武汉

6/11/2024 2:29:00 PM 新闻助手

经典手游“汤姆猫”实体化，旗下 AI 儿童陪伴机器人已开展工业设计、嵌入式系统开发工作

汤姆猫今日在电话交流会中透露，公司海外研发团队正进一步丰富首款 AI 手游《Talking Ben AI》的玩法与该产品的个性化交互能力，并在测试中持续进行数据搜集，用于优化数据库、模型能力。此外，该公司机器人研发团队已就汤姆猫 AI 儿童陪伴机器人开展工业设计与嵌入式系统的开发，后续将在产品主要功能完善后推进打样及测试工作。今年 3 月，汤姆猫还透露，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。此前一款全新适配 MR / VR 硬件的产品原型

5/16/2024 9:38:42 PM 清源

面壁智能发布 Eurux-8x22B 开源大模型：代码性能超越 Llama3-70B

感谢面壁智能发布开源大模型 Eurux-8x22B，包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO，主打推理能力。官方测试中，Eurux-8x22B 在 LeetCode（180 道 LeetCode 编程真题）与 TheoremQA （IT之家注：美国大学水准的 STEM 题目）测试上超越了 Llama3-70B，在 LeetCode 测试上超越闭源的 GPT-3.5-Turbo。▲ 官方测试结果据介绍，Eurux-8x22B 模型激活参数 39B，支持 64k 上下文，是由 Mixtr

5/3/2024 11:53:08 PM 泓澄（实习）

可评估大模型安全性，MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题，近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet

4/18/2024 11:11:08 PM 溯波（实习）

UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统

测试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图像生成基准测试现已兼容苹果 macOS 操作系统。该 AI 图像生成基准测试于上月推出，是 UL Procyon 专业基准测试套件的一部分。其基于 Stable Diffusion AI 模型（包含 1.5 和 XL 两种版本），能在所有支持的硬件上得到公平且可比较的结果。UL Procyon AI 图像生成基准测试通过强大的推理负载测量专用 AI 处理硬件的性能，首发时适配支持英伟达 TensorRT、英特尔 Op

4/10/2024 10:00:48 PM 溯波（实习）

AMD：锐龙 8040 系列处理器 AI 性能完胜英特尔酷睿 Ultra 处理器

AMD 近日公布了一系列基准测试，声称其锐龙移动版 7040 Phoenix 系列和 8040 系列处理器在运行大型语言模型 (LLMs) 方面，性能最高可领先于英特尔最新的 Core Ultra Meteor Lake CPU 达 79%。IT之家注意到，本次测试对比的是 AMD 锐龙 7 7840U 和英特尔 Core Ultra 7 155H 处理器，两款芯片均配备了硬件神经网络处理单元 (NPU)。AMD 展示了多张幻灯片，对比了这两款处理器的 Mistral 7b、Llama v2 和 Mistral I

4/7/2024 2:46:07 PM 远洋

Databricks 推出 1320 亿参数大语言模型 DBRX，号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX，号称是“目前最强开源 AI”，据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知，DBRX 是一个基于 Transformer 的大语言模型，采用 MoE（Mixture of Experts）架构，具备 1320 亿个参数，并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试，相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型，DBRX 在语言理解（MMLU）、程式设

3/31/2024 3:15:05 PM 漾仔

AI 程序员 Devin 卧底工作群修 bug！和 CTO 聊技术，网友：顶级码农水平

首个 AI 程序员 Devin，现身明星创业公司内部群。为解决一个技术问题，Devin 借用了其创造者的账号，与客户公司的 CTO 交流，并根据回复调整了代码方案。对话之专业，围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack，截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲

3/17/2024 5:15:57 PM 远洋

基于生成式 AI 技术，汤姆猫正在研发一款语音交互陪伴机器人

感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”，披露了公司在 AI 领域的布局。据介绍，汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品，已初步完成主要功能的测试，公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。汤姆猫透露，此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision Pr

3/11/2024 9:04:56 AM 浩渺

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉