测试
Anthropic 基于 Claude 3.5 Sonnet 扩充 AI 开发工具:细化提示词、增强评估和测试
Anthropic 公司昨日(7 月 10 日)发布新闻稿,宣布推出了多项新工具,基于 Claude 3.5 Sonnet 大语言模型自动化、细化提示词(prompt)。AI在线附上完整演示视频如下: 增强开发环境,可生成提示Anthropic 控制面板新增“评估”(Evaluate)单元,借助 Claude 3.5 Sonnet 大语言模型,帮助开发者高效地生成、微调和测试提示(Prompt)。这些增强功能旨在改进语言模型对各种任务的响应,为使用 Claude 开发人工智能产品的企业提供宝贵的资源。开发者只需描述
7/11/2024 11:31:32 AM
故渊
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
编辑:桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的 LLM 都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀,去解决动物过河难题。在此,他给出了一个新的基准 —— 废话比率(crapness ratio),即 L
6/30/2024 2:15:14 PM
远洋
研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人
感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是
6/17/2024 2:51:16 PM
远洋
麦当劳“炒掉”AI 点餐员,叫停与 IBM 合作的自动点餐测试项目
麦当劳近期饱受争议的自动点餐 AI 系统将暂时停止测试,经常被人工智能聊天机器人搞错订单的顾客们,现在可以松一口气了。据行业刊物《餐馆商业》报道,麦当劳已通知其加盟商,将在 2024 年 7 月 26 日之前结束与 IBM 合作的自动语音点餐系统测试。图源 Pexels这项始于 2021 年的合作项目在超过 100 家麦当劳得来速餐厅试点,目前,麦当劳尚未公布终止与 IBM 合作的具体原因。不过,麦当劳依然看好自动点餐 AI 技术的前景。他们此前表示,此次测试让他们坚信“语音点餐解决方案将成为未来餐厅的一部分”。外
6/17/2024 6:46:48 AM
远洋
北上广深等六地政策对比|中国无人驾驶产业发展背后的城市竞速
2015年5月,国务院发布《中国制造2025》,将发展智能网联汽车正式上升至国家战略高度,无人驾驶也被列为汽车产业未来转型升级的重要方向之一。此后的九年时间里,从工信部、国家发改委、科技部等中央部委到北京、上海、广州、深圳、武汉等重点城市,都将自动驾驶汽车列为重点任务之一,并陆续出台相关法规、政策和标准,逐步构建起智能网联汽车产业的政策体系,为更高阶自动驾驶大规模落地持续铺路。顶层设计的背后,是各个城市对自动驾驶技术发展的重视和支持。同时,各个城市之间也在上演着暗流激荡的产业竞赛。尤其是北京、上海、广州、深圳、武汉
6/11/2024 2:29:00 PM
新闻助手
经典手游“汤姆猫”实体化,旗下 AI 儿童陪伴机器人已开展工业设计、嵌入式系统开发工作
汤姆猫今日在电话交流会中透露,公司海外研发团队正进一步丰富首款 AI 手游《Talking Ben AI》的玩法与该产品的个性化交互能力,并在测试中持续进行数据搜集,用于优化数据库、模型能力。此外,该公司机器人研发团队已就汤姆猫 AI 儿童陪伴机器人开展工业设计与嵌入式系统的开发,后续将在产品主要功能完善后推进打样及测试工作。今年 3 月,汤姆猫还透露,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人,预计将为公司业务带来全新增长空间。此前一款全新适配 MR / VR 硬件的产品原型
5/16/2024 9:38:42 PM
清源
面壁智能发布 Eurux-8x22B 开源大模型:代码性能超越 Llama3-70B
感谢面壁智能发布开源大模型 Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。官方测试中,Eurux-8x22B 在 LeetCode(180 道 LeetCode 编程真题)与 TheoremQA (IT之家注:美国大学水准的 STEM 题目)测试上超越了 Llama3-70B,在 LeetCode 测试上超越闭源的 GPT-3.5-Turbo。▲ 官方测试结果据介绍,Eurux-8x22B 模型激活参数 39B,支持 64k 上下文,是由 Mixtr
5/3/2024 11:53:08 PM
泓澄(实习)
可评估大模型安全性,MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版
全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet
4/18/2024 11:11:08 PM
溯波(实习)
UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统
测试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图像生成基准测试现已兼容苹果 macOS 操作系统。该 AI 图像生成基准测试于上月推出,是 UL Procyon 专业基准测试套件的一部分。其基于 Stable Diffusion AI 模型(包含 1.5 和 XL 两种版本),能在所有支持的硬件上得到公平且可比较的结果。UL Procyon AI 图像生成基准测试通过强大的推理负载测量专用 AI 处理硬件的性能,首发时适配支持英伟达 TensorRT、英特尔 Op
4/10/2024 10:00:48 PM
溯波(实习)
AMD:锐龙 8040 系列处理器 AI 性能完胜英特尔酷睿 Ultra 处理器
AMD 近日公布了一系列基准测试,声称其锐龙移动版 7040 Phoenix 系列和 8040 系列处理器在运行大型语言模型 (LLMs) 方面,性能最高可领先于英特尔最新的 Core Ultra Meteor Lake CPU 达 79%。IT之家注意到,本次测试对比的是 AMD 锐龙 7 7840U 和英特尔 Core Ultra 7 155H 处理器,两款芯片均配备了硬件神经网络处理单元 (NPU)。AMD 展示了多张幻灯片,对比了这两款处理器的 Mistral 7b、Llama v2 和 Mistral I
4/7/2024 2:46:07 PM
远洋
Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”
Databricks 近日在推出了一款通用大语言模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知,DBRX 是一个基于 Transformer 的大语言模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试,相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型,DBRX 在语言理解(MMLU)、程式设
3/31/2024 3:15:05 PM
漾仔
AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平
首个 AI 程序员 Devin,现身明星创业公司内部群。为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。对话之专业,围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲
3/17/2024 5:15:57 PM
远洋
基于生成式 AI 技术,汤姆猫正在研发一款语音交互陪伴机器人
感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”,披露了公司在 AI 领域的布局。据介绍,汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品,已初步完成主要功能的测试,公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人,预计将为公司业务带来全新增长空间。汤姆猫透露,此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision
Pr
3/11/2024 9:04:56 AM
浩渺
2024国际自动驾驶挑战赛正式开始
新赛题:七大赛道,赛题新颖,全方位覆盖相关领域最新最热话题,充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金:总奖金池超过12万美金,单赛道最高奖金可达2.7万美金。据不完全统计,奖金额度在CVPR 2024百个论坛中最高。重原创:加强基础研究探索,坚持四个面向。以原创性与科学研究价值作为主要衡量指标,并不单靠成绩排名。采取原创方案加性能指标两者结合的方式进行综合排序。2024年3月1号,2024国际自动驾驶挑战赛正式启动。本次挑战赛由上海人工智能实验室主办,并联合多家国内外机构共同举办。多位国内外知名专
2/29/2024 11:33:00 AM
新闻助手
距离“全自动”漏洞挖掘又近了一步!腾讯安全大数据实验室论文入选ACM CCS 2023
计算机领域国际权威学术顶会ACM CCS 2023于11月26日在丹麦哥本哈根开幕。腾讯安全大数据实验室团队论文《Hopper: Interpretative Fuzzing for Libraries》被大会收录,昨天,实验室研究员谢雨轩受邀出席大会进行主题分享。该论文提出了解释性模糊测试(Interpretative Fuzzing)方法,展示了如何基于动态反馈来学习API内外的约束进行代码自动化生成,从而在没有任何外部专家知识的前提下生成有效可用的代码调用方式,并且根据这些代码来挖掘漏洞。该研究方法的出现旨在
11/29/2023 5:08:00 PM
新闻助手
ICCV 2023 Oral | 如何在开放世界进行测试段训练?基于动态原型扩展的自训练方法
提高模型泛化能力是推动基于视觉的感知方法落地的重要基础,测试段训练和适应(Test-Time Training/Adaptation)通过在测试段调整模型参数权重,将模型泛化至未知的目标域数据分布段。现有 TTT/TTA 方法通常着眼于在闭环世界的目标域数据下提高测试段训练性能。可是,在诸多应用场景中,目标域容易受到强域外数据 (Strong OOD) 数据的污染,例如不相关的语义类别数据。在该场景又可称为开放世界测试段训练 (OWTTT),在该场景下,现有 TTT/TTA 通常将强域外数据强行分类至已知类别,从而
9/13/2023 3:12:00 PM
机器之心
强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程
引入密集强化学习,用 AI 验证 AI。自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场上买到。导致这一现象的
3/23/2023 5:38:00 PM
机器之心
SOTA!模型社区更新日志
2023.10.20 平台更新优化了搜索体验,提升了搜索准确性调整了项目主页信息结构,提高了项目主页获取信息效率项目主页进行了移动端适配,可在手机上轻松浏览项目主页、获取项目信息上线了「综合热榜」、「Agent热榜」允许了部分用户浏览小土终端实测频道下线了旧版「发现」、「找SOTA」模块修复了已知的问题,并进行了系统稳定性的提升2023.09.01 平台更新SOTA!模型平台登录流程增加了实名认证流程修复了已知问题,提升了稳定性及用户体验「小土同学」接入了8个新的可进行推理测试的服务:a. CodeLlama-7b
3/13/2023 11:00:00 AM
SOTA模型
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
MyShell ShellAgent 2.0发布:一句话创建App,零前端的AI革命来袭
因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历
AI视频记忆革命来了!Memories.ai获800万美元融资,挑战千万小时视频分析极限
Memories AI携全球首个人工智能视觉记忆模型亮相,获800万美元种子轮融资
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
LLM
苹果
神经网络
Claude
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
具身智能
字节跳动
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用