AI在线 AI在线

测试

程序员挑战极限:在古老的 DOS 系统上成功运行 Llama 2 模型

在科技飞速发展的今天,一位勇敢的程序员选择回归经典,尝试在老旧的 DOS 环境中运行 Meta 公司最新发布的大语言模型 Llama2。 Yeo Kheng Meng,这位因开发 ChatGPT DOS 客户端而声名鹊起的程序员,花费了一个周末的时间,成功地将这个大型语言模型移植到传统计算环境中,展现了无与伦比的技术创造力。 项目的起步得益于开源代码的便利。
4/30/2025 9:01:01 AM
AI在线

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

得分比第二名翻倍,成本却仅为1/20? o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。 根据ARC Prize官方介绍,本轮测试得出的关键结论如下:o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%。
4/23/2025 11:19:31 AM
量子位

满血o3降智和幻觉倍增的原因可能找到了

OpenAI推出的满血O3“跑分”(Benchmark)貌似又被独立测试揭穿是刷榜了,而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因? 你可能要问了,一个数学基准测试,与降智和幻觉有什么关系? 事情要从去年12月说起。
4/22/2025 9:18:57 AM
AI寒武纪

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

OpenAI新模型发布后,大家体感都幻觉更多了。 甚至有人测试后发出预警:使用它辅助编程会很危险。 图片具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩,甚至还会说是用户的错。
4/21/2025 4:25:58 PM

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:失望,非常失望不知道他们后训练怎么搞的,总之不太行在[各种测试]2中失败……还被做成表情包调侃,总结起来就是一个“差评如潮”。 具体来看,大家的抱怨主要集中在代码能力。 最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。
4/8/2025 3:44:00 AM

Llama 4训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅

Meta前脚刚发Llama 4,后脚就有大佬请辞了! 一亩三分地的爆料贴称,经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。 为了蒙混过关,高层甚至建议:在后训练阶段中,将多个benchmark测试集混入训练数据。
4/7/2025 1:24:52 PM
新智元

Gemini 2.5疯狂反扑OpenAI,智商130碾压人类!一键3D打印蛋糕、秒解魔方

要说这几天AI圈最火的模型,那肯定非GPT-4o莫属。 为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出,奥特曼带队上线了GPT-4o的原生图像生成功能。 随之而来的是一股吉卜力风席卷全网,火速出圈儿。
3/31/2025 10:08:00 AM
新智元

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元

真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」

最近一段时间,智能体(Agent)再次成为 AI 领域热议的焦点。 2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档搜索。 得益于在浏览任务上的强化学习训练,DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。
3/17/2025 12:52:00 PM
机器之心

武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天? ? ?
3/5/2025 8:40:00 AM
量子位

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位

全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。 目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。 例如,开发人员需处理全技术栈的工作,要考虑代码库间的复杂交互和权衡。
2/19/2025 9:40:58 AM
AIGC开放社区

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

你以为你在打游戏,其实是在给模型做评测! 就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。 现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。
2/13/2025 10:00:00 AM
新智元

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
2/5/2025 2:32:00 PM
机器之心

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

2025年主导AI的将是第3代scaling law:测试时计算。 正如Michael Dell转述所言:第一代scaling:预训练像读大学第二代scaling:微调像读博士第三代scaling:测试时计算就像深度思考和推理近日,计算机强校CMU机器学习系,发表博客文章解释LLM测试时计算优化问题,特别是涉及到的元强化学习(meta-RL)问题。 文章亮点如下:监督学习只是在训练模型「答案是什么」,只要学习「如何解答」,模型泛化性会更好。
1/27/2025 12:34:02 PM
新智元

史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1

史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
1/20/2025 8:46:00 AM
量子位