测试
程序员挑战极限:在古老的 DOS 系统上成功运行 Llama 2 模型
在科技飞速发展的今天,一位勇敢的程序员选择回归经典,尝试在老旧的 DOS 环境中运行 Meta 公司最新发布的大语言模型 Llama2。 Yeo Kheng Meng,这位因开发 ChatGPT DOS 客户端而声名鹊起的程序员,花费了一个周末的时间,成功地将这个大型语言模型移植到传统计算环境中,展现了无与伦比的技术创造力。 项目的起步得益于开源代码的便利。
4/30/2025 9:01:01 AM
AI在线
中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20
得分比第二名翻倍,成本却仅为1/20? o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。 根据ARC Prize官方介绍,本轮测试得出的关键结论如下:o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%。
4/23/2025 11:19:31 AM
量子位
满血o3降智和幻觉倍增的原因可能找到了
OpenAI推出的满血O3“跑分”(Benchmark)貌似又被独立测试揭穿是刷榜了,而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因? 你可能要问了,一个数学基准测试,与降智和幻觉有什么关系? 事情要从去年12月说起。
4/22/2025 9:18:57 AM
AI寒武纪
o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
OpenAI新模型发布后,大家体感都幻觉更多了。 甚至有人测试后发出预警:使用它辅助编程会很危险。 图片具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩,甚至还会说是用户的错。
4/21/2025 4:25:58 PM
Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告
Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:失望,非常失望不知道他们后训练怎么搞的,总之不太行在[各种测试]2中失败……还被做成表情包调侃,总结起来就是一个“差评如潮”。 具体来看,大家的抱怨主要集中在代码能力。 最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。
4/8/2025 3:44:00 AM
Llama 4训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅
Meta前脚刚发Llama 4,后脚就有大佬请辞了! 一亩三分地的爆料贴称,经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。 为了蒙混过关,高层甚至建议:在后训练阶段中,将多个benchmark测试集混入训练数据。
4/7/2025 1:24:52 PM
新智元
Gemini 2.5疯狂反扑OpenAI,智商130碾压人类!一键3D打印蛋糕、秒解魔方
要说这几天AI圈最火的模型,那肯定非GPT-4o莫属。 为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出,奥特曼带队上线了GPT-4o的原生图像生成功能。 随之而来的是一股吉卜力风席卷全网,火速出圈儿。
3/31/2025 10:08:00 AM
新智元
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元
真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」
最近一段时间,智能体(Agent)再次成为 AI 领域热议的焦点。 2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档搜索。 得益于在浏览任务上的强化学习训练,DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。
3/17/2025 12:52:00 PM
机器之心
武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法
随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天? ? ?
3/5/2025 8:40:00 AM
量子位
摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作
无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪
今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。 目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。 例如,开发人员需处理全技术栈的工作,要考虑代码库间的复杂交互和权衡。
2/19/2025 9:40:58 AM
AIGC开放社区
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
你以为你在打游戏,其实是在给模型做评测! 就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。 现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。
2/13/2025 10:00:00 AM
新智元
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
2/5/2025 2:32:00 PM
机器之心
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理
2025年主导AI的将是第3代scaling law:测试时计算。 正如Michael Dell转述所言:第一代scaling:预训练像读大学第二代scaling:微调像读博士第三代scaling:测试时计算就像深度思考和推理近日,计算机强校CMU机器学习系,发表博客文章解释LLM测试时计算优化问题,特别是涉及到的元强化学习(meta-RL)问题。 文章亮点如下:监督学习只是在训练模型「答案是什么」,只要学习「如何解答」,模型泛化性会更好。
1/27/2025 12:34:02 PM
新智元
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键
DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
1/20/2025 8:46:00 AM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉