AI
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”? 比如,“写一篇10,000字的长文,详细分析某个议题。 ”看似简单的要求,实际却往往让这些模型“力不从心”:不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。
5/30/2025 9:10:00 AM
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为:大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。
5/30/2025 9:05:00 AM
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。 第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。 宋睿华的团队主要研究方向为多模态理解、生成与交互。
5/30/2025 9:00:00 AM
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。 合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。 通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。
5/30/2025 8:55:00 AM
LLM省钱大测评!48块GH200,首个百亿级参数量实证
近年来,大型语言模型(LLM)如GPT系列取得了革命性进展,在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。 然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。 高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。
5/30/2025 8:50:00 AM
100亿H20没卖出,英伟达狂赚1000多亿破纪录!
英伟达狂赚不止,再次交出了亮眼成绩单! 今早,英伟达2026财年第一季度财报公布,再次破纪录:营收达441亿美元,较上一季度增长12%,较去年同期增长69%数据中心收入达391亿美元,较上一季度增长10%,较去年同期增长73%数据中心占据收入的大头,其次为游戏。 受新出口许可要求影响,英伟达因H20库存积压及采购义务,在本季度计提了45亿美元费用。
5/30/2025 8:40:00 AM
DeepSeek免费超越GPT-4?
DeepSeek 最新发布了 R1-0528 版本,这次更新的最大亮点是"深度思考"能力大幅提升。 很简单:进入 DeepSeek 官网、APP 或小程序,在对话界面开启"深度思考"功能即可。 图片API 接口也同步更新,调用方式保持不变。
5/30/2025 7:40:56 AM
程序员NEO
DeepSeek-R1小升级!体验后有被惊艳到
今年1月,DeepSeek-R1横空出世,凭借在性能和成本方面展现出的巨大优势,迅速成为全球人工智能(AI)领域瞩目的焦点。 时隔四个月,这款大模型迎来了小升级。 5月28日,DeepSeek正式发布了R1的最新版本——DeepSeek-R1-0528。
5/30/2025 6:57:53 AM
Yu
随着经济压力加大,零售商利用AI来优化成本
面对关税和消费者支出模式带来的压力,零售企业正依赖AI和其他技术来优化成本,以保持竞争力。 随着许多零售商为今年剩余时间内的增长放缓做准备,因为市场波动仍在持续,Ralph Lauren Corporation、Revolve . Group和Williams-Sonoma正优先考虑对AI工具的投资,希望这些工具能减轻经济逆风的影响,并改善客户和员工的体验。
5/30/2025 6:00:00 AM
Lindsey
【一文读懂AI核心要点】什么是大模型?你真的知道“大模型”和“大语言模型”的区别吗?
在人工智能领域,“大模型”和“大语言模型”这两个词经常被提及,很多人甚至把它们当成了同义词。 其实,这两者之间存在本质的区别。 今天,我就带你深入剖析什么是大模型,什么是大语言模型(LLM),它们的区别在哪里,以及如何利用这些模型提升你的项目效率。
5/30/2025 5:00:00 AM
爱学习的蝌蚪
当测试遇见 AI:用 Streamlit+AutoGen+Deepseek 构建智能用例生成器
一、引言: 测试用例的 AI 进化之路1.1 行业困境:手工用例的三重效率枷锁在软件测试领域,测试用例是质量保障的核心载体。 据 ISTQB 2024 全球测试报告揭示:测试用例承担着 70%的质量决策责任,但是传统手工编写方式正面临三大痛点:1.1.1 痛点一:效率瓶颈 —— 百级用例的时间黑洞数据支撑:腾讯云测试效能调研显示:某电商平台年编写用例 1.2w 条,其中 68.3% 因需求变更需重复修改。 某金融 APP 密码修改功能开发中,23 条用例编写耗时占项目周期 42% (相当于 1 个资深测试工程师 80 工时)。
5/30/2025 3:33:00 AM
魏文晏
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
当前顶尖AI模型是否真能“看懂”物理图像? 全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%。 新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。
5/30/2025 3:10:00 AM
使用Agno实现AI代理设计的五个层级,由易到难
AI代理设计指南本指南将代理设计分解为五个实际难度级别,每个级别均提供可运行的代码示例。 无论开发者是初学者还是处理现实世界的复杂任务,本指南都能帮助避免常见陷阱,构建真正有效的代理。 这些级别包括:•级别1:带工具和指令的代理•级别2:带知识和记忆的代理•级别3:带长期记忆和推理的代理•级别4:多代理团队•级别5:代理系统以下逐一介绍各级别。
5/30/2025 2:10:00 AM
AI研究生
奖励推理模型(RRM):革新奖励模型的新范式
大家好,我是肆〇柒。 在人工智能领域,大型语言模型(LLM)的出现,如 GPT 系列模型,彻底改变了我们对机器智能的认知。 这些模型通过海量数据预训练,能生成自然、流畅且富有逻辑的文本,广泛应用于聊天机器人、文本生成、自动翻译等场景。
5/30/2025 2:00:00 AM
肆零柒
AI公司禁止用AI申请工作?Anthropic又改口了!
最近,一则关于AI公司的新闻引发了热议:全球领先的AI初创公司 Anthropic 宣布,他们将 取消禁止求职者在申请中使用AI工具的规定。 这条消息让人不禁感叹,连AI公司都在重新定义AI的使用边界,难道我们真的已经进入了“人机共生”的新时代? 禁止用AI申请工作?
5/30/2025 1:30:00 AM
云原生SRE
数据架构师在人工智能支持中的作用
不可避免的人工智能炒作周期除非你一直生活在与世隔绝的地方,或者试图通过电话预约全科医生,否则你不可能注意到有关人工智能及其各种用途的炒作已经达到了狂热的程度。 现在,每个有价值的 PowerPoint 演示文稿都至少三次提到DeepSeek,两次提到“转型机遇”,以及至少一次关于 Agentic 涅槃的诱人承诺。 不可避免的是,在这种膨胀的期望达到顶峰之后,我们会进入沮丧的低谷,然后最终走出困境,虽然伤痕累累,但更加睿智,迈入生产力的高地。
5/30/2025 12:20:00 AM
晓晓
Anthropic CEO失业暴论引争议!AI将在5年内消灭一半白领入门岗,失业率或飙升至20%!阿莫多:该征收Token税了
今天刷 Reddit,刷到一条炸裂热帖。 没错,Anthropic 的 CEO 阿莫多(Dario Amodei),也就是“Claude 之父”,又放出重磅发言了:人工智能可能在未来一到五年内消灭一半的初级白领岗位——导致10%-20%的失业率飙升他直言,AI 公司和政府必须停止“粉饰太平”,正视现实:技术、金融、法律、咨询等多个白领行业,尤其是年轻人刚起步的岗位,正在被AI逼向悬崖。 顺着这张图,小编顺藤摸瓜挖到了原出处——知名美媒 Axios 的一篇深度报道,题目也是相当血腥——《幕后:AI引发的白领大屠杀》。
5/29/2025 6:45:37 PM
伊风
微软 CEO 纳德拉:我更关注 AI 为现实世界带来的实际影响,而非单纯追求 AGI
微软CEO纳德拉表示,AI技术应注重实际影响而非单纯追求AGI。他批评科技行业过于自恋,强调技术应造福社会。微软与OpenAI的合作关系出现裂痕,微软正开发自己的AI模型。#人工智能##微软#
5/29/2025 6:28:07 PM
远洋
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
AI新词
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
蛋白质
腾讯
开发者
Claude
苹果
AI for Science
Agent
生成式
神经网络
机器学习
3D
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
华为
工具
RAG
AI设计
大语言模型
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
预测
视频生成
视觉
AGI
伟达
架构
Transformer
神器推荐
亚马逊
特斯拉
Copilot
DeepMind
应用