模型
调整训练数据出场顺序,大模型就能变聪明!无需扩大模型/数据规模
模型训练重点在于数据的数量与质量? 其实还有一个关键因素——数据的出场顺序。 对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。
9/8/2025 8:50:00 AM
字节发了个机器人全能大模型,带队人李航
机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。 经常做机器人的朋友都知道,以前想让机器人干活,得先解决一个烦人的问题——模块之间的信息代沟。
9/8/2025 8:45:00 AM
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
总参数达到1万亿,阿里迄今为止最大的模型来了! 没错,就是前几日大家期待已久的Qwen3-Max-Preview (Instruct)。 1万亿啥概念?
9/8/2025 8:40:00 AM
阿里最新模型真的猛! 真肝实测:硬刚GPT5,技压DS、月暗,情商比GPT5高,读懂下棋大爷淋雨4小时的倔犟,但我发现了一个问题
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)越来越有趣了! 连续两天,中国队一天推出了一个万亿参数模型。 昨天是Kimi的k2-0905,今天凌晨,则是阿里的Qwen3-Max-preview!
9/6/2025 6:54:33 PM
云昭
没PhD,算什么AI研究员!LeCun论文竟要28岁辍学生审批,发文「暗讽」内讧升级
Meta内部的AI大戏,剧情又加码了! 最近,首席科学家LeCun亲自下场,发了一篇帖子,字里行间疑似在「内涵」新BOSS——Alexandr Wang。 这是一段写给AI领域的记者和评论家们的话——在AI领域工作的人,并非都是「研究员」。
9/5/2025 1:57:28 PM
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。 何谓GUI grounding?
9/5/2025 10:11:01 AM
「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
今年8月,一款名为「纳米香蕉」的神秘AI图像编辑器轻松登顶Image Edit Arena榜首,直接把LMArena8月份的平台流量拉爆:流量暴增10倍,月活300万 。 该模型自在LMArena启动盲测以来,短短两周便吸引了超过500万次总投票,并单独赢得了250万 直接投票,创下历史最高参与度。 nano‑banana的神秘身份,也在LMArena社区引发广泛猜测。
9/5/2025 9:14:00 AM
DeepSeek正开发高级AI Agent模型,硬刚OpenAI
彭博消息,DeepSeek正在开发一款更高级的AI Agent模型,皆在与OpenAI等美国企业竞争。 据知情人士透露,这款AI Agent可在用户指令极少的情况下,帮助用户执行多步骤任务。 他们补充称,该系统还能基于自身过往行动进行学习并持续优化。
9/5/2025 9:03:46 AM
DeepSeek大招曝光?梁文锋督战超级智能体:能自主学习,或年底发布
DeepSeek再次叫板OpenAI? 就在今天,彭博社爆料出重磅内幕消息:DeepSeek憋了一个超级大招——真正的AI智能体(AI Agent)! DeepSeek R1过去的开源之王今年1月,DeepSeek R1模型以仅数百万美元的成本,在多项基准测试中,实现了对标甚至超越OpenAI顶尖产品的表现。
9/5/2025 9:01:40 AM
83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
存款60美元,欠款15000美元。 82岁的Luis Bautista仍要为养老努力工作。 他创办的科技公司,他对AI的学习热情,在推动他前行。
9/5/2025 8:57:00 AM
系统梳理 Test-Time Compute 的主要实现路径
当前大语言模型(LLM)最有趣的研究趋势之一,是推理模型的兴起 —— 这类模型在给出答案前会花费时间进行思考。 这种技术通常被称为「测试时计算」(test-time compute),即在推理阶段进行深度推理。 其实在模型推理过程中应用搜索或深度推理的思路早已存在(例如 AlphaZero[1],以及 Transformer 诞生之前就尝试用类似方法解决旅行商问题的论文[2]),但 o1 的出现让这一理念重新回到了主流视野。
9/4/2025 5:16:59 PM
OpenAI免费开放ChatGPT Projects,3大功能太香了
今天凌晨3点50,OpenAI宣布向免费版ChatGPT开放Projects(项目)功能。 Projects功能最早发布于2024年的12月14日,也就是「AIGC开放社区」为大家介绍OpenAI连续12天技术直播的第7天。 自发布以来Projects一直是用户最喜欢的功能之一,不过是付费用户的专属,现在终于免费开放了。
9/4/2025 9:13:22 AM
AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
2024年12月8日,诺贝尔物理学奖得主Hinton登台,发表了题为《玻尔兹曼机》的演讲。 当时,斯德哥尔摩大学Aula Magna礼堂内座无虚席,全球目光都集聚于此。 他深入浅出地分享了,自己与John Hopfield利用神经网络,推动机器学习基础性发现的历程。
9/4/2025 9:10:32 AM
奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
2022年,预言家放言:到2025年,押注90%的概率AI拿不下国际奥数IMO金牌。 然而仅仅两年,OpenAI与谷歌DeepMind双双击碎了悲观预言:LLM不仅提前「封神」摘金,还打破了对AI能力边界的想象。 从语言生成到逻辑推理,从通用能力到专业领域竞技,生成式AI正以惊人的速度越过每一道人类设下的「智力高墙」。
9/4/2025 9:07:26 AM
AI能否像人类一样“按步骤”推理?一项数学证明的答案
在过去几年里,大语言模型(LLM)与深度学习的浪潮席卷了几乎所有计算领域。 从医学诊断到金融建模,从化学分子设计到物理模拟,这些模型在推理任务上的表现一次次刷新了人们的认知。 它们不仅能处理复杂的自然语言,还能跨越模态边界,将图像、语音、代码等信息融会贯通,展现出惊人的“多才多艺”。
9/4/2025 1:45:00 AM
FleakenS
Nano Banana官方提示词来了,附完整代码示例
Nano banana正火爆全球,谷歌立马推出官方提示词指南。 下面先进行一些效果展示,看看它的强大之处。 借助Nano-banana、Seedance和Kling,梵高、蒙娜丽莎、戴珍珠耳环的少女都能在纽约中央公园里合照。
9/3/2025 2:01:41 PM
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
语音分离领域针对具有挑战性的 “鸡尾酒会问题”,随着深度神经网络 (DNN) 的发展,该领域取得了革命性的进展。 语音分离可以用于独立应用,在复杂的声学环境中提高语音清晰度。 此外,它还可以作为其他语音处理任务(如语音识别和说话人识别)的重要预处理方法。
9/3/2025 2:00:08 PM
其实,扩散语言模型在最终解码之前很久,就已确定最终答案
随着扩散语言模型(DLM)在各个领域的快速发展,其已成为自回归(AR)模型有力的替代方案。 与 AR 模型相比,DLMs 的主要优势包括但不限于:高效的并行解码和灵活的生成顺序。 尽管 DLMs 具有加速潜力,但在实际应用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 机制,以及快速并行解码所带来的显著性能下降。
9/3/2025 1:59:34 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉