AI在线 AI在线

理论

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。 1.这并非简单地在图片上“加字”。 Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。
8/8/2025 2:27:50 PM

吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪

人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
8/8/2025 2:27:22 PM

GPT-5将如何重塑IT团队、开发者与职场AI的未来

OpenAI发布了其大型语言模型的最新版本GPT-5,目前,开发人员和ChatGPT用户已可使用该版本,它为AI在商业和IT环境中的应用带来了一些实质性变革。 与之前的版本不同,GPT-5在后台采用了一种新方法,它不再让用户根据速度或准确度来选择不同的模型,而是能即时决定如何响应,如果任务简单,它会快速响应,如果任务更复杂,它会切换到更深入的推理引擎,用户还可以提示它“逐步思考”,以触发更周全的回答。 GPT-5的另一个重大变化是其安全处理方式,旧版本常常直接拒绝回答某些问题,而GPT-5则采用了不同的方法,它不会中断对话,而是尝试在遵守安全规则的同时,结合上下文进行回应。
8/8/2025 2:06:52 PM
Sinisa

告别上下文溢出:MemTool如何优化LLM智能体的工具记忆管理

大家好,我是肆〇柒。 近期,普华永道(PricewaterhouseCoopers)商业技术与创新办公室的研究团队在LLM智能体技术领域取得了一些成果,他们提出的MemTool框架为解决多轮对话中动态工具调用的短期记忆管理问题提供了系统性解决方案。 关键发现包括:推理型LLM在自主代理模式下可实现90-94%的工具移除效率工作流和混合模式实现了跨模型一致的高移除效率(90% )工具移除效率与任务完成率存在解耦特性,需根据场景权衡选择系统提示工程和模型选择对MemTool性能有决定性影响在构建智能对话系统时,你是否遇到过这样的困扰:当LLM 智能体与用户进行多轮对话时,随着对话轮次增加,系统不断加载新工具却无法有效清理旧工具,导致上下文窗口迅速饱和,最终影响对话质量和系统稳定性?
8/8/2025 2:06:48 PM
肆零柒

特斯拉Dojo超算团队突然解散!20人骨干被老领导打包带走

特斯拉上个月还在倒计时Dojo二代芯片量产,现在却突然宣布解散Dojo团队——那个曾被寄予“为特斯拉市值狂增5000亿”厚望的Dojo超级计算机团队,终究没能熬过这个夏天。 消息公布后,特斯拉股价在盘后小幅下跌。 Dojo解散,前负责人也另起炉灶办起了自己的DensityAI,来研发用于驱动汽车和汽车行业人工智能数据中心芯片、硬件和软件。
8/8/2025 2:00:10 PM

GPT-5:没有AGI,失望和天花板,最具竞争力的可能是定价

GPT-5 发布速记:刚看完GPT-5发布会,我对GPT-5整体感觉都已经在标题里了。 整个发布会一上来就出现多个错误图片,瞬间刷爆整个网络。 而Sam Altman 一直在发推说GPT-5有多好,比如代码能力远超vibecoding的范围。
8/8/2025 9:44:54 AM

GPT-5,AI的「登月时刻」来了!奥特曼现场发布,三位一体博士级智能体

刚刚,万众期待的GPT-5正式发布! 发布会仅仅20分钟后,我们断定,这就是「AI的登月时刻」。 GPT-5不仅仅是GPT-4的版本迭代,GPT-5是一场真正的智能范式跃迁!
8/8/2025 9:29:29 AM

硅谷AI大佬都在造末日地堡:小扎夏威夷修了465平米,奥特曼承认有加固地下室

科技巨头、亿万富翁、AI押注者&话事人……但你可能没注意到,除了这些身份之外,奥特曼和扎克伯格还有个鲜为人知的共同点:末日堡垒建造者。 所谓末日堡垒,指的是在危机时刻可以长期生存的地下避难所,具备防灾、储粮、自给自足等功能,是科技富豪们眼中的最后保险。 据Wired报道,这个夏天,小扎斥6500万美元巨资,又悄悄在夏威夷考艾岛北部海岸买了962英亩的牧场土地。
8/8/2025 9:17:46 AM

AI修Bug新SOTA:SWE-Bench Lite60.33%修复率,像人一样能积累经验,中科院软件所出品

AI学会像人一样修Bug了! “这个Bug我上周刚修过”“这个报错怎么又来了”“新人怎么又在同一个地方踩坑”……如果你是程序员,是否经常遇到这些令人抓狂的场景? 现有的AI修复工具就像“金鱼”,只有7秒记忆,每次遇到问题都从零开始。
8/8/2025 9:16:00 AM

谷歌Genie 3突破实时壁垒:24fps生成3D世界,AI游戏时代真正来临

你有没有想过,有一天AI能够像电影特效师一样,仅凭一句话就能实时生成一个完整的、可以游玩的3D世界? 根据最新报道,谷歌DeepMind刚刚发布的Genie 3做到了这一点,而且远远超出了我们的预期。 这不再是技术演示,而是真正可用的交互平台。
8/8/2025 9:15:54 AM
阿丸笔记

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

强化学习 任意一张牌,往往就是王炸。 专注于LLM RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。
8/8/2025 9:15:00 AM

谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏

全网疯玩Genie3,惊叹:这才是真正的大世界! 距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化:原本啥也看不清,突然耳聪目明一跃来到720P画质,原来只有几十秒的限时体验,现在也直接拉长到好几分钟。 世界类型也真正实现多重宇宙折叠,自然、历史、奇幻应有尽有。
8/8/2025 9:13:00 AM

又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体

只靠说话和AI眼镜互动,确实有点不方便。 现在新玩法来了! 数字替身帮你“隔空抓物”,混合现实即时选择现实世界的物体作为上下文。
8/8/2025 9:04:00 AM

字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限

强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。 一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。 这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。
8/8/2025 9:02:00 AM

人工智能能否实现类人记忆?探索思想上传之路

译者 | 涂承烨审校 | 重楼记忆帮助人们记住“我是谁”。 它保存着人们的经历、知识和情感。 过去,记忆被认为只存在于人脑中。
8/8/2025 8:01:07 AM
涂承烨

供应链管理中高价值AI应用场景的识别

AI已融入供应链的几乎所有解决方案中,成为提升销售额和利润率、同时引发人们浓厚兴趣的手段。 在竞争日益激烈的环境中,许多企业为抢占先机或保持竞争力,纷纷急于采用AI技术,但有时方式过于表面、效果不佳,最终未能创造真正的价值。 例如,在供应链应用领域,只有一小部分AI应用能通过显著的投资回报率创造真正的价值,AI已成为现实,但许多解决方案无法有效满足企业需求,更不用说克服实际的供应链挑战了,因此,关键是要透过表象,确保任何实施都能兑现承诺。
8/8/2025 7:05:00 AM
Fabrizio

大模型训练“练兵千日”,别输在AI推理“用兵一时”

2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。
8/8/2025 6:00:00 AM
朱飞

从GPT-OSS谈谈大模型算法和Infra演进

TL;DRgpt-oss开源了,整个模型架构的设计真的是非常的simple & elegant。 本文结合一些前段时间一些Infra相关的争议和自己开发Agent相关的分析, 来对未来模型架构演进做一些分析。 OverviewOpenAI这次开源的是gpt-oss-20b 和 gpt-oss-120b两个模型。
8/8/2025 4:11:00 AM
zartbot