资讯列表
小红书联合复旦开源 InstanceAssemble:实现 AI 图像精准排版控制
近日,小红书与复旦大学联合发布了在布局控制生成(Layout-to-Image)领域的最新研究成果——InstanceAssemble。 这项技术旨在解决 AI 绘画中长期存在的“构图难”问题,通过创新的机制实现了从简单到复杂场景的精准图像生成。 据悉,相关论文已被人工智能顶级会议 NeurIPS2025收录。
Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍
在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。 当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案 —— 正确的参数格式、有效的 API 用法、甚至是直接可用的替代方案。 然而,静态的 Prompt 无法让 Agent 从这些反馈中 “学到教训”,导致它们陷入 “错误循环”:承认失败,却重复同样的动作。
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
近日,多模态视频理解领域迎来重磅更新! 由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。 论文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation,TPAMI 2025arXiv 链接: 数据集官网: 数据集下载: 评测平台: 单位:复旦大学、上海财经大学、南洋理工大学作为目前该领域最具有代表性的数据集之一,MeViSv2 围绕复杂动作推理来挑战现有模型的多模态处理能力,其包含 2,006 个视频、8,171 个目标及 33,072 条文本 / 音频表达,通过新增 15 万秒音频数据实现了向原生多模态的进化。
灵光公布最新数据,上线1个月用户成功创建1200万个闪应用
12月26日,通用AI助手灵光宣布:灵光用户已成功创建1200万个闪应用。 闪应用是灵光三大功能之一,用户无需任何编程基础,用自然语言描述自己的需求,灵光便可最快30秒生成一个可编辑、可交互、可分享的小应用。 闪应用创建数的增长,显示出这一产品形态正在被普通用户快速接受与持续使用。
对话框变身编辑器:OpenAI 低调上线“格式化模块”,ChatGPT 也能像 Word 一样排版
长期以来,用户在利用 ChatGPT 撰写长篇邮件或博文时,往往需要忍受单一的聊天文本格式。 生成完毕后,通常还需将其复制到第三方编辑器中进行二次调整。 为了打破这一交互瓶颈,OpenAI 近日低调推出了一项名为“格式化模块”(Formatting Blocks)的新功能,旨在让 AI 的生成结果更加符合专业文档的处理直觉。
国内首个游戏角色仿生机器人“方承意”亮相:逆水寒 x 首形科技打造,人类皮肤纹理,可交流对话
AI在线 12 月 26 日消息,网易《逆水寒》手游今日官宣,携手机器人科技企业首形科技,成功打造出了国内首个游戏角色仿生机器人“方承意”。 该机器人拥有人类的皮肤纹理和温度,拥有可以交流对话的能力,将于 12 月 27-28 日出席 CP32 pre 漫展,玩家可近距离与他见面、互动。 在逆水寒中,基于网易伏羲 AI 技术,玩家能和方承意自由地互动、对话,他拥有自己的灵魂和温度。
离谱:256G内存比RTX5090还贵,你要为AI买单吗?
太贵了。 时值美国圣诞购物季,喜欢电子产品的朋友们,却发现了这样恐怖的景象:英伟达的顶配 GPU RTX 5090 官方起售价为 1999 美元(经过市场溢价可能达到了 3000 美元以上),而一根单条 256GB 的 DDR5 内存如今的市场价却也飙升到了 3500-5000 美元之间。 电脑内存,这个长期以来在配置里不占大头的组件,现在的价格已经涨到了令人乍舌的程度,这在个人消费领域已经成了个荒诞但又现实的写照。
全异构、全异步的RLinf v0.2尝鲜版发布,支持真机强化学习,像使用GPU一样使用你的机器人!
在具身智能领域,特别是如何构造一个高泛化性的 VLA,数据之争一直存在:仿真数据 vs 真机数据。 数据来源不同,导致算法设计迥然不同,进一步对系统设计提出了更多的要求。 做 infra 的目标是做好服务,支持不同技术路线的探索。
“京东 AI 购”独立 App 内测,能让智能体帮忙购物、点外卖
AI在线 12 月 26 日消息,据《读佳》今日报道,京东正在打造购物和生活服务的超级入口“京东 AI 购”App,产品定位“会思考、能购物、关心你”的生活服务助手,目前处于内测阶段,内置京东自研的言犀大模型,对标的或是美团旗下的 AI 服务助手工具 App“小美”。 “京东 AI 购”App 首页打破“你问我答”的传统模式,主动推送购物攻略、优惠消息、穿搭灵感与生活服务,用户在输入框中输入“我想要”即可召唤私人买手智能体,获取消费决策参考与商品匹配。 “京东 AI 购”还支持一键生成订单,用户输入“再点一杯昨天喝的鲜橙美式”,就可以一键创建订单,支付即可下单。
硬刚豆包!联想 CES 战略级 AI 曝光:打通 PC 手机生态的“超级智能体”来了
据 AIbase 报道,联想集团计划在即将举行的 CES 期间,正式发布首款面向全球市场的战略级应用——“AI超级智能体”。 这一动作标志着联想在 AI 应用层面的全面发力,其目标直指字节跳动近期热议的“豆包手机助手”。 尽管该智能体的官方名称尚未公布,但从接近联想的知情人士处获悉,其功能复杂度与生态协同能力较豆包更为强悍。
全球首个AI影响力代理,Loomi用IDE思维重塑内容创作
2023年以来,AI掀起的技术革命席卷各行各业,Agent成为AI落地的主要载体。 在内容创作领域,创作者们面临着前所未有的挑战:每周花20小时创作,却只换来200个阅读;选题枯竭、改稿到深夜、多平台适配效率低——这些问题正在消耗80%的创作时间。 作为内容创作领域的探索者,Loomi深度洞察这些痛点。
研究称 ChatGPT、Claude 等模型过度高估了人类的逻辑水平
一直以来,人们都在担心 AI 是否会超越人类智慧,但最新的研究却揭示了一个有趣的现象:像ChatGPT和Claude这样的顶尖 AI 模型,实际上在“过度神话”人类的理性。 这些模型往往假设人类在做决策时会表现出极高的逻辑性和战略性,而现实情况并非如此。 研究人员通过经典的博弈论实验“凯恩斯选美比赛”(猜数字游戏)对 AI 进行了测试。
HodlHer 完成 150 万美元融资,构建 AI 驱动的 Web3 操作系统
HodlHer 近日宣布完成 150 万美元的战略融资,吸引了 Chain Capital、Bitrise Capital、CGV 等投资者的参与。 这笔资金将主要用于推动 HodlHer 核心技术基础 HodlOS 的发展和生态扩展,增强其在情感交互、多代理系统以及链上代理经济方面的技术能力,助力下一代 Web3 操作系统的部署。 HodlHer 致力于解决一个根本性挑战:如何使智能代理不仅能够理解用户的情感和意图,还能在日益复杂的 Web3 环境中安全高效地代表用户行动。
意大利勒令Meta暂停WhatsApp AI禁令!欧盟同步调查,Meta被指滥用市场支配地位打压竞品聊天机器人
全球科技监管再出重拳。 意大利竞争管理局(AGCM)于 12 月 25 日宣布,紧急叫停Meta禁止第三方AI聊天机器人接入WhatsApp Business API的政策,理由是该行为涉嫌滥用市场支配地位,损害AI服务市场竞争与消费者利益。 此举紧随欧盟委员会本月启动的同类调查,标志着欧洲正对Meta在AI入口布局展开系统性反垄断审查。
1美元跑200个浏览器任务!开源浏览器操控神器BU-30B-A3B-Preview横空出世
近日,知名开源浏览器自动化项目BrowserUse正式发布了其首个自研大语言模型——BU-30B-A3B-Preview。 该模型一经上线便引发广泛关注,被誉为“网页代理(Web Agent)领域的全新标杆”,以极致的成本效益和实时速度,彻底颠覆了AI浏览器操作的门槛。 模型架构:MoE设计,实现“大脑强大、身材轻盈”BU-30B-A3B-Preview采用混合专家(MoE)架构,总参数规模达30B(300亿),但实际推理时仅激活3B(30亿)参数。
OpenAI 与博通达成 10GW 定制芯片合作,2026 年推出新一代 AI 基础设施
在人工智能领域,OpenAI 与博通(Broadcom)达成了一项重大的合作,标志着传统 “仅使用 GPU” 的时代即将结束。 双方已经完成了定制 AI 推理引擎的设计阶段,预计将在 2026 年下半年首次投入数据中心使用。 这一合作计划将在未来五年内部署高达 10 吉瓦(GW)的计算能力,将彻底改变人工智能的经济格局。
三星推出一站式 AI 整合频道:人工智能技术让本世纪初老剧集重焕光彩
AI在线 12 月 26 日消息,三星电子韩国当地时间今日宣布在其广告支持型免费流媒体平台 Samsung TV Plus 推出一站式 AI 整合频道,通过人工智能让本世纪初的电视剧在 20 年后重焕光彩。 三星在一站式 AI 整合频道中利用 GenAI 技术对剧集进行画质高清化(降噪、改善色彩表现、增强细节)、音质修复处理(分离并还原低频人声),并添加了 AI 当集剧情简介和 AI 过往剧情回顾功能。
OpenAI 上线富文本编辑,让你像用 Word 一样处理 ChatGPT 生成内容
AI在线 12 月 26 日消息,科技媒体 bleepingcomputer 昨日(12 月 25 日)发布博文,报道称 OpenAI 为优化 ChatGPT 的用户界面(UI)布局,低调上线“格式化模块”(Formatting Blocks)功能,能根据当前执行的任务类型进行自适应调整内容。 在此次更新之前,用户使用 ChatGPT 撰写邮件或博客文章时,系统仅能以标准的聊天回复形式展示内容。 虽然这并不影响大语言模型(LLM)的核心能力,但在处理长文本或特定格式文档时,这种非结构化的展示方式并非最佳体验。