AI在线 AI在线

资讯列表

极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

本文由 NUS ShowLab 主导完成。 第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。 共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。
6/3/2025 8:26:00 AM

让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%

人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推理。
6/3/2025 8:25:00 AM

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
6/3/2025 8:22:00 AM

零基础也能轻松上手!3款大厂出品的AI编程工具深度测评

生成式 AI 的不断发展,正在让设计与开发界限逐渐模糊。 今天,UI/UX 设计师的角色正在向「全链路」延伸。 能否快速验证设计落地的可行性、与开发者高效协作,甚至自主实现简单的前端逻辑,已成为衡量设计师竞争力的新维度。
6/3/2025 8:20:30 AM
Infinite AI

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。 问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少“短板”:比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。 又比如,无法只保护某个区域,如人脸、LOGO等。
6/3/2025 8:20:00 AM

斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创

好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好! 斯坦福最近披露了一组新发现,结果真的太亮眼了。 由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%——矩阵乘法(Matmul,FP32):性能达到PyTorch torch.matmul的101.3%。
6/3/2025 8:17:00 AM

陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

陶哲轩转发,AI搞数学证明的标准习题集来了! DeepMind最新开源形式化数学猜想库——猜想库收录了经典的形式化表述的数学猜想集合,例如,解析数论中的四个朗道问题。 不仅如此,资源库中还提供了各种代码函数,以方便用户对自然语言的数学猜想进行形式化的表述。
6/3/2025 8:15:00 AM

OpenAI 抛弃 Node.js,用 Rust 重写 AI 编程工具 Codex CLI

原版本主要基于 TypeScript 和 Node.js,但团队现已决定用 Rust 重写。维护者 Fouad Matin 表示,TypeScript 版本将持续修复 BUG,直到 Rust 版本在体验和功能上达到同等水平。
6/3/2025 8:13:08 AM
故渊

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅四步

近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。 与此同时,开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右,难以在多任务、多领域场景中与大型闭源模型相抗衡,尚未形成真正意义上的通用人工智能能力。 在此背景下,上海人工智能实验室联合东北大学、西北工业大学等机构,提出了Avengers框架,旨在探索开源小模型群体智能的新路径。
6/3/2025 8:12:00 AM

谷歌破解了 AI 最大难题(以及其他 19 个重大更新)

谷歌在 2025 年 I/O 大会上发布的内容,简直让人震惊。 这次更新涉及广泛,将极大提升你的工作效率,让你更快完成任务,成为更高效的人。 下面是谷歌 I/O 2025 的 20 个最疯狂 AI 更新盘点。
6/3/2025 8:10:52 AM
前端小智

全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用

在大语言模型技术迅猛发展的今天,各类AI智能体已广泛应用于科研和工业场景。 然而,在实际应用中,构建一个高效、稳定的多智能体系统仍面临诸多挑战:从智能体选型、提示词调试到工作流设计,流程复杂,成本高昂。 更重要的是,当前多智能体系统通常「部署即固化」,缺乏自我演化机制。
6/3/2025 8:09:00 AM

OpenAI 内部文件曝光:欲将 ChatGPT 打造成超级助手,挑战苹果 Siri 市场地位

OpenAI战略文件曝光,计划将ChatGPT打造成“超级助手”,挑战苹果Siri。文件显示,ChatGPT将具备广泛基础技能和深度专业能力,目标是成为用户随时可用的智能助手。#ChatGPT挑战Siri# #OpenAI战略#
6/3/2025 7:55:43 AM
远洋

谷歌 Gemini Live 功能登陆苹果 iOS / iPadOS 平台,美区可体验 AI 识屏识场景

谷歌宣布Gemini Live功能已登陆iOS平台(需美区),用户可通过Gemini App体验AI识别场景和屏幕内容。只需点击摄像头按钮,Gemini Live即可调用设备后置摄像头进行AI识别,快速回应并提出见解。#谷歌AI# #iOS新功能#
6/3/2025 7:51:09 AM
漾仔

微软必应推出 Bing 视频创作器,首次免费开放 OpenAI Sora 模型视频生成能力

微软必应推出基于OpenAI Sora模型的视频创作器,用户可通过文本提示免费生成视频。目前仅支持移动端,生成速度较慢,每次最多可生成3段5秒视频。未来将支持横屏视频生成。#AI视频生成# #微软必应#
6/3/2025 7:24:43 AM
远洋

为什么非要做Agent?我用传统方法也能实现啊!

"我硬编码10分钟就能搞定的功能,你用Agent折腾半天还不稳定,图啥? " 技术群里,老王又开始质疑我们的Agent项目了。 作为一个写了15年代码的资深工程师,他的话很有代表性。
6/3/2025 6:39:54 AM
大数据AI智能圈

AI大模型踩过的坑,每一个都价值千万

看着你们公司几十台服务器嗡嗡作响,显卡温度报警声此起彼伏,老板又在催问"大模型什么时候能上线? " 这个熟悉的场景,是不是让你想起了那句话——"理想很丰满,现实很骨感"。  训练一个千亿参数的大模型,好比盖一栋摩天大楼。
6/3/2025 6:30:05 AM
大数据AI智能圈

人工智能和知识图谱二:构建和使用知识图谱的工具包和算法

一、知识表示标准RDF 和 SPARQL许多知识图谱的核心是资源描述框架 (RDF),它是 W3C 标准,用于以主语-谓语-宾语三元组的形式表示信息。 RDF 提供了一个灵活的图形数据模型,其中每个三元组(例如Alice worksAt CompanyX)都断言资源之间的关系。 它带有形式语义(RDF Schema、OWL 本体),可实现丰富的知识建模(例如类层次结构、域/范围限制)。
6/3/2025 6:14:37 AM
晓晓

MARFT:多智能体协作与强化学习微调的协同进化

大家好,我是肆〇柒。 今天,继续 RL 相关话题,我们来探讨一个在人工智能领域极具应用潜力的话题 —— Multi-Agent Reinforcement Fine-Tuning(MARFT)。 这个概念融合了大型语言模型(LLM)、多智能体系统(LaMAS)和强化学习(RL)的精华,为解决复杂任务提供了全新的视角和方法论。
6/3/2025 6:12:03 AM
肆零柒