AI在线 AI在线

AI

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位

人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛

注意看,机器人像人一样从容地走出大门了! 甚至,还有一整支机器人队伍迎面走来。 人形机器人独角兽Figure,再次带来他们的新成果——利用强化学习实现自然人形行走。
3/27/2025 9:19:57 AM
量子位

突发!英伟达收购贾扬清新创业的Lepton AI

出品 | 51CTO技术栈(微信号:blog51cto)刚刚,有外媒曝出英伟达即将收购成立两年的 AI 创业公司 Lepton AI。 Lepton AI 的创始人是AI圈内知名人士贾扬清。 据悉这笔收购交易的金额是数亿美元。
3/27/2025 8:50:38 AM

网络犯罪分子利用11种方式使网络钓鱼比以往更有危害力

网络犯罪分子正在改变其社交攻击的欺诈手段,以提高真实性,更好地绕过过滤器,并更有针对性地瞄准潜在受害者。 网络钓鱼一直是安全漏洞的主要来源——这一重大问题,尽管经过了多年的安全意识培训,但至今仍是网络安全方面的首要关注点。 不过,由于战术的改进和AI技术的恶意再利用,这种长期存在的社交攻击手段不断演变,网络犯罪分子正在寻找新的方法来诱骗用户点击恶意链接。
3/27/2025 8:00:00 AM
John Leyden

随着AI大模型和MCP生态发展,传统低代码平台和RPA类产品还有无出路?

今天准备跟大家聊一下随着AI大模型和MCP协议生态的发展,对传统的低代码产品和RPA机器人产品所带来的一些影响。 因为在一年多前我其实就聊过这个话题,但是最近一年的时间AI大模型、AI编程、AI智能体,包括最近的MCP协议生态的发展太快了,导致原来我们对这两个产品的影响分析会出现一些变化。 低代码平台影响分析首先我们先讲一下低代码,大家都知道其实低代码平台的产品,它的本质仍然是辅助我们编程,仍然是可能会生成源代码或者是生成低代码产品模板引擎能够解析的元数据。
3/27/2025 5:00:00 AM
何明璐

重磅发布!ChatGPT ImageGen “Shiba” 震撼来袭:你从未见过的强大AI图像生成模型!

引言期待已久的ChatGPT ImageGen终于迎来重大更新! 代号为“Shiba”的全新模型正式发布,而我可以毫不犹豫地说,这绝对是我目前为止使用过的最强大的AI图像生成工具! 无论是在Prompt理解、生成质量,还是在文字排版、编辑能力和角色一致性等方面,“Shiba”都展现出了前所未有的卓越性能,可以说是全面碾压!
3/27/2025 12:04:33 AM
深海幽光

Anthropic 取得 AI 版权官司初步胜利,出版商被指要求过于宽泛

Anthropic在与音乐出版商的版权纠纷中取得初步胜利,美国法官裁定出版商请求过于宽泛,未能证明Anthropic使用歌词对其造成不可弥补的损害。此案涉及AI训练中版权材料的合理使用问题,Anthropic对此裁决表示欢迎。#AI版权# #Anthropic#
3/26/2025 11:22:23 PM
远洋

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

编辑 | 杨文今天凌晨,大洋彼岸可真够热闹的。 OpenAI 推出了 GPT-4o 动嘴生图、P 图的功能,而谷歌则直接祭出了号称「最智能的模型」Gemini 2.5。 据谷歌首席科学家 Jeff Dean 介绍,首个版本 Gemini 2.5 Pro  Experimental 已集成「思考能力」,是迄今为止性能最强大的 Gemini 模型,尤其擅长高级推理和编码,并在 @lmarena_ai 排行榜上拿下第一。
3/26/2025 8:54:00 PM
AI好好用

雷鸟AR眼镜与通义深度定制大模型联手,交互体验提升显著

在增强现实(AR)眼镜领域,雷鸟创新正在引领一场革命。 随着 AI 技术的飞速发展,AR 眼镜正逐渐被认为是未来消费电子的重要载体。 而雷鸟创新与阿里云的深度合作,致力于将 AI 与 AR 进行无缝融合,为用户带来更流畅的交互体验。
3/26/2025 5:59:00 PM
AI在线

你的“AI 同事”上线:微软 Copilot 新增研究员和分析师两大智能体

微软最新推出了 Researcher(研究员)和 Analyst(分析师)两款 AI Copilot 智能体,基于 OpenAI 的 o3 推理模型开发,能独立分析实时数据,并完成多步骤研究任务。
3/26/2025 2:00:00 PM
故渊

为避免内耗:谷歌 AI 助手 Pixie 项目遭拆分,部分能力并入 Gemini

科技媒体 The Information 今天(3 月 26 日)发布博文,报道称谷歌公司为避免和 Gemini 竞争,拆分 Pixie 项目,一部分转化为 Pixel 手机的“截图应用”,另一部分融入 Gemini 功能。
3/26/2025 11:48:15 AM
故渊

AI巨头画饼被戳穿!研究员警告:比起专注开发诺奖级AI,取代白领工作更有利可图!智能体搞定搜索和办公软件,人类面临数十年漫长过渡

许多AI大佬都给我们画过同样的饼——AI可以成为科学家。 不仅如此,根据他们的说法:诺奖级AI近在眼前,届时所有的研发工作将被自动化,世界也会因为各种科学突破变得愈发繁荣和美好。 OpenAI奥特曼曾表示,AI 可能会像晶体管一样,成为一种可广泛扩展并渗透到经济各个角落的重大突破。
3/26/2025 11:27:37 AM

通过敏捷治理让 GenAI 更好为企业赋能

生成式人工智能指创建各种内容包括编码软件、自动化工业流程、创作音乐、制作深度研究报告等的工具,其正在以惊人的速度发展。 近二十年,我从未见过任何技术发展得如此之快。 现在,企业不再考虑是否使用生成式人工智能,而是考虑如何让其大规模发挥作用。
3/26/2025 11:21:59 AM
晓晓

51秒破防!AI武器化时代CISO面临生死时速

51秒? 是的,你没看错。 从黑客拿到你的凭证到横向渗透整个网络,只需要51秒。
3/26/2025 11:05:43 AM
佚名

RAG检索全攻略:Embedding与Rerank模型的终极指南

在构建基于检索增强生成(RAG)的系统时,Embedding Model和Rerank Model扮演着至关重要的角色。 比如你正在搭建一个智能搜索引擎,Embedding Model就像是帮你快速找到相关书籍的“图书管理员”,而Rerank Model则像是一位经验丰富的“资深书评人”,负责从一堆书里精准挑选出最符合你需求的那几本。 两者配合,就像一对完美搭档,确保RAG系统既能找到大量信息,又能精准提炼出最关键的内容。
3/26/2025 11:05:13 AM

OpenAI直播狙击谷歌,奥特曼AGI梗图现场直出!GPT-4o超强原生生图来袭

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久,OpenAI也有动作了。 奥特曼亲自带队,展示了GPT-4o图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。 整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。
3/26/2025 10:21:58 AM
新智元

随手一拍,高效重建大型3D开放场景,港科广GraphGS突破传统重建技术瓶颈|ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍,如何从海量无序二维图像快速生成高精度三维场景? 传统方法依赖精确的相机位姿参数,实际应用成本高昂。 港科广团队提出全新框架GraphGS,突破技术瓶颈——无需精准相机位姿,仅凭RGB图像即可实现大规模开放场景的高效重建和高保真新视角合成,相关论文入选ICLR 2025,代码即将开源。
3/26/2025 9:55:14 AM
量子位

通付盾InterAgent(IA)指南——多智能体框架的构建与应用

在《从AI到IA,得Agent者得天下》一文中我们探讨了AI时代全面爆发的核心驱动力是多智能体协同带来的产业应用范式革新,从“智能问答”到“任务执行”,Agent将AI真正落地至垂直领域应用场景,创造出全新的商业模式。 多智能体协同(InterAgent)应当遵循特定的标准框架以实现最大的可扩展性与互操作性,基于我们的理论探索和实践经验,在这里尝试对这一框架进行一些形式化的定义。 InterAgent框架属于协议层,基于底层大语言模型以及领域语料库,面向垂直领域应用场景中的特定任务,对多个Agent进行协同。
3/26/2025 9:37:00 AM
AI在线