资讯列表
谷歌NotebookLM即将推出Sparks视频概览 Gemini与Deep Research加持,可生成1-3分钟AI视频
2025年5月,谷歌旗下研究工具NotebookLM迎来重大更新,计划推出名为“Sparks”(火花)的1-3分钟视频概览功能,其中10%内容由AI生成。 这一创新将进一步整合Gemini2.5 chatbot和Deep Research报告功能,为用户提供从文档到短视频的智能化内容创作体验。 AIbase综合最新社交媒体动态,深入解析“火花”视频概览的技术亮点及其对AI内容生成领域的深远影响。
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来,高带宽域的设计对提升大模型训练效率至关重要。 然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制:以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂、不易扩展规模;以GPU为中心的HBD(如 Google TPUv3和Tesla Dojo)存在严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。
参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
新架构选择用KAN做3D感知,点云分析有了新SOTA! 来自哈尔滨工业大学(深圳)和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN,在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案,PointKAN具有更强的学习复杂几何特征的能力。
三金,又是中国队!全球机器人视触融合挑战赛揭榜
今天,机器人和自动化领域的全球顶级会议ICRA 2025在亚特兰大正式拉开帷幕。 不久前,机器人领域的顶级赛事——ManiSkill-ViTac 2025也公布了获奖团队名单。 5月23日,ManiSkill-ViTac 2025的成果将在ICRA 2025第六届ViTac国际研讨会中集中汇报。
蚂蚁集团 KAG:知识增强生成如何革新专业领域大模型应用?万字深入解读!
在大语言模型(LLMs)的应用浪潮中,检索增强生成(RAG)技术得到广泛运用,利用外部检索系统,显著提升大语言模型的时效性,并大幅减少模型幻觉。 为了进一步提升RAG在多跳任务、跨段落任务的性能,研究人员引入了知识图谱,包括GraphRAG、DALK、SUGRE、ToG 2.0 和 HippoRAG 等。 尽管 RAG 及其优化方案已经解决了因知识缺乏和更新导致的大部分幻觉问题,但生成的文本仍然缺乏连贯性和逻辑性,难以产生正确且有价值的答案,尤其是在法律、医学和科学等需要分析推理的专业领域:首先,真实场景的业务流程一般需要基于知识片段之间特定关系的推理来收集与回答问题相关的信息。
GenSpark推出全球首个 Agentic AI下载代理,革新文件管理体验
近日,人工智能初创公司GenSpark宣布推出全球首个人工智能代理下载工具(Agentic Download Agent)及配套的AI Drive功能,这一创新被誉为文件管理和信息处理领域的重大突破。 这一工具通过单一自然语言指令实现文件搜索、下载和整理,极大提升了工作效率和用户体验。 以下是对这一发布的详细报道,基于最新信息和背景分析。
华为 + DeepSeek 推理性能创新高,技术报告公布
华为不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的相关代码也都会陆续开源出来。
英伟达 RTX Pro 企业 AI 与工业 AI 运算平台发布,将进入量产阶段
黄仁勋展示了华擎、微星的两款产品,支持 30 PFLOPS FP4 AI 性能、3 PFLOPS RTX 显示性能、800GB 显存。
数学建模的AI助手MathModelAgent,给出题目就能完成分析到写论文全流程
一款名为MathModelAgent的AI助手在开源社区引发热议。 这款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论文撰写的“论文手”。
谷歌I/O 2025重磅炸弹!Gemini AI搜索引擎将取代传统搜索框,灰度测试启动,竞争对手颤抖!
随着谷歌I/O开发者大会临近(5月20日至21日),业界传出重磅消息:谷歌正计划推出基于Gemini2.5的下一代AI搜索引擎,全面替换传统的搜索框界面。 这一新模式已进入灰度测试阶段,标志着谷歌将其最大流量入口切换至AI驱动的Gemini生态,对OpenAI、Perplexity等竞争对手构成重大挑战。 AIbase综合最新动态,深入解析这一变革性举措及其对全球搜索市场的潜在冲击。
马斯克的 AI 聊天机器人 Grok 因 “编程错误” 道歉
马斯克的人工智能聊天机器人 Grok 因在回答有关大屠杀的问题时表现出怀疑态度而引发广泛争议。 Grok 在回答中表示,对主流来源所称的 “约600万名犹太人在大屠杀中遇害” 的数字表示怀疑,认为没有原始证据,数字可能受到政治叙事的操控。 这一言论立即遭到了公众的强烈谴责。
QQ浏览器升级为AI浏览器:上线QBot 新增5大AI新能力
QQ浏览器正式宣布升级为AI浏览器,并推出了其专属的AI助手——QBot,这一创新举措标志着QQ浏览器在人工智能领域的全新突破,为用户带来了更加智能、便捷的浏览体验。 QBot的上线为用户带来了全方位的AI支持。 在搜索方面,QBot凭借腾讯混元和DeepSeek双模型的强大能力,能够精准理解用户的问题,并以文字、语音或图片等多种形式进行提问,无论是日常的疑难杂症还是复杂的学术问题,都能实现有问必答,为用户提供24小时不间断的智能陪伴。
蚂蚁集团CTO揭示大模型 “幻觉” 根源:数据短缺是关键
在近日举行的 OceanBase 开发者大会上,蚂蚁集团的首席技术官何征宇发表了关于人工智能(AI)发展的一番看法。 他指出,数据是推动 AI 进步的基石,而数据的量和质量直接影响大模型的能力和表现。 他强调,缺乏足够的数据将导致 AI 技术产生 “幻觉”,而这种现象在当前的技术环境中愈发明显。
广东移动发布全新AI通话系列产品,通信体验再升级
近日,广东移动揭晓了其最新的 AI 通话系列产品,旨在提升用户的通信体验。 这次发布的产品包括 AI 速记、AI 秘书、AI 家秀、AI 礼遇、AI 伴聊等多款新功能,涵盖了从个人日常到商务沟通的多种场景。 随着 AI 技术的快速发展,这些创新产品将为用户带来更加智能、便捷的通话体验。
ChatGPT将整合MCP协议,助力企业接入多样AI服务
近日,有科技媒体爆料,OpenAI 正在测试一项名为 “连接器设置”(Connectors settings)的新功能,ChatGPT 可能会很快支持 MCP(模型上下文协议)协议。 这一变化将使 ChatGPT 能够与第三方 AI 服务进行无缝对接,为用户提供更多个性化的体验。 MCP 协议的推出始于2024年11月,由 AI 公司 Anthropic 开发,其目的是统一大语言模型(LLM)与外部系统之间的互动方式。
Qwen发布全新偏好建模模型系列WorldPM模型
阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。 这一发布引发了全球AI开发者社区的广泛关注,被认为是偏好建模领域的重要突破。 WorldPM:偏好建模的规模化新探索WorldPM(World Preference Modeling)是Qwen团队在偏好建模领域的最新力作。
中信证券:管理软件或是AI Agent落地的最佳场景之一
根据中信证券的最新研究报告,预计2025年将成为人工智能(AI)应用落地的重要元年,尤其是 AI Agent 的应用场景将迎来快速的爆发。 报告指出,管理软件将是 AI Agent 落地的最佳场景之一,特别是那些具备长期行业积累的传统行业龙头公司将享有显著的优势。 图源备注:图片由AI生成,图片授权服务商MidjourneyAI 技术的迅猛发展正在推动各行业的转型,特别是在管理软件领域。
阿里通义实验室推出 ZeroSearch:让大模型无需 API 自我 “搜索”
在人工智能的迅速发展中,如何提升大语言模型(LLM)的检索和推理能力成为研究的热门话题。 近日,阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架,它能够使大型语言模型自己模拟搜索引擎,从而在没有实际搜索引擎的情况下,提升其推理能力。 传统的搜索引擎虽然强大,但在训练大模型时,它们的输出质量常常不可预测,可能导致训练过程中的噪声和不稳定。