AI在线 AI在线

理论

英伟达开源「描述一切」模型,拿下7个基准SOTA

图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
4/27/2025 8:30:00 AM
机器之心

一日一技:如何快速生成大模型工具调用的JSON Schema

在使用大模型的工具调用时,我们需要编写JSON Schema,例如下图的tools字段的值:图片这个Schema写起来非常麻烦,括号太多了,看着眼花。 不信你肉眼看看,你需要几秒钟才能分清楚type: "object"跟哪个字段在同一层级? 这个Schema有没有什么办法自动生成呢?
4/27/2025 7:57:50 AM
kingname

指导智能体:为什么你的下一个安全雇员可能是算法

安全团队正淹没在警报中,威胁、可疑活动和误报的数量之大,使得分析师几乎不可能有效地调查所有内容,这时,出现了自主式AI,它能够同时完成数百项任务而不会感到疲倦。 企业越来越多地采用自主式AI来处理重复的安全任务,如警报分类,从而让人类分析师专注于最严重的威胁,但尽管自主式AI可能速度很快,但它并非万无一失,它天生就不了解企业独特的风险环境或安全优先级。 就像任何新员工一样,智能体需要指导才能发挥效用,它必须被调整、监控和完善,以与企业的安全政策和运营工作流程保持一致。
4/27/2025 7:10:00 AM
Edward Wu

如何利用网络爬虫进行大规模LLM数据收集

大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。 想要打造一个能够理解真实世界的模型,就必须获取来自真实世界的信息,而互联网无疑是海量数据的主要来源。 本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据,为人工智能模型的训练筑牢坚实基础。
4/27/2025 4:05:00 AM
大模型之路

不要小看线性回归!

在数据领域初学时,大家常听到的一个建议是:不要试图把整个机器学习都学透——因为它实在太庞大且变化太快,根本不现实;而更应该聚焦在少数几个与数据工作日常紧密相关的模型,比如决策树、支持向量机,当然,还有线性回归。 线性回归本身就是一个非常实用的模型,更有意思的是,许多其他机器学习模型其实都是在它的基础上稍作改动而来。 本文的目的,就是想让大家看到这一点。
4/27/2025 4:02:00 AM

你的 MCP 调用正在成为系统的"后门",这个解决方案刻不容缓!

在人工智能快速发展的今天,大型语言模型 (LLM) 已成为提升工作效率的重要工具。 随着 MCP(Model Context Protocol)的出现,我们有了一种标准化的方式来与 AI 模型交互。 然而,当需要同时使用多个 MCP 资源服务器时,管理和使用这些服务不仅变得复杂,安全问题也越发严重。
4/27/2025 3:34:00 AM
PIG AI

深度研究 | 解构国内外代表性Agentic AI系统风险模型

Agentic AI正在走向现实应用。 这些拥有自主决策能力的AI系统也带来了全新的安全挑战。 与传统网络安全风险不同,Agentic AI系统面临着更为复杂、多维度的威胁态势,需要我们以创新的视角重新审视安全防护体系。
4/27/2025 3:10:00 AM

如何用DeepSeek+Cursor加速开发微信小程序(实战级指南)

一、工具链核弹级组合1. 双AI引擎配置复制技术协同原理:• Cursor:实时代码生成/缺陷修复(相当于AI程序员)• DeepSeek:业务逻辑设计/架构优化(相当于CTO)2. 环境闪电部署复制二、小程序开发加速流水线1.
4/27/2025 2:25:00 AM
架构师秋天

大模型应用系列:两万字解读MCP

MCP通过建立统一的工具连接规范,为Agent开发提供了标准化接入框架。 该协议不仅简化了Agent与多样化系统的集成过程,还显著扩展了Agent的任务处理能力,使开发者能够更高效地构建具备复杂功能的智能体,实现从基础查询到业务决策的多层次应用。 那么,如何进一步理解MCP呢?
4/27/2025 2:22:00 AM
曹洪伟

Flink结合AI的智能日志降噪系统设计与实现

安全日志管理是现代IT系统的关键环节,其规模和复杂性随系统复杂度提升而迅速增长。 Apache Flink作为领先的流处理框架,以其高吞吐、低延迟和强大的容错机制成为安全日志处理的理想选择。 然而,传统的日志管理方法在处理大规模多源异构安全日志时面临诸多挑战,包括实时性不足、静态规则过滤导致的误报/漏报、人工分类效率低下等问题。
4/27/2025 1:05:00 AM
demo1234567

理解 RAG 第四部分:检索增强生成评估框架

检索增强生成(RAG) 在扩展独立大型语言模型(LLM)的局限性和克服其诸多限制方面发挥了关键作用。 通过整合检索器,RAG 增强了响应的相关性和事实准确性:它只需实时利用外部知识源(例如矢量文档库),并在原始用户查询或提示中添加相关的上下文信息,然后将其传递给 LLM 进行输出生成。 对于那些深入 RAG 领域的人来说,一个自然而然的问题出现了:我们如何评估这些远非简单的系统?
4/27/2025 12:30:00 AM
晓晓

知识图谱火了?

知识图谱技术正在悄然升温。  这项技术虽然在AI创业赛道中出现频次最低,但近期却被频频提及。  从大型科技公司到创业企业,知识图谱已成为兵家必争之地。
4/27/2025 12:10:00 AM
大数据AI智能圈

OpenAI 可能刚刚终结了 Claude

OpenAI 最近简直是在疯狂输出。 就在这短短一周,他们一口气推出了三款全新模型、开源了一款代码工具、大幅降价,甚至还准备以30亿美元收购一款 IDE。 为什么这么急?
4/27/2025 12:00:25 AM
前端小智

OpenAI研究员绿卡被拒!GPT-4.5幕后科学家流浪温哥华,美国AI圈炸锅

大数据文摘出品又刷到OpenAI相关新闻,本来以为是模型升级或者什么AI炫技,结果这次主角不是GPT-4.5,也不是神秘的GPT-5,而是一个让人有点无力的现实:OpenAI核心AI研究员Kai Chen,绿卡申请被拒,即将被迫离开美国。 说实话,这种新闻在今天的AI圈子里,居然比模型benchmark还......。 绿卡被拒:美国AI“人才引擎”熄火?
4/27/2025 12:00:01 AM
文摘菌

CVPR2025 | 即插即用!清华国科大等推出视觉微调框架,仅需调整5%骨干网络参数

仅调整5%的骨干网络参数,就能超越全参数微调效果? 还是在实例分割、目标检测、旋转目标检测这样的经典视觉任务场景。 这是来自清华、国科大、上海交大、阿里巴巴的一项研究,相关论文已被CVPR2025接受。
4/26/2025 4:44:45 PM

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

在大模型时代,视觉语言模型(Vision-Language Models, VLMs)正在从感知走向推理。 在诸如图像问答、图表理解、科学推理等任务中,VLM不再只需要「看见」和「描述」,而是要能「看懂」和「想清楚」。 然而,当前主流的推理能力提升方法普遍存在两个问题:1.
4/26/2025 9:25:00 AM
新智元

赋能企业快速构建高效AI团队, NVIDIA NeMo重塑生产力与智能协作

在人工智能技术迅猛发展的今天,企业正面临着一个关键转折点——如何将先进的AI能力无缝整合到日常运营中,以提升生产力、优化决策并保持竞争优势。 随着大语言模型(LLM)和代理式AI(Agentic AI)技术的成熟,AI不再仅是简单的任务自动化工具,而是逐渐演变为能够理解复杂业务场景、参与决策过程的"数字员工"。 为了帮助企业快速构建高效AI团队,NVIDIA已发布的NVIDIA NeMo微服务工具现已全面推出,通过创新的"数据飞轮"机制持续提升AI智能体性能,并分享了该技术在不同行业的应用前景与合作伙伴生态。
4/25/2025 5:56:13 PM
张诚

百度智能云两大基础设施再升级!打造AI时代最开放的智能基础设施

4月25日,以“模型的世界,应用的天下”为主题的Create 2025 百度AI开发者大会在湖北武汉召开。 会上,百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度智能云在智能基础设施建设方面的最新成果,并在算力、模型及应用等方面发布一系列全新产品。 大模型的高效落地亟需从底层算力到应用的全栈、系统级支撑——既需高性能硬件与集群优化,也需灵活的开发工具链与场景化解决方案。
4/25/2025 2:55:46 PM