理论
GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化,背后贡献者也能扒 |免费
专为GitHub打造的免费百科全书来了——DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开发者们查阅起来很方便。
结构化提示词驱动开发实践
最近有幸参加了公司组织的关于AI实践的对外直播,我分享的内容是《结构化提示词驱动开发实践》。 现在将其记录成一篇博客,在此与大家分享我们团队在提示词驱动开发领域的一些实践与思考。 随着大语言模型的不断成熟,我们逐步认识到,如何高效运用结构化提示词,引导AI生成高质量代码,已成为提升软件开发效率与质量的关键所在。
北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!
当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。 但大多研究者们选择 7B 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。 同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。
具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互
OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮,但这些推理模型大多关注数学、代码等专业领域。 如何将这种深度推理模型扩展到智能体和具身领域,让机器人通过思考和推理来完成复杂具身交互等任务? 近期,来自浙江大学、中科院软件所和阿里巴巴的团队提出了 Embodied-Reasoner,让机器人或智能体拥有深度思考和交互决策能力,从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。
英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞
AI数学奥赛第一名「答卷」终于公布! NVIDIA公布并开源了他们的冠军模型OpenMath-Nemotron系列! 论文地址:、软件工程师Chan Kha Vu,则盛赞道:这些模型太不可思议了!
秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!
在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。 这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师,在 AI 社区引起广泛关注。 最近,这门课又上新了。
英伟达开源「描述一切」模型,拿下7个基准SOTA
图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
一日一技:如何快速生成大模型工具调用的JSON Schema
在使用大模型的工具调用时,我们需要编写JSON Schema,例如下图的tools字段的值:图片这个Schema写起来非常麻烦,括号太多了,看着眼花。 不信你肉眼看看,你需要几秒钟才能分清楚type: "object"跟哪个字段在同一层级? 这个Schema有没有什么办法自动生成呢?
指导智能体:为什么你的下一个安全雇员可能是算法
安全团队正淹没在警报中,威胁、可疑活动和误报的数量之大,使得分析师几乎不可能有效地调查所有内容,这时,出现了自主式AI,它能够同时完成数百项任务而不会感到疲倦。 企业越来越多地采用自主式AI来处理重复的安全任务,如警报分类,从而让人类分析师专注于最严重的威胁,但尽管自主式AI可能速度很快,但它并非万无一失,它天生就不了解企业独特的风险环境或安全优先级。 就像任何新员工一样,智能体需要指导才能发挥效用,它必须被调整、监控和完善,以与企业的安全政策和运营工作流程保持一致。
如何利用网络爬虫进行大规模LLM数据收集
大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。 想要打造一个能够理解真实世界的模型,就必须获取来自真实世界的信息,而互联网无疑是海量数据的主要来源。 本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据,为人工智能模型的训练筑牢坚实基础。
不要小看线性回归!
在数据领域初学时,大家常听到的一个建议是:不要试图把整个机器学习都学透——因为它实在太庞大且变化太快,根本不现实;而更应该聚焦在少数几个与数据工作日常紧密相关的模型,比如决策树、支持向量机,当然,还有线性回归。 线性回归本身就是一个非常实用的模型,更有意思的是,许多其他机器学习模型其实都是在它的基础上稍作改动而来。 本文的目的,就是想让大家看到这一点。
你的 MCP 调用正在成为系统的"后门",这个解决方案刻不容缓!
在人工智能快速发展的今天,大型语言模型 (LLM) 已成为提升工作效率的重要工具。 随着 MCP(Model Context Protocol)的出现,我们有了一种标准化的方式来与 AI 模型交互。 然而,当需要同时使用多个 MCP 资源服务器时,管理和使用这些服务不仅变得复杂,安全问题也越发严重。
深度研究 | 解构国内外代表性Agentic AI系统风险模型
Agentic AI正在走向现实应用。 这些拥有自主决策能力的AI系统也带来了全新的安全挑战。 与传统网络安全风险不同,Agentic AI系统面临着更为复杂、多维度的威胁态势,需要我们以创新的视角重新审视安全防护体系。
如何用DeepSeek+Cursor加速开发微信小程序(实战级指南)
一、工具链核弹级组合1. 双AI引擎配置复制技术协同原理:• Cursor:实时代码生成/缺陷修复(相当于AI程序员)• DeepSeek:业务逻辑设计/架构优化(相当于CTO)2. 环境闪电部署复制二、小程序开发加速流水线1.
大模型应用系列:两万字解读MCP
MCP通过建立统一的工具连接规范,为Agent开发提供了标准化接入框架。 该协议不仅简化了Agent与多样化系统的集成过程,还显著扩展了Agent的任务处理能力,使开发者能够更高效地构建具备复杂功能的智能体,实现从基础查询到业务决策的多层次应用。 那么,如何进一步理解MCP呢?
Flink结合AI的智能日志降噪系统设计与实现
安全日志管理是现代IT系统的关键环节,其规模和复杂性随系统复杂度提升而迅速增长。 Apache Flink作为领先的流处理框架,以其高吞吐、低延迟和强大的容错机制成为安全日志处理的理想选择。 然而,传统的日志管理方法在处理大规模多源异构安全日志时面临诸多挑战,包括实时性不足、静态规则过滤导致的误报/漏报、人工分类效率低下等问题。
理解 RAG 第四部分:检索增强生成评估框架
检索增强生成(RAG) 在扩展独立大型语言模型(LLM)的局限性和克服其诸多限制方面发挥了关键作用。 通过整合检索器,RAG 增强了响应的相关性和事实准确性:它只需实时利用外部知识源(例如矢量文档库),并在原始用户查询或提示中添加相关的上下文信息,然后将其传递给 LLM 进行输出生成。 对于那些深入 RAG 领域的人来说,一个自然而然的问题出现了:我们如何评估这些远非简单的系统?
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉