理论
微软发布2025工作趋势:每位员工将是Agent老板
微软在官网发布了2025年工作趋势指数报告,主要分析了来自中国、美国、澳大利亚、巴西、加拿大等全球31个国家/地区的31,000家企业。 同时结合了Linked劳动力市场趋势,数万亿个Microsoft365生产力信号,以及原生初创企业、学者、经济学家、科学家和思想领袖的意见。 结果显示,由Agent智能体 人类的“人机协作”模式正在重塑企业架构,一种全新形态的“前沿公司”诞生。
7x24小时非人类科学家入场:当AI开始自主探索科学未知领域 | 多伦多大学
自主通才科学家(AGS)正成为现实! 来自多伦多大学、IIT、清华大学、浙江大学、罗格斯大学、哈佛大学、佐治亚理工学院和伦敦大学学院的跨学科团队的最新研究指出,融合人工智能与机器人技术的“自主通才科学家(AGS)”不仅能独立完成从文献综述到实验验证的全流程,更可能以指数级速度推动科学发现,突破人类能力的物理与认知边界。 除此之外,其团队还构建了将AI大脑与机器人躯体深度融合的通用科研系统概念框架,展示了机器人与AI科学家在自然科学、形式科学、应用科学、人文科学,以及跨学科科学等全科学领域的原创性发现的潜力。
1亿图文对!格灵深瞳开源RealSyn数据集,CLIP多任务性能刷新SOTA
新的亿级大规模图文对数据集来了,CLIP达成新SOTA! 格灵深瞳最新发布的高质量数据集RealSyn,不仅规模大——包含1亿组图文对,而且每张图片都同时关联多个真实和合成文本。 所有的图像和句子都基于冗余进行了严格过滤,在确保数据质量的同时,引入基于簇的语义平衡采样策略,构建了可满足多样工作需求的三种规模大小的数据集:15M、30M、100M。
智能体 Agent 与工作流构建实战指南:从选型决策到高效实施
作者 | fred历经多个业务系统的构建,我深感Anthropic的《Build effective agents》一文与自身实战经历高度契合。 本文在详解工作流与Agent的技术选型标准、设计模式应用及实施要点的同时,也融入了我的实战心得与实践经验总结。 无论您正考虑构建工作流系统还是Agent系统,都能在此找到适合场景的最佳实践方案。
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
GPT-4o生成的第一视角机器人打字图这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。 研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。 他们设计了两项关键操作:token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数;token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然——它能准确破解你的地理位置! 就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。 他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实!
一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
这几年,AI领域的科研人员遇到一个问题。 那就是机器学习的论文实在是多到看不过来,更别说还要用代码实现论文中逻辑。 HuggingFace上的「每日论文」板块每天都有十几篇新出的研究论文这导致一个问题,研究者往往「重视结果」而没有精力来用用代码验证,并且复现很多先前的工作有点「重复造轮子」,浪费研究者的精力。
理解 RAG 第五部分:管理上下文长度
传统的大型语言模型 (LLM)存在上下文长度限制,这限制了单次用户与模型交互中处理的信息量,这是其主要局限性之一。 解决这一限制一直是 LLM 开发社区的主要工作方向之一,提高了人们对增加上下文长度在生成更连贯、更准确响应方面优势的认识。 例如,2020 年发布的 GPT-3 上下文长度为 2048 个 token,而其更年轻但功能更强大的兄弟 GPT-4 Turbo(诞生于 2023 年)允许在单个提示中处理高达 128K 个 token。
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
论文有两位共同一作。 郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年级博士生。 扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。 第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。 通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。
AI无边界:通过MCP实现不同智能体框架的协作(含代码)
在人工智能飞速发展的当下,智能体框架如雨后春笋般不断涌现。 从LangChain利用高度抽象的方式构建智能体,到CAMEL - AI为用户提供细致配置选项来创建智能体,不同框架各显神通。 但这些框架之间就像说着不同“方言”的个体,彼此沟通困难重重。
美国银行对AI的大力押注始于小规模
今年,美国银行将投资40亿美元用于AI及相关技术创新,但这家金融服务巨头七年前自主研发的AI助手Erica,如今依然是关键的投资回报率来源、客户与员工体验的核心,也是其引以为傲的成果。 2018年时,很少有人使用“助手”一词,更不用说“自主式AI”了,但美国银行组建了一个由软件工程师、语言学家和银行业专家组成的团队,打造了这款小型语言模型,该模型多年来根据呼叫中心收集的客户反馈数据不断优化。 美国银行消费者、商业和财富管理技术部门负责人哈里·戈帕尔克里什南(Hari Gopalkrishnan)表示,Erica之所以能够成功且经久不衰,关键在于其规模较小。
AAAI2025 | 频域+注意力双加持!SNN性能飙升33%,刷新多项SOTA纪录!
一眼概览FSTA-SNN 提出了一种频域驱动的时空注意力模块(FSTA),显著提升脉冲神经网络(SNN)的特征学习能力与能效,在多个数据集上实现了更优性能和更低的脉冲发放率。 核心问题当前 SNN 在信息稀疏表示方面虽具能效优势,但其中间脉冲输出存在冗余且缺乏系统分析,导致特征提取能力受限、性能不稳定。 论文核心关注的问题是:如何在不增加能耗的前提下,抑制冗余脉冲、增强关键特征提取能力,从而提升 SNN 的整体性能与鲁棒性。
AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?
一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
大模型重复生成内容:根因剖析与优化策略
前言最近在调试大模型应用过程中,遇到了如下问题:复制大模型首次生成内容与「重新生成」两次返回的内容近乎完全相同,几乎没有体现出任何差异性。 面对这种情况,造成大模型输出高度相似的原因是什么呢? 我们又该采取怎样的调整策略,才能使重新生成的内容与前次存在明显差异,提升输出的多样性呢?
Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”
ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。 图片这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的? ”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
MCP 服务器很危险!这里有安全使用指南!
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP 这次真的火了! 自从Anthropic于 2024 年 11 月推出以来,它有望成为“将 AI 助手连接到数据所在系统的新标准”。 截至目前,该协议已被 OpenAI、微软和谷歌等公司迅速采用;各大供应商纷纷推出 MCP 服务器,希望在 AI 代理工作流程中不失时机。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉