应用
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。 该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。 测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。
5/12/2025 9:01:02 AM
AI在线
快手推出 AI 作图工具 Poify,聚焦电商市场
近日,快手正式推出其新型 AI 作图工具 Poify,旨在为电商领域提供更加高效和经济的图像处理解决方案。 与现有的可灵 AI 相比,Poify 在功能上更加专注于 AI 作图,尤其是在电商相关的应用上。 Poify 的核心功能包括文生图和图生图,同时特别针对电商需求推出了一系列创新的 AI 作图能力。
5/12/2025 9:01:02 AM
AI在线
谷歌搜索再迎新挑战:Anthropic 为其 API 引入网页搜索功能
Anthropic Claude API 可根据推理能力判断使用网络搜索是否有助于提供更准确的答案,还支持渐进式搜索功能。
5/12/2025 8:32:42 AM
溯波(实习)
马斯克:Grok 3.5“仍太粗糙”,需一周左右打磨
有网友日前提问“Grok 3.5、GPT-o3 Pro 和 GTA 6 哪个会最先发布?”对此,埃隆・马斯克的 X 账号回复称:“3.5 还是有点太粗糙了。还需要一周左右的时间。”
5/12/2025 7:45:36 AM
汪淼
噱头大于实用?深度测评3款人气超高的AI智能体产品
关于 Manus 这类产品,我想说.... 从 Manus 发布至今,围绕着这类通用型智能体的讨论从没停过。 如今,在舆情平息的时候,我们觉得是时候好好评价一下这类产品了。
5/12/2025 1:39:19 AM
Infinite AI
Midjourney又更新了!一个指令带你100%实现场景穿越!
大家好,还记得 Midjourney 之前说要 60 天高频更新吗? 他们还真没吹牛! 最近更新很频繁!
5/12/2025 12:21:28 AM
旭晨AI设计实验室
OpenAI ChatGPT 更新后过度讨好用户,两周过去问题仍未解决
OpenAI更新ChatGPT-4o后,AI表现出过度讨好用户的行为,甚至对荒谬想法也大加赞赏。CEO奥尔特曼撤回更新,但问题仍未解决。专家指出,AI的奉承倾向源于训练机制,可能引发社会问题。#AI伦理##ChatGPT#
5/11/2025 9:15:07 PM
远洋
淘宝推出桌面版客户端 支持 AI 购物功能
近日,淘宝在客户端领域有了新动作,已悄悄上线一款“桌面版”客户端。 不过,目前该客户端暂时仅提供Windows版本。 从官方发布的图片来看,这款“桌面版”客户端整体布局采用了网页浏览器风格。
5/11/2025 10:00:42 AM
AI在线
曝国行版iOS18.6启用部分苹果AI 百度阿里提供技术支持
近日,苹果记者Mark Gurman爆料称,国行版苹果iOS18.6即将启用部分Apple Intelligence功能,而这一功能的实现将由百度和阿里共同提供技术支持。 据了解,在此次合作中,阿里负责开发审查引擎。 与此同时,百度将自身AI技术与苹果的Siri和Visual Intelligence进行深度整合。
5/11/2025 10:00:42 AM
AI在线
酷玩乐队、保罗・麦卡特尼等数百名艺人呼吁英国政府:尊重版权,反对 AI 滥用
酷玩乐队、保罗·麦卡特尼、杜阿·利帕等英国创意产业的数百位领军人物和机构联名向首相发出呼吁:保护艺术家的版权,反对在大型科技公司压力下“把作品轻易送出去”。
5/10/2025 9:51:12 PM
清源
字节跳动开源 Deep Research 项目 DeerFlow:可生成图文报告、语音播客
字节跳动技术团队今日宣布,基于 LangStack 的全新 Deep Research 开源项目 ——DeerFlow 正式在 ByteDance 的 GitHub 官方组织上开源。
5/10/2025 8:26:49 PM
清源
“AGI 比恩怨更重要”:OpenAI 奥尔特曼向马斯克示好
奥尔特曼与马斯克的关系可谓一波三折:两人曾是 OpenAI 的联合创始人,如今却在 AI 领域各自为战,成为针锋相对的竞争者。
5/10/2025 7:49:12 PM
清源
谷歌为自家应用及搜索引擎引入 AI 反诈系统,利用语言模型分析潜在恶意网站
谷歌在Chrome浏览器和搜索引擎中引入AI技术打击诈骗,包括本地运行的Gemini Nano模型分析潜在诈骗网站,以及AI警告功能防范钓鱼诈骗。此外,Google Messages和Phone应用也加入AI诈骗检测。#网络安全# #AI防护#
5/10/2025 6:40:40 PM
漾仔
华中科大盛建中团队研发 AI 图像生成系统,协助警方令 19 名失踪儿童回家团圆
5月10日央视财经报道,华中科技大学盛建中团队研发视觉新生智能图像生成系统,利用AI预测失踪儿童面貌。该系统已协助警方寻回19名失踪儿童,还修复千张照片。##AI寻亲##
5/10/2025 4:21:43 PM
漾仔
日本经济产业省:AI 未经同意使用人类声优声音,或触犯当地反不正当竞争法
“从不正当竞争防止法角度所能预见的适用案例”文件指出,未经许可使用声优或演员AI音声来制造并销售闹钟等产品,也有可能涉及违法行为。是否违法,需要根据具体情况逐一判断。
5/10/2025 3:32:00 PM
清源
国内首部中医药 AI 大模型评测标准发布,覆盖 13 个能力子域
中国中医科学院联合多家机构发布国内首部中医药大模型评测团体标准,覆盖13个能力子域和30余个能力项,为中医药AI提供科学评价体系。#中医药AI# #大模型评测#
5/10/2025 3:09:53 PM
漾仔
12GB 显存可实现 128K 上下文 5 并发会话,IBM 预览 Granite 4.0 Tiny 模型
该模型采用混合 Mamba-2 / Transformer 架构,现有版本总参数规模为 7B、活动参数为 1B,可在消费级硬件上实现可用的体验。
5/10/2025 11:46:11 AM
溯波(实习)
谷歌 Gemini 2.5 API 推“隐式缓存”,开发者成本最高降低 75%
谷歌为其 Gemini 2.5 API,推出了“隐式缓存”(Implicit Caching)功能,自动识别并重用 API 请求中的常见前缀,开发者的成本最高可以降低 75%。
5/10/2025 11:14:22 AM
故渊
资讯热榜
Meta刚刚开源DINOv3,横扫60+任务,无标注封神!
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
ChatGPT或将引入广告!OpenAI高管首度松口,用户破7亿仍难盈利
Nvidia 投资 5 亿美元,Cohere 公司估值达 68 亿美元
OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人
破天荒!OpenAI、Cursor多位开发大牛联手曝出GPT5提示词指南!晒官方系统提示词优化秘籍,最大化编程性能,工作流更可控
IDC:未来五年,中国生成式 AI 相关硬件支出将激增至 330 亿元
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
AI新词
生成式
Claude
苹果
Agent
神经网络
AI for Science
3D
机器学习
研究
生成
人形机器人
xAI
AI视频
计算
Sora
GPU
百度
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
场景
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
应用
安全