AI在线 AI在线

资讯列表

从看见到理解,多模态大模型如何重塑行为检测

在人工智能技术快速迭代的今天,行为检测作为计算机视觉领域的重要分支,正迎来一场由多模态大模型引领的技术革命。 作为曾在CV算法公司工作的从业者,我深刻体会到传统计算机视觉方法在实际落地中的诸多痛点。 过去几年,许多行为检测、烟火检测等应用,往往因为高昂的训练成本和难以接受的误报率而被甲方叫停。
5/7/2025 1:00:00 AM
贝塔街的万事屋

三分钟快速入门大模型数据工程

向自然语言处理的大模型应用,数据工程的核心任务是构建一套高效、可扩展、可控的数据流程,从源头到可用于模型训练、推理的高质量文本语料,全链路打通。 数据工程的整体目标构建稳定的数据流转链路,从原始文本数据 → 清洗/标注/审核后的语料 → 符合模型输入格式的数据集保证数据可用性、完整性、质量、结构统一性支持多阶段使用场景:训练/微调、推理RAG、评估测试等数据来源最常见的形式是甲方提供,如客户工单、业务知识库、客服聊天记录、FAQ 等。 需尽早明确数据格式、内容范围、隐私边界。
5/7/2025 12:10:00 AM
贝塔街的万事屋

小米 Mi-BRAG 智能引擎亮相:用 AI 问答代替产品说明书,登上评测榜首

小米官方今日介绍了 Mi-BRAG 知识库问答框架,该框架通过四大核心技术体系重构知识处理范式,已在公司多个场景中落地应用,包括小爱同学的个人信息问答、汽车问答助手、商品问答等。
5/6/2025 7:51:45 PM
汪淼

Recraft 获 3000 万美元 B 轮融资,图像生成技术挑战行业巨头

初创公司 Recraft 近日宣布完成3000万美元的 B 轮融资。 这轮融资由知名风险投资公司 Accel 领投,其他投资机构如 Khosla Ventures 和 Madrona 也参与其中。 Recraft 总部位于美国旧金山,此前在2024年曾获得1200万美元的 A 轮融资,目前公司年化经常性收入已超过500万美元,并拥有400万注册用户。
5/6/2025 7:00:41 PM
AI在线

消息称 AI 编程工具 Cursor 开发商 Anysphere 完成 9 亿美元融资,估值达 90 亿美元

AI编程工具开发商Anysphere完成9亿美元融资,估值达90亿美元,由Thrive Capital领投,a16z、Accel等跟投。目前累计融资超1.73亿美元。AI编程赛道竞争加剧,OpenAI曾有意收购竞争对手Windsurf。#AI编程##融资#
5/6/2025 6:02:15 PM
远洋

实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!

最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线

阿里通义Qwen3语言模型上线 ,开源实力再升级!

在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线

月之暗面 Kimi 长思考模型 API 正式发布

月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线

IBM 首席执行官进军人工智能市场并加大美国投资

在最近的一次采访中,IBM 首席执行官阿尔温德・克里希纳(Arvind Krishna)表示,随着人工智能(AI)市场竞争的加剧,IBM 正计划通过提供能够整合客户使用的不同 AI 代理的工具,来提升其在该领域的销售。 这些工具将帮助客户管理他们在关键业务应用中的一系列 AI 代理,主要包括 Salesforce、Workday 和 Adobe 等公司的产品。 克里希纳指出,IBM 将助力客户构建适合未开发用例的 AI 代理,客户只需在五分钟内完成创建。
5/6/2025 6:00:51 PM
AI在线

Kimi 长思考模型 API 发布

kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型,它擅长深度推理。
5/6/2025 5:59:23 PM
汪淼

Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney

初创公司Recraft宣布完成3000万美元B轮融资,其图像生成模型“red_panda”在基准测试中超越DALL-E和Midjourney,成为行业焦点。该模型在品牌图像生成方面表现突出,精准放置品牌标识,无需额外编辑。#AI图像生成##Recraft融资#
5/6/2025 5:42:18 PM
远洋

深度监督网络作者谢赛宁被拒稿 11 年后翻盘获时间检验奖:拒稿≠学术死刑

谢赛宁十年前被 NeurIPS(当时还叫 NIPS)拒收的论文,刚在今年获得了 AISTATS 2025 年度时间检验奖。这篇论文就是《Deeply-Supervised Nets》(DSN,深度监督网络),2014 年 9 月挂上 arXiv。
5/6/2025 5:22:13 PM
汪淼

超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶

超越 DeepSeek-R1 的英伟达开源新王 Llama-Nemotron,是怎么训练出来的?刚刚放出的论文,把一切细节毫无保留地全部揭秘了!
5/6/2025 5:06:46 PM
汪淼

音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲

ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线

腾讯元宝上线「对话分组」:全平台同步 完全免费、不限次数

腾讯元宝宣布上线了一项新功能——「对话分组」。 这一功能的推出旨在帮助用户更好地管理和组织与元宝的聊天记录,使不同的对话能够根据项目、主题或任务进行分类,从而提升用户的使用体验。 「对话分组」功能允许用户为与元宝的聊天创建文件夹,就像在电脑上整理文件一样。
5/6/2025 5:00:41 PM
AI在线

通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!

出品 | 51CTO技术栈(微信号:blog51cto)北京时间5月6日,据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(title中不是阿里集团副总裁,所以职级应该为P10)已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 最早爆料该消息的公众号之一“互联网八卦小喇叭”发文表示:据可靠消息称:“薄老师于本月离职通义,即将进入某大厂担任多模态模型负责人”。
5/6/2025 4:03:20 PM

Perplexity AI 推出全新 Comet 浏览器,挑战 Chrome 霸主地位

近日,Perplexity AI 宣布将在本月推出其新款 AI 驱动的 Comet 浏览器,标志着互联网浏览器市场的一场变革。 作为一种新兴的浏览器,Comet 旨在成为 Google Chrome 的有力竞争者,特别是在信息检索和用户体验方面。 图源备注:图片由AI生成,图片授权服务商MidjourneyComet 浏览器的构想早有端倪,近期用户发现 Perplexity 官网上新增了一个 “Learn Comet” 按钮,此外还曾短暂公开过一段宣传视频。
5/6/2025 4:01:02 PM
AI在线

商汤科技携手中移动香港与香港中文大学法学院 开展视觉 AI 与大模型领域合作

近日,商汤科技在香港与中国移动香港有限公司及香港中文大学法学院签署了合作备忘录,正式启动在视觉人工智能(AI)与大模型技术等领域的深入合作。 这一合作旨在利用三方的优势,共同推动科技的创新与应用,助力香港及中国的科技发展。 商汤科技作为一家领先的人工智能企业,在视觉 AI 领域具有丰富的经验和技术积累。
5/6/2025 4:01:02 PM
AI在线