AI在线 AI在线

AI

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放,后续将新增“照片生成视频”功能

谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放,Pro会员每天限生成3段视频。照片生成视频功能即将上线,但使用门槛仍较高,需订阅Pro会籍(每月20美元)。#AI视频生成# #谷歌Veo3#
7/4/2025 7:57:13 AM
漾仔

实现AI战略短期与长期有效的四大关键要素

分析师们敦促技术领导者要管理好预期,特别是对于GenAI,因为其在短期内往往承诺的多于实际能交付的。 Gartner建议,CIO必须帮助CFO将AI视为一项长期战略投资,而Forrester则警告说,如果对AI投资的即时回报预期未能实现,许多企业将会过早地缩减投入。 但并非所有企业都在为此挣扎,通过与四位经验丰富的IT领袖的交流,我们描绘出了一幅更为平衡的图景。
7/4/2025 7:02:00 AM
Pat Brans

2025年软件开发者必备的十大AI智能体框架全解析

人工智能智能体(AI Agent)技术正在彻底改变软件开发的范式,从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。 对于希望构建智能应用的开发者而言,选择合适的AI智能体框架成为项目成功的关键。 本文将深入解析2025年最值得关注的11大AI智能体框架,从技术特性、适用场景到代码示例进行全方位对比,帮助开发者做出明智选择。
7/4/2025 4:22:00 AM
大模型之路

2025 年 AI 工具全栈开发引擎:从 PDF 到语音仪表板

从 PDFs 到视觉模型,从零样本智能体到语音交互仪表板,我将 2025 年的顶级 AI 工具融合成一个个人全栈开发引擎,彻底改变了我的开发方式。 一切的起点:技术栈我曾被各种工具淹没:• OCR 用一个库• 语音处理用另一个• 视觉模型再来一个• 嵌入、RAG、仪表板,每样都有单独的工具于是,我做了每个不堪重负的开发者最终会做的事:统一它们。 这就是魔法的开始。
7/4/2025 2:15:00 AM
AI研究生

FastAPI开发AI应用一:实现连续多轮对话

本文将通过一个完整的实战项目,介绍如何使用 FastAPI 框架开发 AI 聊天应用,重点讲解连续多轮对话的实现原理和核心技术。 即使你是编程新手,也能跟着本教程一步步构建出功能完整的 AI 聊天应用。 本项目已经开源之 Github,项目地址:,你正在和一个聪明的 AI 助手对话,它不仅能回答你的问题,还能记住你们之前聊过的内容。
7/4/2025 12:00:00 AM
wayn

新闻出版业危机:ChatGPT 引荐流量增长难抵 AI 搜索冲击

Similarweb报告显示,AI驱动的搜索结果导致新闻网站自然流量大幅下滑,2024年5月至2025年5月未转化为点击的搜索比例从56%升至69%。尽管ChatGPT对新闻网站的引荐流量增长25倍,但仍难弥补整体损失。#AI冲击新闻业# #ChatGPT#
7/3/2025 3:59:50 PM
远洋

从播客到带娃,看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)在大多数人还在摸索 AI 能帮自己做什么时,那些全球最忙、最顶尖的大公司 CEO,更是乐在AI中,更为恐怖地是,这些大佬可不是为了炫技,而是纯纯的刚需。 他们用 AI 跟播客“对话”、用 AI 总结邮件、甚至在深夜带娃时,也离不开 ChatGPT。 本文带你看看,微软、OpenAI、苹果、英伟达、Zillow 这五位 CEO,分别是怎么在日常生活中「高频使用 AI」的。
7/3/2025 3:40:27 PM
云昭

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

国产开源统一图像生成模型,技术重大升级! 新进展来自智源研究院:一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。 具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。
7/3/2025 3:01:26 PM

RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。 除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。
7/3/2025 2:58:16 PM

DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2,终于要来了? 大模型竞技场秘密上线了一个叫steve的神秘模型,在对话中透露自己来自DeepSeek。 不过,网友们并不满足于知道steve的厂商,开始讨论起了steve的具体身份。
7/3/2025 2:57:51 PM

一份假简历领5份硅谷AI工资,印度老哥真是不得了

离谱!  一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。 这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
7/3/2025 2:56:12 PM

谢赛宁团队新作:不用提示词精准实现3D画面控制

henry 发自 凹非寺量子位 | 公众号 QbitAI曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/3/2025 2:31:12 PM
henry

高端 AI 服务博弈:Perplexity Max 订阅上线,月费 200 美元

Perplexity 公司针对资深高级用户,推出了 Perplexity Max 订阅计划,月费为 200 美元(IT之家注:现汇率约合 1433 元人民币),可以享受诸多权益。
7/3/2025 2:29:11 PM
故渊

Claude含AI量超Cursor一倍!资深工程主管揭秘AI编码真相!谷歌谨慎全搞自研;软件架构教父:像从汇编时代跃迁到高级语言

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)这应该是我听过最扎实、最客观的一场 AI 编程演讲。 它不讲“奇迹”,也不兜售“焦虑”。 而是抛出一个很实在的问题:“今天我们能不能做一次现实核查: 那些极度乐观的 AI 编程预言,靠谱吗?
7/3/2025 2:09:01 PM
伊风

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型近年来凭借对比学习范式在图像检索、文生图等任务中表现出色。 然而,主流框架(如 CLIP)需要从零训练文本和图像编码器,导致计算成本高昂,尤其在处理长文本或大规模数据时更加明显。 近期,相关工作尝试将预训练的大语言模型(LLM)作为文本编码器融入多模态对齐框架,并在分类和检索任务上观察到性能提升。
7/3/2025 9:49:43 AM

周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性

将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。 当前主要的方法是基于人类反馈的强化学习(RLHF)。 该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。
7/3/2025 9:41:27 AM

刚刚,神秘模型火了!网友:是OpenAI要开源?

刚刚,OpenRouter 上出现了一个神秘模型,该模型被命名为「Cypher Alpha」。 其可以免费使用,100 万 token 上下文,还具有推理能力。 注:OpenRouter 是一个大模型 API 路由器,旨在将各种 AI 模型和服务集成到一个统一的接口中。
7/3/2025 9:31:52 AM

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。 通讯作者为张倬胜助理教授和刘功申教授。 一、论文概述1.1 研究背景随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,越来越多的研究聚焦于构建能够在图形用户界面(GUI)中执行复杂任务的智能体。
7/3/2025 9:27:57 AM