AI在线 AI在线

资讯列表

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元

谷歌推出全新 Gemini 2.5 Flash:智慧与速度兼具的 AI 助手

谷歌近日在其 Gemini 系列中推出了全新的 Gemini2.5Flash,这一版本正在进行预览,旨在为开发者提供更强大的推理能力。 借助 “思考” 过程,开发者可以根据需求灵活控制成本和延迟,打造更具性价比的解决方案。 与前一版本2.0Flash 相比,Gemini2.5Flash 的升级主要体现在推理能力上。
4/18/2025 9:01:28 AM
AI在线

Midjourney图像编辑器迎来重大更新:全新UI、图层功能与智能工具上线

全球领先的AI图像生成平台Midjourney于2025年4月17日宣布,其图像编辑器迎来了一次重要更新。 此次更新不仅优化了用户体验,还引入了多项创新功能,进一步巩固了Midjourney在AI创意工具领域的领先地位。 以下是AIbase为您整理的最新资讯,带您深入了解这一激动人心的升级。
4/18/2025 9:00:50 AM
AI在线

微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。
4/18/2025 8:54:22 AM
故渊

使用测试时间训练(TTT)生成一分钟视频

译者 | 布加迪审校 | 重楼从文本生成视频已取得了长足的进展,但在制作更长的多场景故事时仍然会遇到瓶颈。 虽然Sora、Veo和Movie Gen之类的扩散模型已提高了视觉质量的门槛,但它们通常仅限于 20秒以内的片段。 真正的挑战是什么?
4/18/2025 8:47:22 AM
布加迪

UC伯克利:让推理模型少思考,准确率反而更高了!

让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位

OpenAI 最强推理模型 o3 / o4-mini 发布后,“照片查位置”成最新热门玩法

ChatGPT 已成为一种强大的“定位工具”。X上的用户很快发现,o3等新模型善于从各种细节中推断城市、地标,甚至具体的餐馆和酒吧。
4/18/2025 8:16:02 AM
清源

使用LangGraph构建你的第一个AI Agent-附完整代码

AI Agent 指的是有能力主动思考和行动的智能体,能够以类似人类的方式工作,通过大模型来“理解”用户需求,主动“规划”以达成目标,使用各种“工具”来完成任务,并最终“行动”执行这些任务。 从模型到 Agent在 Agent 出现之前,我们将 AI 模型建为独立且互不关联的组件——一个模型用于理解文本,一个模型用于生成代码,还有一个模型用于处理图像。 这种碎片化的方法迫使用户手动管理工作流程导致在不同系统之间切换时上下文信息消失需要为每个流程步骤集成 ai 模型Agent 的出现就是为了解决这一碎片问题。
4/18/2025 8:01:21 AM
wayn

通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

阿里通义宣布开源 Wan2.1系列模型,其中包括强大的首尾帧生视频模型。 这一模型采用了先进的 DiT 架构,在技术上实现了多项突破,显著降低了高清视频生成的运算成本,同时确保了生成视频在时间与空间上的高度一致性。 此次开源为开发者和创作者提供了强大的工具,推动视频生成技术的发展。
4/18/2025 8:01:08 AM
AI在线

字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。
4/18/2025 7:48:14 AM
清源

谷歌也要“送 AI 进校园”:美国大学生可限时免费订阅 Google One AI Premium 计划

这一订阅方案不仅提供2TB云存储空间,还包含多项 AI 工具,帮助学生“更高效地学习”。其中,Gemini 2.5 Pro 驱动的 Gemini Advanced,是谷歌为对抗 ChatGPT Plus 推出的旗舰级产品。
4/18/2025 7:39:43 AM
清源

AI 与非结构化数据:简单 RAG 的局限及生产级解决方案全解析

非结构化数据涵盖了电子邮件、PDF 文件、会议记录等多种形式,它们充斥在各个角落,却由于缺乏固定的格式,给传统的数据处理工具带来了巨大的挑战。 而人工智能(AI)的出现,尤其是大型语言模型(LLMs),为解决非结构化数据的难题带来了新的希望。 但在实际应用中,简单的检索增强生成(RAG)方法却存在诸多不足,无法满足复杂的生产级场景需求。
4/18/2025 2:55:00 AM
大模型之路

性能依旧领先!OpenAI深夜上线o3满血版和o4 mini

昨天晚上 1 点,OpenAI 的直播如约而至。 其实在预告的时候,几乎已经等于明示了。 没有废话,发布的就是 o3 和 o4-mini。
4/18/2025 1:02:47 AM
数字生命卡兹克

95%设计师不知道的Zero-UI,可能是未来必然的设计趋势

Zero-UI,也就是零用户界面,最近又悄悄地火了起来。 事实上,它并不是一个新概念,大家熟悉的智能家居的语音交互,就是非常典型的例子。 随着 AI 技术的发展,它将越来越多地融入到我们的生活和工作场景中,未来设计趋势也将随之转变。
4/18/2025 12:50:57 AM
58UXD 团队

防赔款指南!5分钟搞懂AI字体版权问题(附查询网站)

嗨大家好! 今天的干货不是 AI 技巧方面的,而是来自法律方面的。 前几天我发了一条字体设计的提示词模板的内容,相信有的朋友已经看过了,我看到评论区很多朋友提出了疑问,那就是如果我用 AI 做的字体侵权了怎么办?
4/18/2025 12:42:00 AM
阿真Irene

自主式AI对安全专家来说既是福音也是祸患

网络安全在自主式AI面前站在了一个十字路口,我们从未拥有过如此强大的工具,它可以在眨眼之间创建大量的代码,发现并解除威胁,并且可以被如此果断且防御性地使用,这已经被证明是一个巨大的力量倍增器和生产力红利。 但虽然功能强大,自主式AI却并不可靠,这就是目前的困境。 所创建的代码可能包含微妙的缺陷,并且最终可能会弊大于利,比如通过助长网络钓鱼诱饵和构建新型恶意软件。
4/18/2025 12:10:00 AM
David Strom

阿里、蚂蚁、腾讯纷纷推出 AI 组件库,React / Vue 全覆盖,AI 组件库超全汇总来啦!

随着 AI 技术的快速发展,阿里、蚂蚁、腾讯都相继发布了各自的 AI 组件库。 这些组件库支持 React 和 Vue 技术栈,为开发者提供了高效的解决方案。 Ant DesIgn XAnt Design X 是蚂蚁集团开发的 AI 组件库。
4/18/2025 12:04:00 AM
前端充电宝

超实用!用FunctionCall实现快递AI助手

昨天晚上直播,我们用 RAG(Retrieval-Augmented Generation,检索增强生成)实现了数据库 AI 助手,今天我们准备换一个技术使用 function call 来实现快递 AI 助手。 执行效果快递 AI 助手的业务逻辑很清晰,就是我通过 LLM 大语言模型的对话来查询我的快递详情,例如,我问 AI 我有几个“运送中”的快递,他把这些快递查询并展示出来,效果如下图所示:图片什么是 function call? 定义: Function Call(也称为 Tool Call)它允许大模型与一组 API 或工具进行交互,从而增强其功能。
4/18/2025 12:00:00 AM
磊哥