资讯列表
Manus开源平替!Kortix-AI正式发布开源通用AI智能体平台Suna
Kortix-AI正式发布开源通用AI智能体平台Suna,定位为热门AI工具Manus的开源替代品。 据AIbase了解,Suna集成了浏览器自动化、文件管理、网络爬虫、扩展搜索、命令行执行、网站部署及API集成等功能,通过自然语言对话实现复杂任务的自动化处理。 项目已在GitHub上线,凭借其强大的功能集与开源特性,迅速成为AI开发者和自动化爱好者的关注焦点。
Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。
3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机
随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。 在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴涨显存占用,甚至导致系统宕机。 这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的安全盲区。
最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型
译者 | 崔皓审校 | 重楼开篇就在OpenAI推出 GPT 4.1 系列几天后,又发布了o3 和 o4-mini 的推理模型,这表明大模型正式迈向 AGI( 人工通用智能 )。 o3 和 o4-mini 不仅仅是 AI 模型;它们还具备智能性、自治性、可调用工具以及与真实软件对接的技能,是一个真正意义上的AI 系统。 新模型不会被动工作;而是主动使用工具自动完成任务!
少即是多:为什么文档检索量低反而会提高答案质量
译者 | 核子可乐审校 | 重楼检索增强生成(RAG)是一种将语言模型与外部知识源结合的AI系统构建方法。 简单来说,AI会先搜索与用户查询相关的文档(如文章或网页),然后利用这些文档生成更准确的答案。 这种方法因能帮助大语言模型(LLM)扎根真实数据、减少虚构信息而受到推崇。
“Google一下” AI 化,头部网站点击率暴跌三分之一
2024年,Google大规模上线“AI 总结功能(AI Overviews)”——搜索结果页首条直接由AI生成的答案。 Google声称这能帮用户“更高效地获取信息”,甚至还说可能带动网站点击量提升。 但真实数据打脸来得很快——最新的Ahrefs分析显示:AI 总结功能让头部网站点击率暴跌34.5%。
苹果 Siri 团队大换血:AI 浪潮下,新负责人能否力挽狂澜?
彭博社今天(4 月 23 日)发布博文,报道称苹果新任 Siri 工程负责人 Mike Rockwell 正在对语音助手 Siri 的开发管理团队进行大刀阔斧的改革。
数智飞轮:AI时代企业增长的核心密码
格罗斯用了几十年才从债券市场获得惊人利润,离不开彭博终端这把钥匙。 华尔街精英用彭博终端洞察市场,你的企业用什么洞察业务增长? 数据时代,企业掌握着海量信息,却常常无法变现。
MinerU部署实践:从零开始搭建你的专属PDF解析服务
在多模态RAG(Retrieval-Augmented Generation)系统中,PDF文件的高效、安全解析与处理是实现高质量知识检索和生成的关键环节。 PDF文件通常包含丰富的文本、图像和表格信息,这些多模态数据的有效提取和整合对于提升RAG系统的性能至关重要。 然而,传统的PDF解析工具往往存在解析精度不足、无法处理复杂格式(如图像和表格)等问题,尤其是在涉及私密文档时,数据安全和隐私保护也是一大挑战。
7个AI视频照明样式提示词+效果展示
在AI视频创作中,精准的照明样式是提升作品质感的关键。 本文系统解析7种专业级照明样式提示词,结合视觉效果对比,为创作者提供直观的应用指南。 上期回顾:.
AI生物大模型ProGen3:重新定义蛋白质设计的未来
在生命科学的前沿,AI 技术正在引发一场革命。 最近,生物计算公司 ProFluent 推出了 ProGen3,一款强大的生成式蛋白质语言模型(PLM),它有望在抗体、工业酶及基因编辑领域带来重大突破。 研究显示,ProGen3的规模和设计优化能够生成功能强大的新型蛋白质,甚至重塑我们对生物学的理解。
腾讯云发布座舱端侧大模型,车载 AI 迎来“边开边提醒”时代
在4月22日上海车展开幕前夕的 TIME DAY 腾讯智慧出行技术开放日上,腾讯云重磅推出全新的座舱端侧大模型。 该模型基于腾讯混元2B 小参数模型打造,并结合汽车行业专业知识数据进行精细调整和本地知识检索增强(RAG),旨在实现通用及车载知识领域的精准问答。 借助该座舱端侧大模型,车辆能够为用户提供包括驾驶行为建议、车辆操作指导、故障处理以及潜在驾驶安全风险提醒等实时服务,真正实现“边开边提醒”的智能体验。
腾讯混元3D AI引擎2.5即将揭晓,3D生成技术再升级
腾讯宣布将于明日正式揭晓混元3D AI引擎2.5(Hunyuan3D AI Engine2.5),进一步推动AI驱动的3D内容创作革新。 据AIbase了解,作为混元3D2.0的升级版本,2.5预计在几何生成、纹理合成与生成速度上实现重大突破,为游戏开发、虚拟现实与创意设计等领域带来更高效的解决方案。 腾讯官方预告引发了全球开发者与创作者的热烈期待,相关细节将在明日发布会公布。
哥大退学生打造“AI作弊器”获3800万元融资,声称可以在各种场景中作弊
在当今数字化时代,人工智能技术正以前所未有的速度渗透到各个领域,从智能家居到自动驾驶,从医疗诊断到金融分析,AI 的应用场景不断拓展。 然而,技术的双刃剑特性也在某些领域引发了争议。 最近,两位哥伦比亚大学的退学生凭借一款“AI 作弊器”获得了大笔融资,再次引发广泛关注。
谷歌 Gemini 推出视频分析功能,能准确识别视频拍摄场所
近日,科技媒体 Android Authority 报道称,谷歌最新的 Gemini 聊天机器人引入了一项引人注目的新功能 —— 视频分析。 用户现在可以轻松上传视频并提问,Gemini 会基于视频内容进行智能分析,回答相关问题。 这一创新功能无疑为视频内容的处理带来了新的可能性,吸引了广大用户的关注。
Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟
想象一下,如果能「偷听」70万次AI和人类的私密对话(别担心,是匿名的),会发现什么? AI仅仅是个概率机器,还是一个善于隐藏自己真实性格的——等会,AI真的有性格吗? 也许说性格不合适,现阶段的AI智能或许用「价值观」来形容最为合适。
初探谷歌 Gemini 视频解析功能,AI 准确识别视频拍摄场所
科技媒体 Android Authority 今天(4 月 22 日)发布博文,报道称谷歌 Gemini 聊天机器人被发现新增视频分析功能。用户可上传视频并提出相关问题,Gemini 能够基于视频内容进行精准分析。
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
视频生成领域,又出现一位重量级开源选手。 今天,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。 这是一个通过自回归预测视频块序列来生成视频的世界模型,生成效果自然流畅,还有多个版本可以下载。