AI在线 AI在线

资讯列表

Sora/可灵/海螺/混元等大PK!多场景对比,现在谁是最强视频生成模型?

OpenAI的正式版Sora终于上线了! 不过,在Sora缺席的10个月里,Runway、可灵、海螺、混元等等模型都横空出世,有的甚至都卷出了自己的特色风格和功能,比如Runway的多帧修改、可灵生成的表情更加自然、海螺的二次元风格等等。 接下来我们就来一起看看,Sora和这些模型的对比效果究竟如何吧!
12/12/2024 10:00:00 AM
量子位

谷歌推出“深度研究”AI 工具,可一键生成调研报告

谷歌今日推出了一款名为“深度研究”(Deep Research)的全新人工智能工具,该工具能够利用其 Gemini 大型语言模型进行网络信息检索,并为用户生成详细的调研报告。
12/12/2024 9:43:11 AM
远洋

OpenAI ChatGPT 全球范围内宕机,苹果 iOS 18.2 Siri 受牵连

OpenAI 已证实其人工智能聊天机器人 ChatGPT 目前正经历全球范围的宕机,导致用户无法使用。这一问题也影响了 iOS 18.2 与 Siri 的集成功能。
12/12/2024 9:27:22 AM
远洋

小型语言模型与大型语言模型:2025年对企业的影响

小型语言模型 (SLM) 提供了比大型语言模型 (LLM) 更具成本效益的特定领域解决方案。 译自Small Language Models vs. LLMs: What They'll Mean for Businesses in 2025,作者 Souvik Das。
12/12/2024 9:11:58 AM
岱军

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Gemini 2.0 Flash是2.0家族第一个模型,主推原生多模态输入输出 Agent,速度比 1.5 Pro 快两倍,关键性能指标甚至超过了 1.5 Pro! 支持原生工具调用、以及实时音视频流输入等新功能谷歌CEO劈柴哥,谷歌DeepMind CEO 诺奖获得者Demis Hassabis,谷歌DeepMind CTO罕见齐下场共同撰文为Gemini 2.0 Flash的推出当啦啦队重点功能:更强性能: 速度更快,多模态、文本、代码、视频、空间理解和推理能力全面提升! 新能力比如空间理解,视频理解等可以通过Googele AI Studio 的Starter Apps来体验例如1,Gemini 2.0对空间的理解,利用Spatial Understanding,上传一张图片,Gemini快速进行图像中的物体检测(2D和3D形式都可以)和标注,并生成结构化的数据(JSON格式)。
12/12/2024 9:09:24 AM
AI寒武纪

豆包 Marscode 优秀实践

毫无疑问,Marscode 能解决非常多基础问题,特别对于编程新手而言,它能相对准确地生成各种代码,完成编程任务,但其底层并不神秘,本质上就是在传统 IDE 基础上,搭配足够好的交互与足够好的 LLM,从而超越传统 IDE。 交互方面,它在 VS Code 基础上,补充提供了:提供了几乎毫无门槛的代码自动补全能力,并且支持多行编辑,这在一些场景,如修改变量名时,非常好用。 行内、独立问答面板,可用于快速解答问题。
12/12/2024 9:02:35 AM
范文杰

谷歌测试 Gemini AI 游戏助手:实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0,并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则,从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示,这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理,并通过实时对话为玩家提供后续操作建议。”他们还提到,这些助手还可以“利用谷歌搜索,将玩家与网络上丰富的游戏知识连接起来。”
12/12/2024 9:02:04 AM
远洋

全球首个“AI 程序员”Devin 全面开放:可独立开发 / 修复 bug,月费 500 美元

Devin 能够熟练运用多种编程语言,独立完成网站和应用程序的构建与部署,甚至能够自主发现并修复代码缺陷。官方表示,其已通过多家 AI 公司的实践性工程师面试,并成功在 Upwork 等自由职业平台上完成实际项目。
12/12/2024 8:31:35 AM
清源

谷歌推出 AI 代码助手 Jules,可帮助开发者修复代码错误

谷歌今日宣布推出一款名为“Jules”的实验性 AI 代码助手,旨在帮助开发者自动修复代码错误。该工具今日与 Gemini 2.0 一同发布,其使用更新后的谷歌人工智能模型来创建多步骤计划,以解决问题、修改多个文件,并为 GitHub 工作流中的 Python 和 Javascript 编码任务准备拉取请求。
12/12/2024 8:30:42 AM
远洋

3DDFA-V3:引领三维人脸重建新纪元

一、引言从二维图像中重建三维人脸是计算机视觉和图形学领域的一项重要任务,它在虚拟现实(VR)、增强现实(AR)、计算机生成图像(CGI)等领域有着广泛的应用。 近年来,随着深度学习技术的不断发展,三维人脸重建技术取得了显著的进步。 本文将对最新提出的3DDFA-V3算法进行详细介绍,展示其如何凭借创新的几何引导策略和面部区域分割技术,实现高精度和高鲁棒性的三维人脸重建。
12/12/2024 8:28:11 AM
AGI

如何在安卓手机上本地安装和运行LLM?

译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上:没有云,没有互联网,只有纯粹的设备端智能! 在安卓手机上本地运行大语言模型(LLM)意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能(AI)模型。 这种本地环境通过确保数据安全、并在设备端来确保隐私。
12/12/2024 8:26:50 AM
布加迪

谷歌称 Project Astra 将开启测试,部分人员通过智能眼镜体验 AI 助手

在 Gemini 2.0 发布前的媒体简报会上,谷歌 DeepMind 团队的产品经理 Bibo Xu 透露,“一小部分人将通过原型眼镜测试 Project Astra,我们认为这是体验此类 AI 最强大、最直观的方式之一。”这部分测试人员将隶属于谷歌的 Trusted Tester 项目,该项目通常能够接触到这些早期原型,其中许多原型最终并不会公开发布。据悉,部分测试人员将通过安卓手机使用 Astra,而另一部分则通过眼镜进行体验。
12/12/2024 8:19:47 AM
远洋

谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了! 就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。 新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。
12/12/2024 8:18:50 AM

30秒完美复刻你的声音,这就是当今最强的中文AI语音克隆!

往期作者干货:. 专访"Prompt之神"李继刚:我想用20年时间,给世界留一句话我想,任何在 AI 圈学习过 Prompt 的人,一定不会对李继刚这个名字陌生。 阅读文章 .
12/12/2024 7:26:39 AM
数字生命卡兹克

重磅发布!详解Ant Design最新的AI体验设计规范

更多AI体验设计方法:. 从3个角度,总结AI大模型产品的界面设计规范每一种全新的产品类型在经过一段时间发展之后,各家竞争对手之间的界面都会变得相似和趋同,以至于形成约定俗成的行业规范。 阅读文章 .
12/12/2024 12:44:26 AM
Ant Design 元尧

OpenAI下一代模型突遭泄露!「半GPT-5」旗舰模型猎户座要来了?

OpenAI的新模型,竟被意外泄露了? 圣诞马拉松第四天,网友们从OpenAI研究员Karina Nguyen介绍Canvas功能的帖子里,发现了蛛丝马迹。 一个名叫「ChatGPT ε」的模型,现身了。
12/12/2024 12:40:07 AM
新智元

终于把图神经网络算法搞懂了!!!

今天给大家分享一个强大的算法模型,GNN。 图神经网络(GNN)是一类专门处理图结构数据的深度学习模型。 在传统的深度学习中,输入数据通常是结构化的(如图像、文本、时间序列等),这些数据都可以表示为一个规则的网格或序列。
12/12/2024 12:29:03 AM
程序员小寒

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。 这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。 因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。
12/12/2024 12:25:09 AM
余俊晖