应用
人机交互大迈步,OpenAI GPT-4o 演示视频引热议:AI 之间也能聊天
OpenAI 昨日凌晨发布 GPT-4o 模型,可以视为 GPT-4 的升级版本,可以实时推理处理音频、视觉和文本内容,而且能更加无缝地和 ChatGPT 交互。OpenAI 总裁兼联合创始人格雷格・布罗克曼(Greg Brockman)随后发布了上手演示,让两台运行 GPT-4o 的设备进行语音或视频交互。布罗克曼在演示开始之前,表达了自己的期望:让两台 AI 聊天机器人互相交流。布罗克曼向其中 A 聊天机器人讲述了他的期望,并让 B 聊天机器人可以调用摄像头观察周围世界。B 聊天机器人会调用前置摄像头,并清晰地
5/15/2024 6:04:08 AM
故渊
谷歌 Calendar、Tasks 和 Keep 等服务将集成 Gemini
谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布在 Google Calendar、Tasks 和 Keep 应用中整合 Gemini 模型,为用户带来更丰富的 AI 功能。谷歌在开发者大会上表示,Gemini 聊天机器人支持网页或者移动 App 中上传图片操作,IT之家附上谷歌官方例子如下,拍一张学校活动列表的照片,然后让 Gemini 把它们添加到你的个人 Google Calendar 中。谷歌提供的另一个例子是让 Gemini 将食谱中的项目添加到谷歌 Keep 购物清单中。Gemini 负责
5/15/2024 4:06:11 AM
故渊
谷歌 Workspace 办公套件整合 Gemini:可总结邮件内容、梳理会议要点等
谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布 Google Workspace 将进一步整合 Gemini,在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用,是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 副总裁阿帕纳・帕普(Aparna Pappu)在会上说:“Gemini 时代的 Workspace 将开启完成工作的新方式”。IT之家注:谷歌 Workspace 的 Gmai
5/15/2024 3:45:19 AM
故渊
谷歌 Gemini 解锁旅行规划技能,几秒内帮你妥当安排行程
谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布为 Gemini 引入旅行规划功能,结合个人信息和公共出行信息,帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示,挖掘航班时间和酒店预订等具体细节,在几秒钟内制定出合适的度假行程。谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 表示,用户手动规划一次旅行可能需要数小时、数天甚至数周的时间,而 Gemini 几乎可以瞬间完成。Hsiao 表示 Gemini 的规划是动态的,用户可以根据后期提示和其它要求进一步调整规划。
5/15/2024 3:28:56 AM
故渊
你的助手你决定,谷歌推出 Gems 功能:由用户定制 Gemini 角色
谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布为 Gemini 推出名为“Gems”的个性化选项,可以让用户定制 Gemini 助手角色。Gems 功能可以让用户迭代的聊天机器人,在保留指定特征的情况下帮助你完成某些任务。Gems 感觉类似于 OpenAI 的 GPT Store,可以让你制作定制的 ChatGPT 聊天机器人。该功能也有点像在 Character.AI 中创建自己的机器人,Character.AI 可以让你与虚拟的流行人物和名人甚至假冒的心理医生交谈。谷歌表示,用户通过 Gems
5/15/2024 3:12:28 AM
故渊
哪里不会圈哪里,谷歌赋予“圈选即搜”新技能:帮你解数学题
谷歌在今天召开的 I / O 2024 开发者大会上,宣布进一步增强安卓手机端的“圈选即搜”(Circle to Search)技能,可以用于解答数学、物理等问题。谷歌表示学生可以使用安卓手机或平板电脑,通过“圈选即搜”功能解决家庭作业中的数学、物理问题。该功能将帮助解题,并列出学生需要做什么才能得到正确答案。根据谷歌的说法,它不会真的帮你做作业,只会帮助你解决问题。IT之家从报道中获悉,谷歌还表示将会继续升级“圈选即搜”技能,后续将支持公式、图表、图形等复杂数学方程式,谷歌正在使用经过学习微调的新人工智能模型 L
5/15/2024 3:04:01 AM
故渊
文生图技能再进化,谷歌推出 Imagen 3:更准确、更具创造性
谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布推出了 Imagen 3,进一步增强了文本生成图片的技术能力。谷歌人工智能研究部门 DeepMind 负责人德米斯-哈萨比斯(Demis Hassabis)说,与前代产品 Imagen 2 相比,Imagen 3 能更准确地理解文字提示,并将其转化为图像,而且其生成的图像更具“创造性和细节”,且模型产生的干扰元素和错误也更少。为了打消人们对 Deepfake 可能性的担忧,谷歌表示,Imagen 3 将使用 DeepMind 开发的 SynthID 方法
5/15/2024 2:36:36 AM
故渊
剑指 Sora,谷歌推出 Veo 文生视频模型:时长超 1 分钟、最高 1080P,支持电影手法
感谢OpenAI 三个月前推出文本转视频 Sora,引发了网友、媒体以及圈内人士的广泛讨论。谷歌在今天召开的 2024 I / O 开发者大会上,也推出了对标产品-- Veo,可以生成长度超过 1 分钟,分辨率最高 1080P 的“高质量”视频,并具有多种视觉和电影风格。根据谷歌官方新闻稿,Veo 具备对自然语言有先进的理解能力,能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示来指导他们所需的输出,谷歌表示,这样产生的视频“更加连贯一致”,在整个镜头中人物、动物和物体的动作也更加逼真。
5/15/2024 2:27:03 AM
故渊
对轰 GPT-4o,谷歌推出 Astra 项目:手机镜头内低延迟聊天交互
谷歌公司在今天召开的 2024 年 I / O 开发者大会上,推出了全新的 Project Astra 项目,基于 Gemini,可以本地运行在 Pixel 手机上,可以说是对标 OpenAI GPT-4o 的最新模型。谷歌表示 Project Astra 是最新的多模态 AI 项目,用户打开摄像头,该多模态项目可以直接解释用户画面中物品。该公司刚刚用一段令人印象深刻的视频演示了它的功能,在一个不间断的镜头中,它能正确识别几件物品,回忆起它在哪里看到了主人的眼镜(靠近桌子上的一个红苹果),还能解释屏幕上的代码。IT
5/15/2024 2:13:49 AM
故渊
谷歌今夏推“Ask Photos”功能,聊天方式更快找到照片和视频
谷歌公司在今天召开的 2024 年 I / O 开发者大会上,宣布今年夏季将为 Google Photos 推出“Ask Photos”辅助服务,带来更贴心的搜索体验。谷歌首席执行官桑达尔・皮查伊现场演示,询问 Google Photos 应用:“我的车牌号是多少来着?”此前用户搜索车牌需要滚动浏览许多不同汽车的照片,而在演示中 Google Photos 能根据位置、多年来在照片中出现的次数和其他数据,找出哪辆车才是要找的车牌号,并以文字回复的形式提供了实际车牌号,同时还提供了一张验证车牌号的图片。皮查伊表示 A
5/15/2024 2:05:48 AM
故渊
谷歌 Gemini 家族添 Flash 新成员:平衡规模和能力、支持多模态,单次可分析 3 万行代码
谷歌公司今天扩充 Gemini 家族成员,推出了全新的 Gemini 1.5 Flash 模型,重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)在一篇博客文章中写道:Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注:Gemini
5/15/2024 1:47:17 AM
故渊
可以折叠抱回家的人形机器人来了,只要9.9万元
机器之能原创作者:Cardinal昨天,宇树科技正式推出最新的人形机器人 Unitree G1,起步价仅 9.9 万元(人民币)九个月前,宇树科技发布了公司第一款通用人形机器人 Unitree H1,售价 9 万美金( !)。和 H1 相比,Unitree G1 身材大幅「缩水」,但多了一双手,关节数量也更多,价格比 H1 便宜了几十万!也远低于现有人形机器人公司报价!机器之心,赞352站在 1.78 米的 Unitree H1 旁边,Unitree G1 完全一副一年级小学生模样,身高 1.27 米,体重 70
5/14/2024 7:06:00 PM
机器之能
AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力
人工智能聊天机器人领域烽烟再起,谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕,这家科技巨头发布了一段视频,展示了疑似经过升级的 Gemini 聊天机器人。视频中,Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的,视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问,并准确地提供信息。当被问到正在进行的布置工作时,Gemini 正确识别出这是为一个重要活动做的准备。 整个对话过程自然
5/14/2024 6:06:23 PM
远洋
OpenAI 解释为何率先推出 Mac 版 ChatGPT 应用:用户更多
OpenAI 今日凌晨举办线上活动,发布了 ChatGPT 的一系列更新,其中包括升级版大型语言模型 GPT-4o,该模型具备增强的实时语音功能和更快的运行速度。图源:OpenAI众所周知,OpenAI 与微软关系密切,后者向其投资了超过 100 亿美元(IT之家备注:当前约 724 亿元人民币),并已经在自家的 Copilot 服务中使用 OpenAI 的技术。然而在本次活动上,OpenAI 率先发布了 macOS 版 ChatGPT 应用,Windows 版本今年晚些时候才会推出。对此,OpenAI 技术总监
5/14/2024 5:40:15 PM
远洋
免费GPT-4o来袭,音频视觉文本实现「大一统」
作者 | 赖文昕今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与谷歌明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。 不过 Sam Altman 随后在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。
5/14/2024 3:49:00 PM
赖文昕
重新定义Ultra标准,vivo X100系列新品正式发布
5 月 13 日,vivo X100 系列新品三舰齐发,宣布与蔡司签署全新的联合研发扩展协议,以自研和共研并行的开放体系,与蔡司共同探索移动影像新高度。同时推出了蓝图影像,在 X100 系列上市的蓝图影像专属于 vivo|蔡司联合研发产品线,代表了 vivo 影像在关键场景的认知与积累。vivo 已经连续三年稳坐国产手机销量第一。今年 Q1,vivo 持续保持了第一成绩,满分旗舰 X100 系列功不可没。在 vivo X100、vivo X100 Pro 持续热销收获好口碑之时,vivo 此次升级发布了 vivo
5/14/2024 1:59:00 PM
新闻助手
买烟酒不用出示证件,德国超市 Edeka Jaegar 引入 AI 视觉技术检测顾客年龄
德国超市 Edeka Jaegar 近日宣布在斯图加特机场内开设的商店中引入了一款利用 AI 检查顾客年龄的自主结账机系统,号称能够利用视觉处理技术分析消费者面部特征,来判断年龄“放行”顾客购买限制商品。该超市表示,此前消费者购买烟酒等有年龄限制的商品时,如果使用自助结账机,也必须由真人店员检查证件,拖延结账效率。而在引入相关 AI 摄像头后,一旦在顾客自助结账时扫描“年龄限制”商品,系统就会询问客户是否需要进行年龄识别。一旦获得同意,结账机就会设备内置的摄像头配合算法来实时验证年龄。如果购物者的年龄高于预定义的阈
5/14/2024 9:52:35 AM
漾仔
Anthropic 宣布在欧洲推出 Claude 聊天机器人,精通多种语言
人工智能初创公司 Anthropic 宣布其生成式 AI 助手 Claude 将于当地时间周二在欧洲上线,该公司的基础软件产品已经在欧洲各地的金融和酒店等行业获得了一定的吸引力。Anthropic 还将提供付费订阅版本,名为 Claude Pro,向用户开放其所有模型(包括最先进的 Claude 3 Opus)。此外,Anthropic 还推出了面向企业的 Claude Team 订阅计划,月费 28 欧元(IT之家备注:当前约 219 元人民币,不含增值税)。Anthropic 首席执行官 Dario Amode
5/14/2024 8:31:16 AM
问舟
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
Anthropic
英伟达
代码
训练
算法
Stable Diffusion
芯片
LLM
AI新词
蛋白质
开发者
腾讯
生成式
Claude
苹果
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
人形机器人
xAI
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
场景
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
特斯拉
应用