应用
通义推出CoGenAV多模态语音表征模型 可实现音画同步感知
近日,通义大模型发布CoGenAV,以音画同步理念创新语音识别技术,有效解决语音识别中噪声干扰的难题。 传统语音识别在噪声环境下表现欠佳,CoGenAV则另辟蹊径,通过学习audio-visual-text之间的时序对齐关系,构建出更鲁棒、更通用的语音表征框架,系统性提升语音识别任务(VSR/AVSR)、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。 在技术实现上,CoGenAV采用“对比生成同步”策略。
Vidu API 节点即将上线 ComfyUI
近日,Vidu AI与ComfyUI携手开启全新联动,为创作者们带来从图像到视频的创作新体验。 Vidu API节点即将正式上线ComfyUI,实现轻松图生视频,让创作流程再次升级。 对于创作者而言,快速上手新功能至关重要。
荣耀确认进军机器人产业,机器人跑步速度达 4m/s 创行业纪录
荣耀CEO李健在400系列新品发布会上意外官宣进军机器人业务,其研发的机器人跑步速度已达4m/s,打破行业记录。#荣耀机器人# #科技前沿#
日本出台首部人工智能法:促进技术研发应用并防止滥用
据新华社,日本参议院全体会议今日以多数赞成票通过首部专门针对人工智能(AI)的法律,旨在促进 AI 相关技术研发和应用并防止其滥用。
研究称 AI 写作水平仍不及真实学生:缺少个人体会与细腻的批判思维
虽然 AI 写出来的文章结构清晰、语法正确,但却缺乏“人味”——也就是个性化视角。缺少个人体会与细腻的批判思维,正是它与学生作业之间最明显的差异。
Opera Neon推出首款AI代理浏览器,助力用户智能上网
Opera 公司今天宣布推出其全新浏览器 Opera Neon,这是该公司首款 “AI 代理” 浏览器,旨在重新定义浏览器在网络中的角色。 开发者表示,Neon 能够理解用户的意图,并利用人工智能驱动的功能将这些意图转化为实际行动,极大提升了用户体验。 Opera Neon 由三个主要功能模块组成:Neon Chat、Neon Do 和 Neon Make。
互联网公司激烈抢人:实习岗位与 AI 能力成新趋势
随着2025届生即将步入职场,互联网企业正在积极展开一场 “抢人” 大战。 腾讯、滴滴、美团、百度等公司纷纷推出大规模招聘计划,尤其是在实习岗位的设置上,力求为应届毕业生提供更多机会。 近日,西安邮电大学的大三学生乔子江顺利入职腾讯,成为这场竞争的见证者之一。
AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解: HunyuanVideo - Avatar: 图 音频,让图中的主角说话唱腾讯发布的 HunyuanVideo-Avatar 模型可依据人物图像与音频生成自然数字人视频,适用于短视频创作、电商广告等领域,支持多种风格场景。 【AiBase 提要】💻 创新性依据图像音频生成自然数字人视频,处于业内顶尖水平。
中国石油发布3000亿参数昆仑大模型,助力智能化油气全产业链
中国石油天然气集团有限公司在北京正式发布了其最新的3000亿参数昆仑大模型。 这一重大成果标志着中国在大模型技术领域的又一次重要突破,体现了中央企业在人工智能领域的快速发展和创新能力。 新的昆仑大模型相比于2024年11月发布的700亿参数版本有了显著提升。
阿里云百炼MCP广场首发上线:美图、小冰等40+服务助力AI智能体开发新突破
在AI智能体市场快速发展的背景下,阿里云百炼MCP广场正式首发上线,美图影像、盈米且慢、小冰数字人等四十多个优质MCP服务集体亮相,为用户提供涵盖图像编辑、金融分析、数字人等多个领域的AI智能体构建能力。 随着大模型推理能力的显著提升,智能体应用正迎来爆发式增长。 Markets and Markets、IDC等权威市场研究机构预测,智能体市场规模将达到数百亿美元。
腾讯开源混元语音数字人模型:一张图一段音频就能让图中人物说话唱歌
腾讯混元公众号今日发文宣布开源混元语音数字人模型,仅需一张图和一段音频,就能让图中的主角自然地说话、唱歌。
Opera 推出代理浏览器 Neon:AI 直接帮你写代码、创建网站
挪威科技公司Opera推出最新AI代理浏览器Neon,具备上下文感知能力,可代用户执行研究、设计等任务。搭载AI引擎,支持离线多任务处理,还提供类似Copilot的AI工具。目前细节有限,订阅付费模式。#OperaNeon##AI浏览器#
AI 冲击就业,调查显示四成雇主拟削减相关岗位
世界经济论坛调查显示,40%雇主计划在AI能自动化的领域裁员。SignalFire数据显示,2024年科技公司招聘应届生数量减少25%,初创企业减少11%。AI擅长处理入门级任务,可能导致应届生岗位减少。但经验丰富的专业人士需求上升。#AI裁员潮# #应届生求职#
消息称字节跳动内部将禁用第三方 AI 开发软件,用自家 Trae 替代
字节跳动安全与风控部门发布邮件称,出于对防范数据泄露风险的考虑,自 6 月 30 日起,将在内部分批次禁用第三方 AI 开发软件,包括 AI 编程工具 Cursor、Windsurf 等,并将字节旗下的编程助手 Trae 作为替代方案。(第一财经)
消息称 Meta 拆分 AI 部门为两大团队,分别聚焦消费级产品与 AGI 基础研究
消息称 Meta重组AI部门,拆分为AI产品团队和AGI Foundations团队,分别聚焦消费级产品与前沿技术研究。面对OpenAI等激烈竞争,Meta近期推出“Llama for Startups”计划并举办LlamaCon活动,展现技术野心。#MetaAI重组# #AGI竞赛#
WordPress 成立 AI 团队:从“提供插件”上升到“平台战略”
当地时间周二,WordPress宣布正式成立AI团队,负责引导其开发者社区推进AI产品的研发。
字节内部禁用Cursor等第三方AI编程工具,力推自家Trae工具
据第一财经消息,字节跳动正在加强内部数据安全管控,并推动自研AI工具的内部应用。 近日字节跳动安全与风控部门发布内部邮件,宣布出于防范数据泄露风险考虑,将自6月30日起分批次禁用第三方AI开发软件。 此次禁用的第三方AI开发软件包括目前市场上颇受欢迎的AI编程工具Cursor、Windsurf等。
Anthropic 为 Claude 聊天机器人推出语音模式
Anthropic公司开始为Claude聊天机器人推出语音模式,用户可通过语音与Claude进行完整对话。该功能支持五种语音选项,并允许在文本和语音模式间切换。目前处于测试阶段,未来几周内将推出英语版本。#人工智能# #聊天机器人#
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉