应用
开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音
在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。 传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。 为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。
智谱AI重磅开源GLM-4.1V-Thinking!多模态推理新王者,挑战全球顶尖模型
中国人工智能领域的领军企业智谱AI(Zhipu AI)再次掀起行业热潮。 AIbase最新获悉,智谱AI于近日正式开源其新一代通用视觉模型GLM-4.1V-Thinking。 这款9亿参数的多模态推理模型凭借卓越的性能和广泛的应用场景,不仅在多项权威评测中刷新纪录,还展现了比肩甚至超越72亿参数模型的强大实力。
智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
蚂蚁集团医疗 AI 平台荣获 2025 世界人工智能大会 SAIL 奖
在2025世界人工智能大会(WAIC)上,蚂蚁集团自主研发的 “医疗 AI 驱动的全流程健康管理平台” 成功入选大会最高奖项 “SAIL 奖” 的 TOP30榜单。 该奖项不仅表彰了蚂蚁集团的创新成果,同时也与小米、科大讯飞等多家企业一同获奖。 蚂蚁健康应用 AQ 已应用该平台,为超过8亿用户和数千家医疗机构提供全方位的 AI 医疗服务。
市场监管总局批准发布人工智能、信息技术、物联网等7项国家标准
市场监管总局(国家标准委)近日批准发布一批重要国家标准。 在新兴产业方面,发布人工智能、信息技术、物联网等7项国家标准,为释放数字化服务与应用能力提供技术保障。 发布数据中心、网络安全技术、系统与软件工程等5项国家标准,助力数字经济深层次互联互通。
百度发布自研视频生成模型 MuseSteamer:一张图即可生成电影级高清有声视频
百度发布自研视频生成模型MuseSteamer,支持一张图生成10秒1080p电影级画质视频,人物微表情与运镜效果达专业影视水准。Turbo版已上线绘想平台开启限时免费公测,其余版本将于8月陆续开放。#AI视频生成##百度MuseSteamer#
龙芯中科与百度文心系列模型开展深度技术合作
百度文心 4.5 系列模型于 6 月 30 日正式开源。龙芯中科在文心大模型开源首日启动技术合作,双方将共同推进国产算力基础设施与大模型技术的融合创新,为 AI 产业化应用提供安全可控的“中国芯”解决方案。
硅谷 AI 人才争夺战愈发激烈:年薪千万美元抢夺顶尖科学家
硅谷AI人才争夺战白热化!Meta、OpenAI等科技巨头为顶尖AI科学家开出千万年薪,薪酬较2022年暴涨50%。#AI人才争夺战# #硅谷高薪# 报告显示,AI科学家更看重研究自由与使命,小型公司面临巨大招聘压力。
百度发布“绘想”平台与MuseSteamer:AI生成视频,一张图即可搞定专业级大片!
在今日举行的百度AIDAY科技开放日上,百度商业研发团队正式发布了其自主研发的视频生成模型MuseSteamer及其配套的视频产品平台**“绘想”**。 这一创新旨在通过“生成式AI 多模态技术”打造全面的视频生成解决方案,以满足搜索、广告、推荐等场景对原生化内容生产的强劲需求。 MuseSteamer视频生成模型系列丰富,目前包含Turbo、Lite、Pro以及全系列有声版本。
富士康母公司注册AI推理大模型商标
企查查APP显示,近日,鸿海精密工业股份有限公司申请注册“FoxBrain”商标,国际分类为科学仪器,当前商标状态为注册申请中。 据媒体报道,FoxBrain是鸿海集团(富士康)旗下鸿海研究院自主研发的首款繁体中文AI推理大模型。 该模型于今年3月正式发布,基于Meta Llama3.1架构开发优化,专注于数学推演、逻辑分析与代码生成领域。
百度搜索迎来十年来最大改版:AI智能框、百看、AI助手全面进化
在近日的百度AI Day开放日上,百度搜索宣布进行了其十年来最大规模的改版,此次革新涵盖了搜索框、搜索结果页以及整个搜索生态。 此举是百度积极顺应行业发展趋势,拓宽搜索能力边界的一次主动变革。 升级后的百度搜索框被命名为“智能框”,显著增强了其输入能力,现在可支持超过千字的文本输入。
Gemini Live 即将全面整合 Google 应用,AI 助手更聪明了!
谷歌的智能语音助手 Gemini Live 正迎来重大升级。 根据近期网络上的最新信息,Gemini Live 即将实现与多种 Google 应用的深度整合,进一步提升其在日常生活中的实用性和智能化水平。 这一更新将使 Gemini Live 成为更强大的生产力工具,满足用户多样化的需求。
云计算巨头 Cloudflare 推出 “按爬虫付费” 市场,让网站内容变现更轻松
Cloudflare近日宣布推出一个颠覆性的市场 ——“按爬虫付费”,旨在重塑网站拥有者与人工智能(AI)公司的关系。 这一全新市场将帮助内容出版者更好地控制他们的内容,同时为 AI 公司提供一种公平的抓取内容的方式。 过去一年,Cloudflare 为应对 AI 爬虫的激增推出了多项工具,包括一键阻止所有 AI 爬虫的解决方案和监控 AI 爬虫访问情况的仪表板。
Gemini Live重磅升级!无缝连接Google应用,智能生活触手可及
随着人工智能技术的飞速发展,Google旗下的人工智能助手Gemini Live迎来了一次重大升级。 根据AIbase最新获取的信息,Gemini Live即将实现与多种Google应用的深度整合,为用户带来更加智能、高效的交互体验。 这一功能不仅提升了生产力,还将彻底改变用户与Google生态系统的交互方式。
AI创业者的春天来了!与行业领军者一起探讨融资秘籍
在科技创新的浪潮中,AI 创业公司正在重塑行业格局,但融资的挑战依然存在。 为了帮助早期 AI 创业者打破传统融资思维的束缚,知名风险投资人 Kleida Martiro 将在7月15日于波士顿举行的 TechCrunch All Stage 活动中主持一场名为 “在竞争激烈的市场中赢得资本:如何为您的 AI 创业公司融资” 的主题讨论。 Martiro 是 Glasswing Ventures 的合伙人,凭借她在数据科学和机器学习领域的丰富经验,将为参会的创业者提供切实可行的融资策略。
百度发布自研视频生成模型MuseSteamer及视频产品平台“绘想”
在近期的百度AIDAY科技开放日活动上,百度商业研发团队正式宣布推出两项重磅创新成果:自研视频生成模型MuseSteamer和全新的视频产品平台**“绘想”**。 MuseSteamer作为百度自主研发的视频生成模型,标志着百度在人工智能生成内容(AIGC)领域,特别是在视频创作方面取得了重要进展。 而同步发布的视频产品平台“绘想”,则将为用户提供一个集成化的工具,有望降低视频创作门槛,提升内容生产效率。
10亿注资!智谱AI获浦东张江力挺,GLM-4.1V重磅开源,AGI进程再提速
在近期于上海举行的智谱开放平台产业生态大会上,人工智能领域迎来重磅消息:浦东创投集团和张江集团联合宣布,向智谱进行总额高达10亿元的战略投资,并且首笔交割已于近期完成。 这项重大投资将为智谱构建可信赖的人工智能基础设施注入强大动力,加速其在通用人工智能(AGI)领域的布局。 智谱CEO张鹏在大会主题演讲中,详细阐述了公司携手生态伙伴迈向AGI的两项最新成果。
微软开源适用于 VS Code 的 GitHub Copilot Chat 扩展,助推 AI 编程自动化
这意味着开发社区可以深入了解和洞察聊天式编码助手的完整实现,包括“智能体模式”的实现细节、发送给大型语言模型(LLM)的上下文数据以及系统提示的设计。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉