AI
国内首个光子芯片专用大模型问世,南智光电引领智能研发新潮流
在光子芯片技术领域,中国又迎来了一个重要的里程碑。 5月12日,南智光电正式发布了国内首个光子芯片专用大模型 ——OptoChat AI。 这一创新成果将显著推动我国光子芯片的研发进程,标志着研发方式的重大转变。
5/12/2025 3:00:52 PM
AI在线
阿里通义千问成为日本AI发展的新基石
近日,日本经济新闻(NIKKEI)发表了一篇引人注目的报道,指出阿里巴巴的通义千问大模型正迅速成为日本人工智能开发的重要基础。 随着全球 AI 技术的飞速发展,通义千问的表现已在国际舞台上崭露头角,尤其是在日经新闻对各大 AI 模型进行的综合评测中,通义千问 Qwen2.5-Max 一举夺得第六名,超越了许多国内外知名模型,包括 DeepSeek-V3和 OpenAI 的 o3-mini 等。 日本的众多新兴企业正纷纷借助通义千问的强大能力,开发适用于自身的企业级 AI 模型。
5/12/2025 3:00:52 PM
AI在线
NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理
NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。 这一创新成果已在学术界和工业界引发热议。 技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型,实现了从单一模型到多任务音频处理的跨越。
5/12/2025 3:00:52 PM
AI在线
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型
苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线
陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明
快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了? 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。
5/12/2025 2:26:43 PM
八秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布
可控图片生成,如今已经不是什么新鲜事。 甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。 不过仍然有一些局限:比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现“鱼和熊掌不可兼得”的问题。
5/12/2025 2:24:56 PM
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。 尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce )用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。
5/12/2025 2:23:42 PM
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization论文地址::,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。 从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
5/12/2025 2:16:52 PM
宇树科技王兴兴:我们所有岗位都缺人,欢迎年轻人加入AI浪潮
“如果上海的年轻人愿意来我们公司发展,我们非常欢迎。 ”在近日举行的第六届上海创新创业青年50人论坛上,宇树科技创始人、首席执行官王兴兴公开发出“招聘令”,直言公司目前各类岗位极度紧缺,包括文职、采购、销售、技术、研发、市场等多个方向,真诚期待更多年轻人才加入。 数据显示,2024年宇树机器狗年销量高达2.37万台,约占全球市场的69.75%;与此同时,公司人形机器人年交付量突破1500台,同样刷新全球纪录,技术能力与产业化进程均走在前列。
5/12/2025 11:00:29 AM
AI在线
FDA 宣布使用 AI 技术加速药品审批流程
美国食品药品监督管理局(FDA)近日宣布,将立即在其所有中心引入人工智能(AI)技术,以缩短药品审批的时间。 此次决定是在 FDA 完成了一项针对科学审查员的生成性 AI 试点后做出的。 FDA 表示,借助这项 AI 工具,科学家们可以减少大量重复性、单调的工作,从而提升审核效率。
5/12/2025 10:01:16 AM
AI在线
MCP 与创新悖论:开放标准为何能拯救 AI
模型上下文协议(MCP)的出现,预示着人工智能应用生态系统即将发生根本性变革。 由 Anthropic 于2024年11月推出的 MCP,旨在规范 AI 应用程序与其训练数据之外的世界进行交互的方式。 正如 HTTP 和 REST 为 Web 应用和服务间的连接奠定了基础,MCP 正在为 AI 模型与各种工具的连接建立统一的标准。
5/12/2025 10:01:16 AM
AI在线
文档智能新突破:ContextGem开源工具上线,几行代码实现专业级文档解析
一款备受期待的AI文档处理工具ContextGem日前正式亮相,凭借其强大的结构化数据提取能力和极简编程体验,迅速吸引了开发者社区的广泛关注。 作为完全免费、开源的大型语言模型框架,ContextGem通过简洁代码实现复杂文档分析,核心优势在于精准理解用户意图,自动定位并提取文档中的关键信息。 ContextGem的设计理念围绕简化文档处理流程展开。
5/12/2025 10:01:16 AM
AI在线
全球首款AI智能浏览器Fellou发布:一键搞定研究、发帖、邮件,效率飙升5倍!
5月11日,Fellou正式发布,号称全球首款Agentic浏览器,以其强大的AI自动化能力引发行业热议()。 不同于传统浏览器,Fellou不仅能搜索和浏览,还能思考、规划并执行复杂任务,从深度研究到跨平台工作流一键完成。 AIbase观察到,Fellou的发布标志着浏览器从被动工具向主动数字助手的转型,为研究人员、营销人员和开发者提供了前所未有的生产力提升。
5/12/2025 10:01:16 AM
AI在线
Cursor 0.50版本重磅更新,简化定价与增强AI编程体验
Cursor于2025年5月9日推出0.50版本重大更新,带来了简化的定价模式、全面升级的Max模式以及一系列功能增强()。 此次更新聚焦于提升AI编程效率,新增跨文件代码建议、后台代理和多代码库支持等功能,进一步巩固了Cursor作为AI驱动代码编辑器的领先地位。 AIbase观察到,开发者社区对新版本的响应速度和多任务处理能力给予高度评价。
5/12/2025 10:01:12 AM
AI在线
谷歌推出面向 13 岁以下儿童Gemini AI聊天机器人
谷歌最近宣布,将推出其新的 Gemini 人工智能(AI)聊天机器人,专门面向13岁以下的儿童。 这个新产品将在未来一周内在美国和加拿大上线,预计今年晚些时候也会在澳大利亚推出。 值得注意的是,这款聊天机器人将仅通过谷歌的家庭链接账户提供,这意味着家长可以对儿童的使用进行一定的控制。
5/12/2025 10:01:12 AM
AI在线
高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。 该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。 HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。
5/12/2025 10:01:12 AM
AI在线
特朗普解除版权局局长职务,因拒绝支持 AI 企业采集版权作品
美国总统特朗普近期解除版权局局长希拉・珀尔穆特(Shira Perlmutter)的职务,此举引起了广泛关注。 根据 CBS 新闻和 Politico 的报道,众议员乔・莫雷尔(Joe Morelle)对此表示强烈反对,称这是一场 “公然、前所未有的权力夺取,毫无法律依据”。 他指出,珀尔穆特的解职与她拒绝支持特斯拉创始人埃隆・马斯克(Elon Musk)将大量版权作品用于人工智能训练的请求密切相关。
5/12/2025 10:01:12 AM
AI在线
谷歌再破界限:Gemini 2.5 Pro实现6小时视频理解,AI视觉能力迈入新纪元
谷歌Gemini2.5Pro视频理解能力再升级,这款旗舰AI模型不仅支持长达6小时的视频分析,还拥有高达200万Token的超大上下文窗口,同时首次实现通过API直接解析YouTube链接。 官方数据显示,该模型在VideoMME基准测试中达到84.7%的准确率,与行业顶尖水平的85.2%仅有一线之差,彰显了其强劲实力。 这项突破性技术现已通过Google AI Studio向开发者开放体验。
5/12/2025 10:01:12 AM
AI在线
资讯热榜
Microsoft Releases 700 Real AI Cases to Explore New Intelligent Work Models
微软发布 700 个真实 AI 案例,探索智能化工作新模式
Li Hang, head of ByteDance AI Lab, resigns; Seed team enters adjustment period
Former DeepSeek executive secretly starts new AI Agent project, already backed by top VC
OpenAI Upgrades ChatGPT Search Functionality to Provide More Precise and Smarter Responses
Microsoft AI Unveils Code Researcher: 58% Crash Resolution Rate Stuns the Industry!
腾讯LeVo来袭!媲美Suno 4.5的AI唱歌模型,支持零样本音色克隆
MiniMax-M1开源!1M超长上下文推理,AI新王者仅53万美元打造!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
训练
智能体
神经网络
研究
3D
生成
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
LLM
xAI
预测
伟达
深度学习
字节跳动
Transformer
Agent
工具
模态
视觉
神器推荐
RAG
具身智能
文本
LLaMA
算力
Copilot
大型语言模型
驾驶
API
应用
架构