AI
AI Agent如何悄然改变前端开发
AI Agent正悄然改变前端开发! 从代码助手到自主系统,能扫描UI仓库、优化布局、重构组件。 Copilot编写代码,ChatGPT生成React组件,未来属于嵌入开发环境的持久Agent,驱动UX策略、设计和性能工程。
18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer
在NASA的2000亿条数据中隐藏着150万个未知天体,而揭开它们神秘面纱的,竟是一位美国高中生! 他就是Matteo Paz,来自加州南帕萨迪纳高中的天才少年。 基于加州理工学院的研究,Matteo挖掘了美国国家航空航天局(NASA)某项任务「沉睡的数据」,并以独著身份在天文学顶级期刊发文。
OpenAI命悬一线,微软连夜割肉!跪求OpenAI千万别分手
OpenAI和微软,快要闹崩了! 面对着想要上市的OpenAI,不惜割肉续命,绝不能让自己的130亿投资打水漂。 英国金融时报刚刚曝出,OpenAI和微软,正在重新协商数十亿美元的合作条款。
小红书整治AI技术滥用,聚焦用AI起号引流带货、售卖AI账号
小红书发布了关于整治AI技术滥用的治理公告,公告称,为维护清朗网络空间,营造积极健康、文明和谐的社区环境,小红书积极响应中央网信办、上海市委网信办关于“清朗·整治AI技术滥用”专项行动的要求,重点聚焦利用AI批量生产虚假内容涨粉、利用AI起号引流带货、售卖AI起号课程、售卖AI账号等违规行为开展专项整治工作,切实履行平台责任,深入清理违规问题。 针对“利用AI生成低俗猎奇视频”、“AI生成虚拟外国幼儿教育专家教授育儿内容”、“AI视频账号售卖教程”、“AI账号秘籍传授”、“引导规避平台AI标注”“转让、销售AI虚拟账号”等各类违规内容加强排查清理力度,共清理违规内容265条,对@IU干跨境等13个违规用户予以禁言处置。 同时严厉打击转让、售卖、出租网络账号行为,加强AI生成内容监测甄别。
火屋潜水艇:Momos AI平台助力北美1350家餐厅转型升级
Momos 公司近日宣布,其人工智能(AI)客户助理平台已在北美超过1350家火屋潜水艇(Firehouse Subs)餐厅上线。 这一创新技术旨在为多地点品牌提供全面的客户管理解决方案,涵盖声誉管理、客户体验、客户服务和市场营销等多个方面,帮助餐厅实现全面数字化转型。 火屋潜水艇是一家总部位于佛罗里达州杰克逊维尔的快餐连锁店,以其独特的潜艇三明治而闻名。
国内首个光子芯片专用大模型问世,南智光电引领智能研发新潮流
在光子芯片技术领域,中国又迎来了一个重要的里程碑。 5月12日,南智光电正式发布了国内首个光子芯片专用大模型 ——OptoChat AI。 这一创新成果将显著推动我国光子芯片的研发进程,标志着研发方式的重大转变。
阿里通义千问成为日本AI发展的新基石
近日,日本经济新闻(NIKKEI)发表了一篇引人注目的报道,指出阿里巴巴的通义千问大模型正迅速成为日本人工智能开发的重要基础。 随着全球 AI 技术的飞速发展,通义千问的表现已在国际舞台上崭露头角,尤其是在日经新闻对各大 AI 模型进行的综合评测中,通义千问 Qwen2.5-Max 一举夺得第六名,超越了许多国内外知名模型,包括 DeepSeek-V3和 OpenAI 的 o3-mini 等。 日本的众多新兴企业正纷纷借助通义千问的强大能力,开发适用于自身的企业级 AI 模型。
NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理
NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。 这一创新成果已在学术界和工业界引发热议。 技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型,实现了从单一模型到多任务音频处理的跨越。
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型
苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明
快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了? 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。
八秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布
可控图片生成,如今已经不是什么新鲜事。 甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。 不过仍然有一些局限:比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现“鱼和熊掌不可兼得”的问题。
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。 尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce )用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization论文地址::,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。 从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
宇树科技王兴兴:我们所有岗位都缺人,欢迎年轻人加入AI浪潮
“如果上海的年轻人愿意来我们公司发展,我们非常欢迎。 ”在近日举行的第六届上海创新创业青年50人论坛上,宇树科技创始人、首席执行官王兴兴公开发出“招聘令”,直言公司目前各类岗位极度紧缺,包括文职、采购、销售、技术、研发、市场等多个方向,真诚期待更多年轻人才加入。 数据显示,2024年宇树机器狗年销量高达2.37万台,约占全球市场的69.75%;与此同时,公司人形机器人年交付量突破1500台,同样刷新全球纪录,技术能力与产业化进程均走在前列。
FDA 宣布使用 AI 技术加速药品审批流程
美国食品药品监督管理局(FDA)近日宣布,将立即在其所有中心引入人工智能(AI)技术,以缩短药品审批的时间。 此次决定是在 FDA 完成了一项针对科学审查员的生成性 AI 试点后做出的。 FDA 表示,借助这项 AI 工具,科学家们可以减少大量重复性、单调的工作,从而提升审核效率。
MCP 与创新悖论:开放标准为何能拯救 AI
模型上下文协议(MCP)的出现,预示着人工智能应用生态系统即将发生根本性变革。 由 Anthropic 于2024年11月推出的 MCP,旨在规范 AI 应用程序与其训练数据之外的世界进行交互的方式。 正如 HTTP 和 REST 为 Web 应用和服务间的连接奠定了基础,MCP 正在为 AI 模型与各种工具的连接建立统一的标准。
文档智能新突破:ContextGem开源工具上线,几行代码实现专业级文档解析
一款备受期待的AI文档处理工具ContextGem日前正式亮相,凭借其强大的结构化数据提取能力和极简编程体验,迅速吸引了开发者社区的广泛关注。 作为完全免费、开源的大型语言模型框架,ContextGem通过简洁代码实现复杂文档分析,核心优势在于精准理解用户意图,自动定位并提取文档中的关键信息。 ContextGem的设计理念围绕简化文档处理流程展开。
全球首款AI智能浏览器Fellou发布:一键搞定研究、发帖、邮件,效率飙升5倍!
5月11日,Fellou正式发布,号称全球首款Agentic浏览器,以其强大的AI自动化能力引发行业热议()。 不同于传统浏览器,Fellou不仅能搜索和浏览,还能思考、规划并执行复杂任务,从深度研究到跨平台工作流一键完成。 AIbase观察到,Fellou的发布标志着浏览器从被动工具向主动数字助手的转型,为研究人员、营销人员和开发者提供了前所未有的生产力提升。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
AI新词
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
AI设计
大型语言模型
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Copilot
Transformer
架构
MCP
编程
视觉