视觉
多榜单SOTA!SplatAD:首个实现Lidar & 视觉重建大一统框架,仿真闭环再下一城~
写在前面&笔者的个人理解在实际部署之前,大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。 从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。 与成本高昂、耗时且受物理约束限制的实际测试不同,模拟可以快速、低成本地探索多种场景,有助于优化自动驾驶车辆的安全性、舒适性和效率。
12/10/2024 9:49:53 AM
自动驾驶之心
极智嘉发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案,在设备内完成所有深度计算
极智嘉(Geek )昨日(11 月 4 日)宣布,携手英特尔发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案。 ▲ 纯视觉机器人在仓储场景的实际应用AI在线获悉,极智嘉成立于 2015 年,公司总部位于北京。 极智嘉纯视觉机器人方案包含 M600 和 MP1000R 两款产品,将在 11 月 5~8 日首次亮相 2024 CeMAT 亚洲物流展极智嘉展台。
11/5/2024 5:11:43 PM
沛霖(实习)
视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024
视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。 随着多模态推理系统的普及,如视觉问答和图像描述,视觉定位的重要性愈加凸显。 已有的研究大致可以分为三类:两阶段方法、单阶段方法和基于Transformer的方法。
11/5/2024 4:00:00 PM
新智元
AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作
AI 解放碳基生物双手,甚至能让你的手机自己玩自己! 你没听错 —— 这其实就是移动任务自动化。 在 AI 飞速发展下,这逐渐成为一个新兴的热门研究领域。
10/31/2024 2:31:43 PM
清源
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。 然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。 对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。
10/28/2024 4:29:25 PM
汪淼
端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini
Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B),以及轻量级纯文本模型(1B 和 3B),此外提供预训练和指令微调(instruction-tuned)版本。AI在线附
9/26/2024 7:01:35 AM
故渊
MAIA 新系统亮相:洞悉 AI 模型内在机制,审查其安全性
麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种名为“MAIA”的多模式自动化可解释性代理系统,该系统可以使用视觉语言模型来自动执行各种神经网络可解释性任务。麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)最新研发了名为 MAIA 系统,可以使用视觉语言模型来自动执行各种神经网络可解释性任务。MAIA 的全称是 Multimodal Automated Interpretability Agent,直译过来为“多模态自动可解释性代理”,主要利用视觉语言模型,自动执行各种神经网络可解释性任务,
7/25/2024 11:12:50 AM
故渊
成立仅四个月,“AI 教母”李飞飞的 World Labs 估值突破十亿美元
被誉为“AI 教母”的知名计算机科学家李飞飞 ciq 创立了一家名为 World Labs 的初创企业。据《金融时报》报道,这家公司成立仅四个月,估值便已突破十亿美元。据路透社五月报道,World Labs 的目标是赋予 AI 类似人类处理视觉数据的能力,从而实现更高级的推理,目前仍处于探索阶段。据AI在线了解,李飞飞因其对计算机视觉的贡献而闻名,计算机视觉是 AI 的一个分支,致力于帮助机器理解和解释视觉信息。她还领导了 ImageNet 的开发,这是一个广泛使用的视觉数据库,用于视觉物体识别研究。李飞飞曾于 2
7/18/2024 4:18:15 PM
远洋
2024智源大会议程公开丨生成模型
2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研究者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。北京智源大会倒计时:11 天生成模型 论坛丨6月15日下午生成式建模是人工智能的基础范式之一,是迈向通用人工智能的重要一环。随着生成式建模方法的快速发展和模型规模的急速增长,以自回归模型、扩散概率模型为代表的生成式人工智能(如GPT系列、Sora、Stable Diffusion
6/4/2024 3:59:00 PM
新闻助手
李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动
斯坦福李飞飞创业后,首次揭秘新概念“空间智能”。这不仅是她的创业方向,也是指引她的“北极星”,被她认为是“解决人工智能难题的关键拼图”。视觉化为洞察;看见成为理解;理解导致行动。李飞飞最新 15 分钟 TED 演讲完整公开,从数亿年前生命进化的起源开始,到人类如何不满足于自然赋予而发展人工智能,到下一步如何构建空间智能。而 9 年前,正是在同一个舞台上,李飞飞向世界介绍了刚诞生不久的 ImageNet—— 这一轮深度学习爆发的起点之一。她本人也向网友自我安利:如果把两个视频都看了,你就能对过去 10 年的计算机视觉
5/16/2024 11:36:37 PM
清源
颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态
近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。Vitron作为一个统一
4/26/2024 2:49:00 PM
新闻助手
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n,又一次开课了。总共 600 多位学生报名,第一堂课的现场座无虚席:从 2015 年到如今,CS231n 已经走到九个年头,也成为了一代计算机视觉专业学生心中的「必修课」:虽然课程代码不变,但可以猜到,2024 年的课程相比 2021 年版本的课程有不少新增内容,这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览
4/7/2024 12:02:00 AM
机器之心
教授何恺明在MIT的第一堂课
700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明(Kaiming He)在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。据参与现场的同
3/11/2024 11:47:00 AM
机器之心
人工智能顶会AAAI 2024放榜!联汇科技赵天成博士团队两篇论文入选
近日,第38届国际顶级人工智能学术会议AAAI(Association for the Advancement of Artificial Intelligence)正式发布了2024年会议的录用通知,联汇科技赵天成博士团队两篇论文入选。AAAI 是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议。据了解,本届AAAI会议共有12100篇投稿(主赛道),打破历史纪录,经过全面而严格的审查程序,共有2342篇论文
12/12/2023 10:52:00 AM
新闻助手
锐思智芯完成数亿元Pre-B轮融资,重点投入量产交付
近日,新一代融合视觉传感器芯片公司锐思智芯宣布完成数亿元Pre-B轮融资。国投创业、元禾辰坤联合领投,联想创投、清科创投、谷雨嘉禾、同歌创投、中科先进产业基金、深圳天使母基金、讯飞创投、追远创投等老股东持续跟投。创始人邓坚表示,本轮资金主要用于企业产品量产、加速新产品研发及新领域开拓等。锐思智芯是一家新型融合视觉传感领域的芯片研发及整体方案提供商,核心技术为其独创的Hybrid Vision融合视觉传感技术,核心产品是融合式视觉传感器芯片ALPIX系列,为智能手机、消费电子、智能安防、智能汽车领域提供一体化智能视觉
11/21/2023 1:58:00 PM
新闻助手
IDC发布中国计算机视觉解决方案厂商评估,联汇科技作为主要厂商上榜
近日,国际数据公司IDC公布了《IDC MarketScape:中国计算机视觉解决方案厂商评估,2023》报告显示,2022 年,中国AI赋能的计算机视觉解决方案市场规模达123.0亿元人民币。联汇科技凭借出色的能力措施(Capabilities),包括技术产品、服务项目与客户需求满足等能力,以及关键战略(Strategies)中的优势,成为中国计算机视觉行业领先的主要厂商(Major Players)。逆势新生 多模态大模型带来更多可能报告指出,2022 年计算机视觉解决方案市场主要由疫情防控相关的公共场所的安全
10/27/2023 5:08:00 PM
新闻助手
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊