视觉理解
夸克AI超级框升级 上线“拍照问夸克”功能:啥都能答
4月25日,阿里巴巴旗下的夸克AI超级框宣布推出一项创新功能——“拍照问夸克”。 这一新功能基于先进的视觉理解和思考推理模型,能够更精准地理解和回答用户在物理世界中遇到的各类问题。 在日常生活中,用户常常会遇到难以用文字准确描述的情况,尤其是在面对复杂的物体、表格和图形时。
4/27/2025 2:00:49 PM
AI在线
火山引擎发布豆包1.5深度思考模型:结合视觉理解与智能项目管理
在近日举行的火山引擎FORCE LINK AI创新巡展上,火山引擎总裁谭待正式公布了豆包1.5深度思考模型,标志着这一创新技术将正式面向企业提供服务。 豆包1.5不仅在基础功能上进行了升级,还引入了更多智能化的应用场景,助力企业实现更高效的数字化转型。 谭待在发布会上表示,豆包1.5深度思考模型能够结合视觉理解,提供更多创新功能。
4/17/2025 11:01:15 AM
AI在线
阿里云通义开源Qwen2.5-VL,视觉AI超越Claude 3.5
阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。 阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。
1/29/2025 10:15:00 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉