视觉理解
夸克AI超级框升级 上线“拍照问夸克”功能:啥都能答
4月25日,阿里巴巴旗下的夸克AI超级框宣布推出一项创新功能——“拍照问夸克”。 这一新功能基于先进的视觉理解和思考推理模型,能够更精准地理解和回答用户在物理世界中遇到的各类问题。 在日常生活中,用户常常会遇到难以用文字准确描述的情况,尤其是在面对复杂的物体、表格和图形时。
4/27/2025 2:00:49 PM
AI在线
火山引擎发布豆包1.5深度思考模型:结合视觉理解与智能项目管理
在近日举行的火山引擎FORCE LINK AI创新巡展上,火山引擎总裁谭待正式公布了豆包1.5深度思考模型,标志着这一创新技术将正式面向企业提供服务。 豆包1.5不仅在基础功能上进行了升级,还引入了更多智能化的应用场景,助力企业实现更高效的数字化转型。 谭待在发布会上表示,豆包1.5深度思考模型能够结合视觉理解,提供更多创新功能。
4/17/2025 11:01:15 AM
AI在线
阿里云通义开源Qwen2.5-VL,视觉AI超越Claude 3.5
阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。 阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。
1/29/2025 10:15:00 AM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Stable Diffusion
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
生成
大语言模型
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
亚马逊
MCP