视觉理解
夸克AI超级框升级 上线“拍照问夸克”功能:啥都能答
4月25日,阿里巴巴旗下的夸克AI超级框宣布推出一项创新功能——“拍照问夸克”。 这一新功能基于先进的视觉理解和思考推理模型,能够更精准地理解和回答用户在物理世界中遇到的各类问题。 在日常生活中,用户常常会遇到难以用文字准确描述的情况,尤其是在面对复杂的物体、表格和图形时。
4/27/2025 2:00:49 PM
AI在线
火山引擎发布豆包1.5深度思考模型:结合视觉理解与智能项目管理
在近日举行的火山引擎FORCE LINK AI创新巡展上,火山引擎总裁谭待正式公布了豆包1.5深度思考模型,标志着这一创新技术将正式面向企业提供服务。 豆包1.5不仅在基础功能上进行了升级,还引入了更多智能化的应用场景,助力企业实现更高效的数字化转型。 谭待在发布会上表示,豆包1.5深度思考模型能够结合视觉理解,提供更多创新功能。
4/17/2025 11:01:15 AM
AI在线
阿里云通义开源Qwen2.5-VL,视觉AI超越Claude 3.5
阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。 阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。
1/29/2025 10:15:00 AM
AI在线
- 1
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
告别“单打独斗”!AI 协作新范式 MoA,如何集结大模型“梦之队”?
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
Google搜索推出AI Mode实验,探索全新智能问答体验
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
神经网络
研究
3D
计算
Sora
机器学习
AI设计
AI for Science
生成
苹果
GPU
AI视频
搜索
场景
华为
百度
训练
人形机器人
Claude
预测
伟达
xAI
深度学习
Transformer
大语言模型
智能体
字节跳动
模态
文本
具身智能
神器推荐
Copilot
驾驶
LLaMA
视觉
API
算力
应用
安全
干货合集
工具
大型语言模型
视频生成
Agent