多模态输入
智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线
Android Studio集成Gemini新增多模态功能,开发者可上传图像获取UI代码
谷歌最新宣布,Android Studio中的Gemini助手已升级支持多模态输入功能,开发者现在可以直接将图像附加到提示中,以获取应用程序开发过程中的视觉辅助。 这项多模态功能最初在I/O2024大会上亮相,升级后的Gemini现能够"理解简单的线框,并将其转换为可用的Jetpack Compose代码"。 在Android Studio Narwal的Canary版本中,Ask Gemini字段新增了"附加图像文件"(支持JPEG或PNG格式)选项。
3/14/2025 2:45:00 PM
AI在线
百度文心一言将于4月1日起全面免费 并上线深度搜索功能
文心大模型官方宣布了两个重要更新,为用户带来更为便捷和高效的使用体验。 据悉,随着文心大模型的持续迭代与成本优化,文心一言将于4月1日零时起实现全面免费。 届时,无论是在PC端还是APP端,用户均可无门槛地体验文心系列最新模型。
2/13/2025 10:22:00 AM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
AI新词
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Claude
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
大语言模型
生成
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
特斯拉
亚马逊