AI在线 AI在线

多模态输入

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。 该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。 GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。
7/2/2025 5:00:55 PM
AI在线

Android Studio集成Gemini新增多模态功能,开发者可上传图像获取UI代码

谷歌最新宣布,Android Studio中的Gemini助手已升级支持多模态输入功能,开发者现在可以直接将图像附加到提示中,以获取应用程序开发过程中的视觉辅助。 这项多模态功能最初在I/O2024大会上亮相,升级后的Gemini现能够"理解简单的线框,并将其转换为可用的Jetpack Compose代码"。 在Android Studio Narwal的Canary版本中,Ask Gemini字段新增了"附加图像文件"(支持JPEG或PNG格式)选项。
3/14/2025 2:45:00 PM
AI在线

百度文心一言将于4月1日起全面免费 并上线深度搜索功能

文心大模型官方宣布了两个重要更新,为用户带来更为便捷和高效的使用体验。 据悉,随着文心大模型的持续迭代与成本优化,文心一言将于4月1日零时起实现全面免费。 届时,无论是在PC端还是APP端,用户均可无门槛地体验文心系列最新模型。
2/13/2025 10:22:00 AM
AI在线
  • 1