VL2
视觉模型进入MoE时代!DeepSeek开源全新视觉模型VL2,逆向由图生成代码、梗图解析、几张图生成一篇童话!
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)12月13日晚,国内开源模型玩家深度求索发布了视觉模型 DeepSeek-VL2。 这次DeepSeek视觉模型给这一领域带来了不少看新看点:1、模型层面,视觉模型也可以使用 MoE 架构,而且可以配合动态切图2、新增了不少生成玩法,如:视觉定位,模型可以根据提示识别出物体的边界范围,再比如梗图理解和解析。 3、图表理解:可以根据plot图逆向生成代码。
12/17/2024 1:55:21 PM
言征
- 1
资讯热榜
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
奥特曼:我承认GPT-5发布搞砸了
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
OpenAI豪赌5000亿美元估值神话:60亿股权大甩卖背后,GPT-5却遭用户冷遇
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
GPT 4o-mini华人领队离开OpenAI:真正推动AI进步不是模型架构,而是互联网
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
论文
Anthropic
代码
训练
算法
Stable Diffusion
AI新词
芯片
LLM
蛋白质
腾讯
开发者
苹果
生成式
Claude
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视频生成
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
应用
特斯拉