DeepSeek
DeepSeek-OCR:用视觉模态给长文本“瘦身”,大模型处理效率再突破
在大语言模型(LLMs)不断拓展能力边界的今天,长文本处理始终是道绕不开的坎——文本序列每增加一倍,计算量就可能翻四倍,像处理一本几十万字的书籍、一份上千页的金融报告时,内存溢出、推理卡顿成了常态。 但DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。 原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。
DeepSeek-OCR:OCR 的新突破
DeepSeek 近日发布了DeepSeek-OCR。 这不仅仅是一个 OCR 模型,而是一个概念验证,它可能会从根本上改变我们在大型语言模型中对上下文的理解。 这个想法是这样的:如果不是向 LLM 输入数千个文本标记,而是将该文本压缩成图像,并用 100 个视觉标记来表示它,而不会损失准确性,那会怎样?
AI大模型专栏正式开撸:DeepSeek本地部署+避坑指南
本文旨在提供一个全面且详细的DeepSeek本地部署指南,帮助大家在自己的设备上成功运行DeepSeek模型。 无论你是AI领域的初学者还是经验丰富的开发者,都能通过本文的指导,轻松完成DeepSeek的本地部署。 一、本地部署的适用场景DeepSeek本地部署适合以下场景:高性能硬件配置:如果你的电脑配置较高,特别是拥有独立显卡和足够的存储空间,那么本地部署将能充分利用这些硬件资源。
DeepSeek最会讨好,LLM太懂人情世故了,超人类50%
用过大模型的都知道,它们多多少少存在一些迎合人类的行为,但万万没想到,AI 模型的迎合性比人类高出 50%。 在一篇论文中,研究人员测试了 11 种 LLM 如何回应超过 11500 条寻求建议的查询,其中许多查询描述了不当行为或伤害。 结果发现 LLM 附和用户行为的频率比人类高出 50%,即便用户的提问涉及操纵、欺骗或其他人际伤害等情境,模型仍倾向于给予肯定回应。
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
编辑 | 听雨在AI快速进化的浪潮中,文字和图像的界限正在被重新定义。 那些能“看懂”文件、理解图表、读出语义的视觉语言模型(VLM),正在让传统OCR(光学字符识别)进入一个全新的智能阶段。 如果你还以为OCR只是“识字”的工具,那你可能错过了它真正的革命性变化。
独立开源大佬的疯狂实验:Claude Code蛮力出奇迹!40 分钟跑通 DeepSeek-OCR,我一行代码都没写
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)当 AI 不再只是“写代码”,而是开始自己装环境、跑模型、记笔记——那种感觉,像是它在学会独立思考。 最近,开源工具Datasette创建者、Django 框架联合创始人 Simon Willison 做了一个疯狂实验:他让 Claude Code 全权接管,把 DeepSeek-OCR 在 NVIDIA Spark 上跑了起来。 听起来像是“让 AI 去安装另一个 AI”,但结果却令人震惊——部署成功、过程全自动、连错误都能自我修复。
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。 即使碰巧有纯文本输入,你更应该先渲染它,然后再输入。 」一夜之间,大模型的范式仿佛被 DeepSeek 新推出的模型给打破了。
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
DeepSeek最新开源的模型,已经被硅谷夸疯了! 因为实在太DeepSeek了。 3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。
从重复抽卡到脑洞大开?一句话让AI更聪明!
只要你平时用多了AI,可能会发现一个问题? 比如你让AI帮优化个文章,它总是动不动就给你用上冒号(:)跟破折号(——),文字间还特别喜欢用成语,喜欢用自问自答,还喜欢用序号(1,2,3,4...),有时候套话还挺多,甚至有时候当你反复抽卡时结果却越来越相似。 明明是不同的,有时甚至是同一个模型换个会话,问同一个开放性问题,得到的答案却总是很相似。
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
我们或许能通过文本到图像的方法实现近 10 倍无损上下文压缩。 没想到吧,DeepSeek 刚刚开源了新模型,还是一款 OCR 模型。 可以看到,该模型的参数量为 3B,刚上线不久就已经有 100 多次下载量了。
AI音乐创作成程序员新副业:单曲播放破200万,版权收入数万元
2025年,AI音乐创作工具的普及正在改变音乐行业的创作格局。 今年1月,一位《原神》玩家使用游戏台词结合AI作曲工具Suno创作的歌曲《奥奇坎竟是我自己》在B站获得近640万播放量,引发了关于AI创作能力的广泛讨论。 程序员群体成为AI音乐创作的活跃参与者。
DeepSeek-V3.2-Exp:用稀疏注意力机制,开启长文本处理的“加速引擎”
随着人工智能技术的飞速发展,大语言模型在各个领域都展现出了巨大的潜力。 然而,传统的大语言模型在处理长文本时面临着效率低下和计算成本高昂的问题。 为了解决这一难题,DeepSeek-AI推出了实验性版本DeepSeek-V3.2-Exp,该模型通过引入DeepSeek稀疏注意力机制(DSA),在保持与V3.1-Terminus相当性能的同时,显著提升了长文本处理的效率。
华为CloudMatrix384超节点支持DeepSeek-V3.2-Exp:第一时间上线
9 月 29 日,DeepSeek 发布并开源了最新一代大语言模型 DeepSeek-V3.2-Exp,引发了全网关注。 该模型引入稀疏 Attention 架构,这种架构能够有效降低计算资源消耗并提升模型推理效率。 与此同时,国内 AI 算力厂商也宣布对新模型实现了适配。
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
还是熟悉的节奏! 在假期前一天,DeepSeek 果然搞事了。 刚刚,DeepSeek-V3.2-Exp 开源了!
运维新突破:Prometheus+DeepSeek+Dify实现自动巡检
作者 | 崔皓审校 | 重楼整体思路在日常运维中,经常会遇到类似的问题:明明系统前一天运行正常,第二天登录量突然下降,却要花费大量时间去手工检查日志、排查 Prometheus 指标,再整理成报告发给业务方。 这类重复、耗时的工作不仅影响效率,还容易出现遗漏。 于是,我就产生了一个想法:能不能把这种巡检工作自动化?
DeepSeek终极版震撼发布!
从15.9分跳到21.7分——当我看到DeepSeek V3.1-Terminus在"人类终极测试"中的得分时,第一反应是检查了下数据有没有看错。 36%的提升幅度,这在AI模型优化中简直是质的飞跃。 图片昨天DeepSeek正式发布了V3.1-Terminus"终极版",这个名字挺有意思。
DeepSeek 更新了!
昨日,Deepseek推出了V3.1-Terminus,据介绍,这是其混合AI模型Deepseek-V3.1的改进版本。 新模型首先解决了语言区分问题,能够更准确地区分中文与英文,从而避免出现随机特殊字符等低级错误。 同时,Deepseek对内置的代码和搜索代理进行了调整,这让模型在调用外部工具时的稳定性更高,结果也更可靠。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉