DeepSeek多模态要来了，「识图模式」开启灰度

阅读预计 1 分钟

本文转载自DeepSeek多模态要来了，「识图模式」开启灰度

刚刚，DeepSeek 的「识图模式」开始灰度了。

网页版和 App 里，有些用户已经能看到它和「快速模式」「专家模式」并列出现。

后端配置里也能看到“name: 识图模式、description: 图片理解功能内测中”，这些字段。

5 天前，DeepSeek 刚发布 V4 预览版。现在，鲸鱼终于睁眼了。

DeepSeek 识图模式刚灰度，民间评测已经开始了。大家打开手机相册，直接出题：数手指、认动漫、看表情包、读截图、猜商品、找隐藏信息、判断一只猫到底是不是「被迫营业」。

我从夕小瑶Family群和网上挑了一些网友测试case，给大家先过过眼。

◈第一关，看见

之前Deepseek只能识别图片里的文字，现在可以理解图片了。

这类题测的是视觉模型的基础能力。

包括这个恐龙，都能用代码画出来了。那看起来，在这类题上，DeepSeek 已经cover住了。

至少从用户截图看，它不是过去那种只会 OCR 的状态，真的把画面元素一起读进去了。

入门关，完美通过。

◈第二关，懂梗

网友最爱测的第二类题，是文化语境题。

它要求模型知道画面之外的东西。

谁是特朗普？谁是鲁路修？必须先知道才能答上来。这类题会结合一部分世界知识，考验理解能力。

还有这个，这个小猫给人一种什么感觉？

可以看到，对情绪的理解也相当到位。能看懂主体是啥，还能看懂大家为什么转发给它，第二关，过！

◈第三关，别装懂

下面是更难的第三关，反直觉题。

比如数手指、视错觉、隐藏图案、低清截图、故意模糊的二创图。

这些题很烦。它们不只考模型看没看见，还考模型逻辑推理能力。

就比如这个比大小。。

看起来，需要多让他思考几遍才能弄得明白。

DeepSeek一直以来最大的短板就是多模态。语言和推理能力卷到第一梯队了，但视觉理解一直缺位。现在补上识图，终于补了一块「多模态」短板。

相关推荐: 刚刚！DeepSeek开源高性能GPU算子库TileKernels

本文转载自刚刚！DeepSeek开源高性能GPU算子库TileKernels几个小时前，DeepSeek开源了一个新项目——TileKernels。一个高性能GPU算子库，基于TileLang构建，一共包含44个生产级GPU算子，覆盖MoE路由、FP8量化、…