DeepSeek多模态要来了,「识图模式」开启灰度
DeepSeek多模态要来了,「识图模式」开启灰度

DeepSeek多模态要来了,「识图模式」开启灰度

阅读预计 1 分钟

本文转载自DeepSeek多模态要来了,「识图模式」开启灰度

刚刚,DeepSeek 的「识图模式」开始灰度了。

网页版和 App 里,有些用户已经能看到它和「快速模式」「专家模式」并列出现。

后端配置里也能看到“name: 识图模式、description: 图片理解功能内测中”,这些字段。

5 天前,DeepSeek 刚发布 V4 预览版。现在,鲸鱼终于睁眼了。

DeepSeek 识图模式刚灰度,民间评测已经开始了。大家打开手机相册,直接出题:数手指、认动漫、看表情包、读截图、猜商品、找隐藏信息、判断一只猫到底是不是「被迫营业」。

我从夕小瑶Family群和网上挑了一些网友测试case,给大家先过过眼。

第一关,看见

之前Deepseek只能识别图片里的文字,现在可以理解图片了。

这类题测的是视觉模型的基础能力。

包括这个恐龙,都能用代码画出来了。那看起来,在这类题上,DeepSeek 已经cover住了。

至少从用户截图看,它不是过去那种只会 OCR 的状态,真的把画面元素一起读进去了。

入门关,完美通过。

第二关,懂梗

网友最爱测的第二类题,是文化语境题。

它要求模型知道画面之外的东西。

谁是特朗普?谁是鲁路修?必须先知道才能答上来。这类题会结合一部分世界知识,考验理解能力。

还有这个,这个小猫给人一种什么感觉?

可以看到,对情绪的理解也相当到位。能看懂主体是啥,还能看懂大家为什么转发给它,第二关,过!

第三关,别装懂

下面是更难的第三关,反直觉题。

比如数手指、视错觉、隐藏图案、低清截图、故意模糊的二创图。

这些题很烦。它们不只考模型看没看见,还考模型逻辑推理能力

就比如这个比大小。。

看起来,需要多让他思考几遍才能弄得明白。

DeepSeek一直以来最大的短板就是多模态。语言和推理能力卷到第一梯队了,但视觉理解一直缺位。现在补上识图,终于补了一块「多模态」短板。


相关推荐: 刚刚!DeepSeek开源高性能GPU算子库TileKernels

本文转载自刚刚!DeepSeek开源高性能GPU算子库TileKernels几个小时前,DeepSeek开源了一个新项目——TileKernels。 一个高性能GPU算子库,基于TileLang构建,一共包含44个生产级GPU算子,覆盖MoE路由、FP8量化、…