阅读预计 1 分钟
作为一个AI革命老玩家,我决定亲自下场,用25个刁钻案例,暴力测试Gemini 3.0。
一共设计了6大类、25个刁钻案例,覆盖Gemini 3.0的核心能力:
1. 视觉代码生成 (9个) → 测SVG/Canvas/Three.js生成能力
2. 交互游戏 (4个) → 测物理引擎和游戏逻辑
3. 教育工具 (5个) → 测实用性和交互设计
4. 物理科学 (3个) → 测科学准确性
5. 创意挑战 (3个) → 测自我批判和多视角能力
6. 系统模拟 (1个) → 终极压力测试
测试方法:多线程20并发,直接把API薅秃。
测试时长:2小时。
发挥我30年调用AI的功力,全程只有5%人工。 我们已把全部示例做成网页,👇欢迎亲自体验。
报告地址:https://gemini.wmxiaomu.com/
25 个案例,全通过 ✅
24 个生成了能运行的 HTML 页面 ✅
【总体测试结论】:
1、视觉代码和UI搭建方面,Gemini 3 是天花板级别。
2、原型设计、交互 Demo、教学辅助领域——Gemini 3 非常强。
3、在复杂物理推理、复杂博弈逻辑、多步状态机设计等“硬规律”领域欠缺。
🟢 强项(可以放心用)
1. 教育工具:5星( C1 学习应用、C2 反叛的商务英语老师、C4论文卡片、C5绘本生成)
2. 多风格对比: 5星(A8三风格对比、A9风格对决)
3. 动画生成: 5星 (A1机械花朵、A5汽车爆炸、A7光效)
4. 系统模拟:5星(F1 Mac 操作系统模拟器、B4 WebOS 类抽象系统)
🟡 中等(需要人工调整)
1. SVG 矢量图生成:4.5星 (A2游戏手柄、A6纽约天际线)
2. 3D 场景渲染: 4星 (A3体素宝塔、A8体素奶龙花园)
🔴 弱项(慎用)
1. 交互游戏 / 创意生成 :3星(B2台球、B3谜题设计不合理)
2. 物理模拟类:3星(D1 量子叠加可视化、D2时间停止器等,假物理,无真实碰撞、公式会编造)
碎碎念:这次测试差点把API额度薅秃,还好老板没发现(划掉)
关注「夕小瑶科技说」,第一时间获取最硬核的AI评测!
相关推荐: NanoBanana Pro 图像生成能力全面测评
完整测试画廊:https://nano2.wmxiaomu.com/ 这一代的核心升级是「推理驱动的图像生成」。为了验证模型能力,我们设计了7大类、220个测试案例,覆盖: · 电影风格(19张):诺兰式梦境、宫崎骏田园、昆汀复古、张艺谋红灯笼…… · 科学可…