最近阶跃星辰发布了最新的 Step 3.7 Flash,一款面向 Agent、Coding、Search 与多模态工作流而生的高效率模型。这个定位确实有点反常识——毕竟此前的 Flash 版本默认是旗舰大哥的便宜替代品。想不到这次阶跃星辰对 Step 3.7 Flash 定位这么高。
苏米注:既然官方明确说它是为了"高效完成真实任务"而优化的,那就直接把它装到 Agent 工具里,开发个项目试试。
对大模型的期待改变了
最近半年,我对新大模型的测法有些固化了。我已经很少去测那些脑筋急转弯或者复杂的逻辑推演,而是习惯性地先把它装到 Agent 上。这也是当下的趋势,Agent 工具在执行力上,已经开始拓展模型本身的能力边界。
模型参数量也不是越大越好。参数上去了思考就慢,思考慢了,在 Agent 工作流里就会拖后腿。Agent 要规划、搜索、调用工具、写代码、跑测试、修正,每个步骤都要等模型回话。
所以我拿到 Step 3.7 Flash 之后,第一时间选了一个看似简单,但比较考验 Agent 完整链路能力的任务。

实战:做一个推荐咖啡厅的 Web 工具
我打算做一个足够 local 的工具:西湖周边的咖啡店推荐,输入具体的位置以及自己爱喝的咖啡品类,就可以给你推荐对应的咖啡店。使用 Claude Code 接入 Step 3.7 Flash 模型。
阶跃星辰的接入体验值得提一下——它提供了一个官方的接入指令,在终端里敲入一行代码,顺着指引填入 API 和模型名称,整个过程超级丝滑,不需要去手动修改配置文件。


我给出的提示词核心需求只有一条:杭州西湖周边 5km 内的咖啡店搜索工具。提示词看起来很多,但其实都是对项目的一些限制。
用时 1 分 13 秒,整个项目制作完成。这个速度让我非常惊喜——在 Agent 的高频调动下,响应速度直接决定了整个开发流的节奏。


我的提示词没有任何对 UI 的设定,但 Step 3.7 Flash 最终跑出来的网页,在视觉一致性上处理得很细腻。主题色采用了贴合咖啡主题的咖色,从背景、按钮到交互态,整个界面的一致性就很强。鼠标悬浮在卡片上时,会顺滑地浮现出一层微阴影。

关于适配手机,其实我是没有提前考虑到的。但寻找咖啡店这个需求,适合的是出门在外或者去旅游的人,一般用手机找。我没想到,但它想到了,顺手还适配了手机的分辨率。
加个地图功能
然后我还想给它添加地图功能,方便用户大概了解这家咖啡店到底在哪个位置。这次我也不写特别复杂的提示词了,直接一句"加个地图功能"就行。

也只是一轮对话,功能就加好了。新增的地图组件,边框同样遵循了全局的圆角比例,和下方的卡片排列在一起,没有任何拼接的突兀感。

多模态能力测试:看图识景点
接下来要测的是视觉能力。Step 3.7 Flash 是自带多模态能力的,不需要额外配视觉模型,上来就能直接用。
我想给咖啡店推荐工具新增一个功能:根据上传的风景照,来讲解历史典故。逻辑很简单——在页面中新增上传图片的按钮,使用 Step 3.7 Flash 的多模态能力,去识别图片具体的位置,然后根据位置信息去搜索相关知识。

新增功能的速度比直接创建项目稍微慢了一些,可能是需要先进一步了解原本的代码。不过这个 Tab 标签效果我很喜欢,切换的时候颜色会有渐变的效果,增强了交互的感知。


测试了一下,功能完全没有问题,成功调用了 Step 3.7 Flash 的 API。现在这个 Web 工具不止可以搜索附近的咖啡,还可以直接上传一张你当前所在位置的风景照,然后 AI 会识别你的位置,并进行景点讲解,以及推荐你附近的咖啡店了。

"放养"测试:一行指令能做出啥样
既然这个模型的规划能力这么强,那我在开发之前,是不是不用写很复杂的提示词呢?就只用一句:"制作一个杭州西湖周边 5km 内的咖啡店的 Web 搜索工具"。需要几步才能做出可以用的工具?

这一次,它交付了一个截然不同的版本。在没有大篇幅提示词的限制下,它把能想到的功能都加上去了——自主接入了高德地图的 API,将搜索范围从西湖扩展到了杭州的其他热门商圈。

还提供了口味偏好的直接选择按钮,甚至于还有排序功能,搜索半径还可以自由拖拽。而 UI,还是保持了一贯的优雅。总的来说,这算得上是一个功能成熟、符合大众使用直觉的标准化商用级工具雏形。
复盘:两个版本的差别
对比这两个版本的开发过程,可以清楚地看到模型在不同指令下的执行逻辑:
- 第一个版本:写了大量提示词,需求很详细,最后出来的网站 99% 符合想象。有人工干预结果,有本地人写推荐语。
- 第二个版本:没有说清楚诉求,只是让它做一个搜索咖啡店的 Web 工具。它主动填补了产品经理的角色,调度现有的成熟 API,交付了一个功能最全的大众化解决方案。
总结与定价
说到底,大模型的竞争已经悄悄换了赛道。过去我们总在盯着参数榜单,比谁能解出更难的奥数题。但在真实的工作流里,任务早就变成了高频的多轮对话、工具密集调用、上下文越拉越长。如果模型每走一步都要卡壳、思考、憋上十几秒,那它再聪明,在 Agent 里也只能拖后腿。

我个人觉得这个价定的特别亲民。项目跑起来的时候 Agent 反复去调用、搜索、重试、吞吐海量上下文的时候,账单消耗相比之前要少得多。
苏米观察:速度快但质量不差,够听话但也会自主决断,同时还会积极调用其它工具接口来完善项目——这些优点在 Agent 中使用会非常舒服。这就是为什么测完 Step 3.7 Flash 之后,不再把它看作是旗舰模型的"廉价平替"。它在速度、智能、任务完成率之间踩中了那个刚刚好的平衡点。
阶跃星辰在线体验:platform.stepfun.com