FigCraft · AI 图像与视频创作智能体

入门

快速开始

FigCraft 是一款 AI 图像/视频创作桌面应用，核心是一个会「自己动手」的智能体——你用自然语言描述需求，它帮你生成、修图、抠图、做视频、批量出图，并能完成多步骤任务。

安装

1在官网下载对应系统的安装包（macOS .dmg / Windows .exe）。
2macOS：拖入「应用程序」；Windows：双击安装。
3首次打开如提示来源未知，在系统设置里允许运行即可。
4应用内会自动检查更新，有新版会提示一键下载。

登录 / 注册

1用手机号获取验证码登录，未注册会自动创建账号。
2有邀请码可在登录页「邀请码（选填）」填写，注册后自动归属邀请人。
3也支持 Google 登录。

第一次出图

1进入「图像」页，在底部输入框描述你想要的画面。
2需要参考（保持人物/产品一致）就把图片拖进来或粘贴。
3回车发送，智能体会生成并显示在画布上；继续对话即可微调。

核心概念

智能体介绍

FigCraft 的智能体不只是「生成一张图」，它能理解目标、自己规划步骤、调用各种工具完成整件事。你说「给这双鞋做一组主图，5 张不同场景」，它会自己分析产品、生成、对比、必要时修图，最后交付。

生成与编辑

文生图、图生图、局部重绘、抠图换背景、批量出图、文/图生视频。

理解与分析

看懂上传图、生成图或当前画布，做产品卖点分析与视觉建议。

多步骤任务

把复杂需求拆成任务、按依赖顺序执行，可暂停/续跑。

计划模式

先研究、给出方案让你确认，再动手执行。

文件与系统

读写本地文件、导入导出、调用 ffmpeg/sips 做格式处理。

联网

搜索网络、抓取网页内容作为参考资料。

一致性小技巧：把人物/产品图作为「参考图」加入，智能体会用参考索引保持同一形象贯穿整组图。

核心概念

使用方法

对话即操作

所有功能都通过对话完成。直接说目标即可，例如「把背景换成纯白」「这张放大到 4K」「按这个人物做 3 个不同表情」。

参考图与一致性

•拖入或粘贴图片作为参考，可同时放多张（人物、产品、风格）。
•想保持同一个人/同一件产品，明确说「保持参考图里的人物」。
•局部修改用「只改 XX 区域」，智能体会做局部重绘而非重画整张。

画布与素材库

•生成结果在画布上，可继续基于画布内容编辑、截图分析。
•常用产品/角色/场景可存入素材库，之后一句话就能复用。
•历史记录里可找回过往会话与任务，长任务支持断点续跑。

视频

•支持文生视频、图生视频、首尾帧；长视频用「上一段尾帧接下一段」链式生成。
•部分模型自带音频与多语种唇形同步。

账户

计费规则

一切消耗用「积分」结算。积分有两种来源：套餐每月发放（按月清零）、单独充值（永久不过期）。消耗时优先扣套餐，套餐用尽再扣永久积分。

套餐包含什么

•套餐积分：用于图片 / 视频生成。
•高级对话次数：用 GPT / Claude / Gemini Pro 等高级模型对话。
•基础对话次数：用 Qwen / DeepSeek 等基础模型对话。

对话怎么扣

套餐内对话按「次数」扣，看得懂、好预估。越贵的模型一次扣的次数越多（例如 GPT-5.5 扣 1 次、Claude Opus 扣 3 次）。次数用尽后，对话改为按实际用量（token）扣永久积分。

图片 / 视频怎么扣

按模型扣积分：图片按「积分/张」，视频按「积分/秒」。不同模型单价不同（越强越贵）。先扣套餐积分，用尽后扣永久积分，具体单价以应用内显示为准。

换算参考：1 积分 ≈ ¥0.072 ≈ $0.01（即 $1 = 100 积分）。充值的永久积分不过期，套餐积分每月重置。

参考

智能体工具

智能体内置一整套工具，按职能分为 13 类、权限按风险三级分级，按需自动调用——你通常不用关心细节，了解它「有哪些本事」即可。

13 类总览

生成Agent 的核心生成能力

编辑与分析视觉理解 + AI 修图

文件系统本地直读直写,零云端中转

系统操作系统级访问

网络联网获取上下文

任务崩溃零损失任务系统

用户对话高敏感操作必须二次确认

代理协作Agent 雇佣 Agent

工作流Plan Mode + 工具发现

记忆 / 协作长对话不失忆 + 团队消息

代码 / 调度Cron + LSP + Worktree

素材库资产分类 + 全局画风锚,跨镜一致性

视频线 / 配音连续分镜 + 角色音色,长片一气呵成

具体能做什么

图像与视频生成

生成单张图（文生图 / 图生图）

逐张生成并保持人物 / 产品一致

一次批量生成多张

生成视频（文 / 图生视频、首尾帧）

局部修图（指定区域 + 参考图）

设置比例 / 画质 / 模型

视频与配音

拼接、重排多段视频

文字转语音配音、克隆音色

理解与分析

视觉分析上传图 / 生成图 / 当前画布

产品卖点与视觉策略分析

文件与系统

读写本地文件、导入导出（jpg/png/psd）

调用本机工具做格式 / 媒体处理

联网

联网搜索参考与灵感

抓取网页内容作为资料

任务与计划

把复杂需求拆成多步骤任务，可暂停 / 续跑

计划模式：先给方案让你确认，再动手执行

记忆与素材库

记住品牌 / 角色 / 风格，长对话不失忆

产品库与素材库：分类管理、一句话复用

多智能体协作

派生子智能体并行处理大任务

智能体之间协同、消息互通

交互

对话回复、向你提问、高敏感操作二次确认

参考

支持模型

应用聚合了主流图像与视频模型，智能体会根据需求自动选用合适的模型；你也可以在生成时手动指定。

图像模型 · 7

Nano Banana

Google · 多轮对话式编辑，SynthID 水印

Nano Banana Pro

Google · 最多 14 张参考图、1K/2K/4K、强制思考

Nano Banana 2 (Flash)

Google · 512px~4K、极端比例(8:1/1:8)、思考可调

Seedream 5.0

火山 · 内置联网搜索、深度思考、一次最多 15 张

Seedream 4.5

火山 · 2K/4K、一次最多 15 张

万相 2.6 (wan2.6-image)

通义 · 图像编辑、多图风格融合、负向提示

GPT-5.4 Image 2

OpenAI · 自定义尺寸、质量档；不支持透明背景

视频模型 · 10

Seedance 2.0

火山 · 联网搜索、尾帧链式长视频、最高 1080p

Seedance 2.0 Fast

火山 · 快速版，最高 720p

Seedance 1.5 Pro

火山 · 唇形同步、镜头锁定、样片模式

Veo 3.1

Google · 原生 4K、自带音频、时间戳提示

万象 I2V Flash (wan2.6)

通义 · 图生视频，720p/1080p

万象 R2V Flash (wan2.6)

通义 · 图+视频混合参考（≤5）

万象 KF2V Flash (wan2.2)

通义 · 固定 5s、首尾帧、特效模板

HappyHorse 1.0

阿里 · 原生音视频 + 7 语种唇形、多镜头叙事

HappyHorse 1.0 图生视频

阿里 · 基于首帧生成，继承首帧比例

万相 2.7 文生视频

通义 · wan2.6 升级版，多镜头叙事

能力速记：透明背景用 GPT Image 2；人物一致性用 Nano Banana Pro；4K 视频用 Veo 3.1；长视频用 Seedance 尾帧接续。

深入

工程纵深

清单背后的工程实现——这 10 个关键点决定了 Agent 不是噱头，而是可以交付电商生产的工业级系统。

循环推理

不是流水线,是 200 轮闭环 · Loop Reasoning

市面上大多数 AI Agent 本质是流水线——把大模型调用串成一条预设步骤,遇到临场变化立刻僵住。

FigCraft 的图像 Agent 是真正的循环推理:每一轮都重新观察画布、参考图、历史决策,动态决定下一步调哪个工具。单次任务最多支持 200 轮闭环推理。

•每轮 LLM 重新判断,不按预设脚本走
•工具调用结果立即反馈到下一轮决策
•单工具失败不会让整个任务崩溃,Agent 会诊断错误后改变策略

工具三级权限

解决 AI 拿着钱乱跑的焦虑 · Permission Tiers

Agent 手上的 77 个工具按风险严格分级,让品牌方安心交权给 AI。

•只读工具(分析图片、搜索参考、截屏画布)→ 并行执行,速度最快
•破坏性工具(生图、修图、合成、导出)→ 串行执行,避免并发冲突
•高敏感工具(终端命令、覆盖本地文件、批量删除)→ 每次弹窗二次确认,Agent 无法绕过
•工具可返回 terminal 信号立即结束循环,防止无意义继续烧 token

服装多 SKU 一致性

一组图,同一个主体 · Shared-Subject Strategy

服装品牌最头疼的问题:同一款冲锋衣 30 个颜色拍出来全是不同人穿的——AI 生图时随机性让主体发散。

FigCraft 为电商图专门构建了一套主体一致性机制,无论一组图多大,主体都严格统一。

•系统自动识别任务类型,单张、成组变体、序列演化各走最合适的生成方式
•可让每一张图都贴近你上传的原始产品/人物,最大限度还原真实
•也可让整组图统一在同一张「定妆照」的基调下,风格高度一致
•支持跨图延续,后面的图能继承前面某张的整体观感
•一致性策略都写进执行计划,批准前可见、可改

零意外消耗

任何多步操作必须先出计划 · Plan Approval

Agent 启动多步任务前,必须先把完整步骤展示给用户:「将生成 1 张白底主图 + 3 张雪山场景 + 2 张沙漠场景,预计消耗 12 积分,每张锚定用户上传图」。

用户三选项:一键批准执行 / 取消 / 用自然语言修改。只有批准后 Agent 才真正花钱。

•批准前零积分消耗:计划阶段不调用生图
•支持多轮修订:不满意可以反复让 Agent 重出计划
•批准过的计划自动归档,事后可追溯每一笔积分的去向

智能缓存

防模型健忘症反复调用 · Tool Result Cache

中等智能的大模型有个常见毛病:同一个工具反复调用,一遍不够调两遍,每次都烧 token。

我们在单次运行内做了结果复用——重复的只读操作不会反复消耗算力,直接复用上一次的结果。

•同一次运行内,重复的只读操作自动复用结果
•精确识别重复调用,避免无谓的重复执行
•单次复杂任务可显著降低 token 消耗

长对话不失忆

双层记忆体系 · Context Memory

服装品牌一次拍摄会生成上百张图,对话滚到几十轮。普通框架这时候要么爆上下文、要么胡言乱语。

我们做了两层记忆:短期自动摘要压缩,长期持久化记住关键信息。

•短期:对话变长时自动把早期内容摘要压缩,腾出上下文
•长期:关键信息持久记住,跨会话延续不丢
•每张图都带有来源信息(谁上传的、第几轮、什么需求),不会张冠李戴
•Agent 在第 80 轮对话里依然记得第 3 轮用户上传过什么图

崩溃零损失任务系统

递增 ID · 位置索引 · 本地持久化 · Task Persistence

企业环境下,应用崩溃、断电、关机重启是常事。传统 AI 工具一崩溃,当前任务全部丢失。

我们的任务系统采用三层设计,崩溃恢复零损失。

•任务 ID 用递增字符串(1 / 2 / 3)而非 UUID,降低模型记忆负担,调度更稳
•子任务用位置索引(0 / 1 / 2),模型不用记长字符串
•本地持久化最多 100 个任务历史,随时查看随时恢复
•重启自动修复:所有「假进行中」任务降级为 paused,不会出现幽灵任务

网络容错

API 抖动不影响出图 · Network Resilience

调用第三方大模型 API 的人都懂——偶尔超时、偶尔 500、偶尔限流。Agent 必须把这些都吃下来。

•API 120s 超时(长思考模型留够时间)
•3 次重试 + 指数退避(500ms → 1s → 2s)
•4xx 客户端错误立即失败不重试,5xx / 429 / 超时自动重试
•响应格式异常也当失败处理,触发重试而非返回空
•空响应显式报错(可能是安全过滤 / max_tokens 被 thinking 吃光),不静默退出

系统提示词每轮重建

永远看到最新画布 · Dynamic Prompt

大多数 Agent 的系统提示词是「一次性定死」——开机注入一次,后续对话里 Agent 不知道画布变了、你换了模型、新上传了参考图。

我们的 Agent 每一轮循环都重新构建系统提示词,把当前画布状态、参考图池、选中物体、可用模型能力全部动态注入。

•画布有图 / 空白 / 比例 / 分辨率实时感知
•参考图池总览逐索引标注,Agent 不会搞混
•可用模型 + 当前模型能力(多参考 / inpainting / 最大 N 张)实时传入
•用户切换模型后 Agent 立即知道新模型能做什么不能做什么

全程可见

每一步都不是黑盒 · Event Stream

Agent 在思考什么、调了什么工具、返回了什么结果、为什么请求确认——全部实时推送给前端 UI。

客户能看见 Agent 每一次决策,信任感完全不同于「转圈圈等结果」的黑盒工具。

•事件类型:thinking / tool_call / tool_result / message / permission_request / error
•工具调用参数实时展示,客户能反向学习 Agent 怎么思考
•错误信息友好化:提示切换模型、简化请求等具体可操作建议