FigCraft
入门

快速开始

FigCraft 是一款 AI 图像/视频创作桌面应用,核心是一个会「自己动手」的智能体——你用自然语言描述需求,它帮你生成、修图、抠图、做视频、批量出图,并能完成多步骤任务。

安装

  1. 1在官网下载对应系统的安装包(macOS .dmg / Windows .exe)。
  2. 2macOS:拖入「应用程序」;Windows:双击安装。
  3. 3首次打开如提示来源未知,在系统设置里允许运行即可。
  4. 4应用内会自动检查更新,有新版会提示一键下载。

登录 / 注册

  1. 1用手机号获取验证码登录,未注册会自动创建账号。
  2. 2有邀请码可在登录页「邀请码(选填)」填写,注册后自动归属邀请人。
  3. 3也支持 Google 登录。

第一次出图

  1. 1进入「图像」页,在底部输入框描述你想要的画面。
  2. 2需要参考(保持人物/产品一致)就把图片拖进来或粘贴。
  3. 3回车发送,智能体会生成并显示在画布上;继续对话即可微调。
核心概念

智能体介绍

FigCraft 的智能体不只是「生成一张图」,它能理解目标、自己规划步骤、调用各种工具完成整件事。你说「给这双鞋做一组主图,5 张不同场景」,它会自己分析产品、生成、对比、必要时修图,最后交付。

生成与编辑
文生图、图生图、局部重绘、抠图换背景、批量出图、文/图生视频。
理解与分析
看懂上传图、生成图或当前画布,做产品卖点分析与视觉建议。
多步骤任务
把复杂需求拆成任务、按依赖顺序执行,可暂停/续跑。
计划模式
先研究、给出方案让你确认,再动手执行。
文件与系统
读写本地文件、导入导出、调用 ffmpeg/sips 做格式处理。
联网
搜索网络、抓取网页内容作为参考资料。

一致性小技巧:把人物/产品图作为「参考图」加入,智能体会用参考索引保持同一形象贯穿整组图。

核心概念

使用方法

对话即操作

所有功能都通过对话完成。直接说目标即可,例如「把背景换成纯白」「这张放大到 4K」「按这个人物做 3 个不同表情」。

参考图与一致性

  • 拖入或粘贴图片作为参考,可同时放多张(人物、产品、风格)。
  • 想保持同一个人/同一件产品,明确说「保持参考图里的人物」。
  • 局部修改用「只改 XX 区域」,智能体会做局部重绘而非重画整张。

画布与素材库

  • 生成结果在画布上,可继续基于画布内容编辑、截图分析。
  • 常用产品/角色/场景可存入素材库,之后一句话就能复用。
  • 历史记录里可找回过往会话与任务,长任务支持断点续跑。

视频

  • 支持文生视频、图生视频、首尾帧;长视频用「上一段尾帧接下一段」链式生成。
  • 部分模型自带音频与多语种唇形同步。
账户

计费规则

一切消耗用「积分」结算。积分有两种来源:套餐每月发放(按月清零)、单独充值(永久不过期)。消耗时优先扣套餐,套餐用尽再扣永久积分。

套餐包含什么

  • 套餐积分:用于图片 / 视频生成。
  • 高级对话次数:用 GPT / Claude / Gemini Pro 等高级模型对话。
  • 基础对话次数:用 Qwen / DeepSeek 等基础模型对话。

对话怎么扣

套餐内对话按「次数」扣,看得懂、好预估。越贵的模型一次扣的次数越多(例如 GPT-5.5 扣 1 次、Claude Opus 扣 3 次)。次数用尽后,对话改为按实际用量(token)扣永久积分。

图片 / 视频怎么扣

按模型扣积分:图片按「积分/张」,视频按「积分/秒」。不同模型单价不同(越强越贵)。先扣套餐积分,用尽后扣永久积分,具体单价以应用内显示为准。

换算参考:1 积分 ≈ ¥0.072 ≈ $0.01(即 $1 = 100 积分)。充值的永久积分不过期,套餐积分每月重置。

参考

智能体工具

智能体内置一整套工具,按职能分为 13 类、权限按风险三级分级,按需自动调用——你通常不用关心细节,了解它「有哪些本事」即可。

13 类总览

01
生成Agent 的核心生成能力
4
02
编辑与分析视觉理解 + AI 修图
5
03
文件系统本地直读直写,零云端中转
8
04
系统操作系统级访问
3
05
网络联网获取上下文
2
06
任务崩溃零损失任务系统
6
07
用户对话高敏感操作必须二次确认
3
08
代理协作Agent 雇佣 Agent
7
09
工作流Plan Mode + 工具发现
4
10
记忆 / 协作长对话不失忆 + 团队消息
7
11
代码 / 调度Cron + LSP + Worktree
12
12
素材库资产分类 + 全局画风锚,跨镜一致性
8
13
视频线 / 配音连续分镜 + 角色音色,长片一气呵成
8

具体能做什么

图像与视频生成
生成单张图(文生图 / 图生图)
逐张生成并保持人物 / 产品一致
一次批量生成多张
生成视频(文 / 图生视频、首尾帧)
局部修图(指定区域 + 参考图)
设置比例 / 画质 / 模型
视频与配音
拼接、重排多段视频
文字转语音配音、克隆音色
理解与分析
视觉分析上传图 / 生成图 / 当前画布
产品卖点与视觉策略分析
文件与系统
读写本地文件、导入导出(jpg/png/psd)
调用本机工具做格式 / 媒体处理
联网
联网搜索参考与灵感
抓取网页内容作为资料
任务与计划
把复杂需求拆成多步骤任务,可暂停 / 续跑
计划模式:先给方案让你确认,再动手执行
记忆与素材库
记住品牌 / 角色 / 风格,长对话不失忆
产品库与素材库:分类管理、一句话复用
多智能体协作
派生子智能体并行处理大任务
智能体之间协同、消息互通
交互
对话回复、向你提问、高敏感操作二次确认
参考

支持模型

应用聚合了主流图像与视频模型,智能体会根据需求自动选用合适的模型;你也可以在生成时手动指定。

图像模型 · 7

Nano Banana
Google · 多轮对话式编辑,SynthID 水印
Nano Banana Pro
Google · 最多 14 张参考图、1K/2K/4K、强制思考
Nano Banana 2 (Flash)
Google · 512px~4K、极端比例(8:1/1:8)、思考可调
Seedream 5.0
火山 · 内置联网搜索、深度思考、一次最多 15 张
Seedream 4.5
火山 · 2K/4K、一次最多 15 张
万相 2.6 (wan2.6-image)
通义 · 图像编辑、多图风格融合、负向提示
GPT-5.4 Image 2
OpenAI · 自定义尺寸、质量档;不支持透明背景

视频模型 · 10

Seedance 2.0
火山 · 联网搜索、尾帧链式长视频、最高 1080p
Seedance 2.0 Fast
火山 · 快速版,最高 720p
Seedance 1.5 Pro
火山 · 唇形同步、镜头锁定、样片模式
Veo 3.1
Google · 原生 4K、自带音频、时间戳提示
万象 I2V Flash (wan2.6)
通义 · 图生视频,720p/1080p
万象 R2V Flash (wan2.6)
通义 · 图+视频混合参考(≤5)
万象 KF2V Flash (wan2.2)
通义 · 固定 5s、首尾帧、特效模板
HappyHorse 1.0
阿里 · 原生音视频 + 7 语种唇形、多镜头叙事
HappyHorse 1.0 图生视频
阿里 · 基于首帧生成,继承首帧比例
万相 2.7 文生视频
通义 · wan2.6 升级版,多镜头叙事

能力速记:透明背景用 GPT Image 2;人物一致性用 Nano Banana Pro;4K 视频用 Veo 3.1;长视频用 Seedance 尾帧接续。

深入

工程纵深

清单背后的工程实现——这 10 个关键点决定了 Agent 不是噱头,而是可以交付电商生产的工业级系统。

01

循环推理

不是流水线,是 200 轮闭环 · Loop Reasoning

市面上大多数 AI Agent 本质是流水线——把大模型调用串成一条预设步骤,遇到临场变化立刻僵住。

FigCraft 的图像 Agent 是真正的循环推理:每一轮都重新观察画布、参考图、历史决策,动态决定下一步调哪个工具。单次任务最多支持 200 轮闭环推理。

  • 每轮 LLM 重新判断,不按预设脚本走
  • 工具调用结果立即反馈到下一轮决策
  • 单工具失败不会让整个任务崩溃,Agent 会诊断错误后改变策略
02

工具三级权限

解决 AI 拿着钱乱跑的焦虑 · Permission Tiers

Agent 手上的 77 个工具按风险严格分级,让品牌方安心交权给 AI。

  • 只读工具(分析图片、搜索参考、截屏画布)→ 并行执行,速度最快
  • 破坏性工具(生图、修图、合成、导出)→ 串行执行,避免并发冲突
  • 高敏感工具(终端命令、覆盖本地文件、批量删除)→ 每次弹窗二次确认,Agent 无法绕过
  • 工具可返回 terminal 信号立即结束循环,防止无意义继续烧 token
03

服装多 SKU 一致性

一组图,同一个主体 · Shared-Subject Strategy

服装品牌最头疼的问题:同一款冲锋衣 30 个颜色拍出来全是不同人穿的——AI 生图时随机性让主体发散。

FigCraft 为电商图专门构建了一套主体一致性机制,无论一组图多大,主体都严格统一。

  • 系统自动识别任务类型,单张、成组变体、序列演化各走最合适的生成方式
  • 可让每一张图都贴近你上传的原始产品/人物,最大限度还原真实
  • 也可让整组图统一在同一张「定妆照」的基调下,风格高度一致
  • 支持跨图延续,后面的图能继承前面某张的整体观感
  • 一致性策略都写进执行计划,批准前可见、可改
04

零意外消耗

任何多步操作必须先出计划 · Plan Approval

Agent 启动多步任务前,必须先把完整步骤展示给用户:「将生成 1 张白底主图 + 3 张雪山场景 + 2 张沙漠场景,预计消耗 12 积分,每张锚定用户上传图」。

用户三选项:一键批准执行 / 取消 / 用自然语言修改。只有批准后 Agent 才真正花钱。

  • 批准前零积分消耗:计划阶段不调用生图
  • 支持多轮修订:不满意可以反复让 Agent 重出计划
  • 批准过的计划自动归档,事后可追溯每一笔积分的去向
05

智能缓存

防模型健忘症反复调用 · Tool Result Cache

中等智能的大模型有个常见毛病:同一个工具反复调用,一遍不够调两遍,每次都烧 token。

我们在单次运行内做了结果复用——重复的只读操作不会反复消耗算力,直接复用上一次的结果。

  • 同一次运行内,重复的只读操作自动复用结果
  • 精确识别重复调用,避免无谓的重复执行
  • 单次复杂任务可显著降低 token 消耗
06

长对话不失忆

双层记忆体系 · Context Memory

服装品牌一次拍摄会生成上百张图,对话滚到几十轮。普通框架这时候要么爆上下文、要么胡言乱语。

我们做了两层记忆:短期自动摘要压缩,长期持久化记住关键信息。

  • 短期:对话变长时自动把早期内容摘要压缩,腾出上下文
  • 长期:关键信息持久记住,跨会话延续不丢
  • 每张图都带有来源信息(谁上传的、第几轮、什么需求),不会张冠李戴
  • Agent 在第 80 轮对话里依然记得第 3 轮用户上传过什么图
07

崩溃零损失任务系统

递增 ID · 位置索引 · 本地持久化 · Task Persistence

企业环境下,应用崩溃、断电、关机重启是常事。传统 AI 工具一崩溃,当前任务全部丢失。

我们的任务系统采用三层设计,崩溃恢复零损失。

  • 任务 ID 用递增字符串(1 / 2 / 3)而非 UUID,降低模型记忆负担,调度更稳
  • 子任务用位置索引(0 / 1 / 2),模型不用记长字符串
  • 本地持久化最多 100 个任务历史,随时查看随时恢复
  • 重启自动修复:所有「假进行中」任务降级为 paused,不会出现幽灵任务
08

网络容错

API 抖动不影响出图 · Network Resilience

调用第三方大模型 API 的人都懂——偶尔超时、偶尔 500、偶尔限流。Agent 必须把这些都吃下来。

  • API 120s 超时(长思考模型留够时间)
  • 3 次重试 + 指数退避(500ms → 1s → 2s)
  • 4xx 客户端错误立即失败不重试,5xx / 429 / 超时自动重试
  • 响应格式异常也当失败处理,触发重试而非返回空
  • 空响应显式报错(可能是安全过滤 / max_tokens 被 thinking 吃光),不静默退出
09

系统提示词每轮重建

永远看到最新画布 · Dynamic Prompt

大多数 Agent 的系统提示词是「一次性定死」——开机注入一次,后续对话里 Agent 不知道画布变了、你换了模型、新上传了参考图。

我们的 Agent 每一轮循环都重新构建系统提示词,把当前画布状态、参考图池、选中物体、可用模型能力全部动态注入。

  • 画布有图 / 空白 / 比例 / 分辨率 实时感知
  • 参考图池总览逐索引标注,Agent 不会搞混
  • 可用模型 + 当前模型能力(多参考 / inpainting / 最大 N 张)实时传入
  • 用户切换模型后 Agent 立即知道新模型能做什么不能做什么
10

全程可见

每一步都不是黑盒 · Event Stream

Agent 在思考什么、调了什么工具、返回了什么结果、为什么请求确认——全部实时推送给前端 UI。

客户能看见 Agent 每一次决策,信任感完全不同于「转圈圈等结果」的黑盒工具。

  • 事件类型:thinking / tool_call / tool_result / message / permission_request / error
  • 工具调用参数实时展示,客户能反向学习 Agent 怎么思考
  • 错误信息友好化:提示切换模型、简化请求等具体可操作建议