将检查点迁移到 Orbax#

本指南演示了如何将 Flax 的检查点保存和恢复调用 — flax.training.checkpoints.save_checkpointrestore_checkpoint — 转换为等效的 Orbax 方法。Orbax 为管理各种对象的检查点提供了灵活且可自定义的 API。请注意,由于 Flax 的检查点正在从 flax.training.checkpoints 迁移到 Orbax,Flax API 中的所有现有功能将继续受到支持,但 API 将会更改。

您将通过以下场景学习如何迁移到 Orbax

  • 最常见的用例:保存/加载和管理检查点

  • “轻量级”用例:没有顶级检查点管理器的“纯”保存/加载

  • 在没有目标 Pytree 的情况下恢复检查点

  • 异步检查点

  • 保存/加载单个 JAX 或 NumPy 数组

要了解有关 Orbax 的更多信息,请查看快速入门介绍性 Colab 笔记本官方 Orbax 文档

您可以单击上面的“在 Colab 中打开”来运行本指南中的代码。

在整个指南中,您将能够比较使用和不使用 Orbax 代码的代码示例。

设置#

# Create some dummy variables for this example.
MAX_STEPS = 5
CKPT_PYTREE = [12, {'bar': np.array((2, 3))}, [1, 4, 10]]
TARGET_PYTREE = [0, {'bar': np.array((0))}, [0, 0, 0]]

最常见的用例:保存/加载和管理检查点#

本节涵盖以下场景

  • 您原始的 Flax save_checkpoint()save_checkpoint_multiprocess() 调用包含以下参数:prefixkeepkeep_every_n_steps;或者

  • 您希望对您的检查点使用一些自动管理逻辑(例如,用于删除旧数据、根据指标/损失删除数据等等)。

在这种情况下,您需要使用 orbax.CheckpointManager。这使您不仅可以保存和加载模型,还可以管理您的检查点并自动删除过时的检查点。

要升级您的代码

  1. 在顶层创建并保留一个 orbax.CheckpointManager 实例,并使用 orbax.CheckpointManagerOptions 进行自定义。

  2. 在运行时,调用 orbax.CheckpointManager.save() 来保存您的数据。

  3. 然后,调用 orbax.CheckpointManager.restore() 来恢复您的数据。

  4. 并且,如果您的检查点包含一些多主机/多进程数组,请将正确的 mesh 传递到 flax.training.orbax_utils.restore_args_from_target() 中,以在恢复之前生成正确的 restore_args

例如

CKPT_DIR = '/tmp/orbax_upgrade/'
flax.config.update('flax_use_orbax_checkpointing', False)

# Inside your training loop
for step in range(MAX_STEPS):
  # do training
  checkpoints.save_checkpoint(CKPT_DIR, CKPT_PYTREE, step=step,
                              prefix='test_', keep=3, keep_every_n_steps=2)


checkpoints.restore_checkpoint(CKPT_DIR, target=TARGET_PYTREE, step=4, prefix='test_')
CKPT_DIR = '/tmp/orbax_upgrade/orbax'

# At the top level
mgr_options = orbax.checkpoint.CheckpointManagerOptions(
  create=True, max_to_keep=3, keep_period=2, step_prefix='test')
ckpt_mgr = orbax.checkpoint.CheckpointManager(
  CKPT_DIR,
  orbax.checkpoint.Checkpointer(orbax.checkpoint.PyTreeCheckpointHandler()), mgr_options)

# Inside your training loop
for step in range(MAX_STEPS):
  # do training
  save_args = flax.training.orbax_utils.save_args_from_target(CKPT_PYTREE)
  ckpt_mgr.save(step, CKPT_PYTREE, save_kwargs={'save_args': save_args})


restore_args = flax.training.orbax_utils.restore_args_from_target(TARGET_PYTREE, mesh=None)
ckpt_mgr.restore(4, items=TARGET_PYTREE, restore_kwargs={'restore_args': restore_args})

“轻量级”用例:没有顶级检查点管理器的“纯”保存/加载#

如果您不想维护顶级检查点管理器,您仍然可以使用 orbax.checkpoint.Checkpointer 保存和恢复任何单个检查点。请注意,这意味着您无法使用所有 Orbax 管理功能。

要迁移到 Orbax 代码,请不要在 flax.save_checkpoint() 中使用 overwrite 参数,而是在 orbax.checkpoint.Checkpointer.save() 中使用 force 参数。

例如

PURE_CKPT_DIR = '/tmp/orbax_upgrade/pure'
flax.config.update('flax_use_orbax_checkpointing', False)

checkpoints.save_checkpoint(PURE_CKPT_DIR, CKPT_PYTREE, step=0, overwrite=True)
checkpoints.restore_checkpoint(PURE_CKPT_DIR, target=TARGET_PYTREE)
PURE_CKPT_DIR = '/tmp/orbax_upgrade/pure'

ckptr = orbax.checkpoint.Checkpointer(orbax.checkpoint.PyTreeCheckpointHandler())  # A stateless object, can be created on the fly.
ckptr.save(PURE_CKPT_DIR, CKPT_PYTREE,
           save_args=flax.training.orbax_utils.save_args_from_target(CKPT_PYTREE), force=True)
ckptr.restore(PURE_CKPT_DIR, item=TARGET_PYTREE,
              restore_args=flax.training.orbax_utils.restore_args_from_target(TARGET_PYTREE, mesh=None))

在没有目标 Pytree 的情况下恢复检查点#

如果您需要在没有目标 Pytree 的情况下恢复检查点,请将 item=None 传递给 orbax.checkpoint.Checkpointer 或将 items=None 传递给 orbax.CheckpointManager.restore() 方法,该方法应触发恢复。

例如

NOTARGET_CKPT_DIR = '/tmp/orbax_upgrade/no_target'
flax.config.update('flax_use_orbax_checkpointing', False)

checkpoints.save_checkpoint(NOTARGET_CKPT_DIR, CKPT_PYTREE, step=0)
checkpoints.restore_checkpoint(NOTARGET_CKPT_DIR, target=None)
NOTARGET_CKPT_DIR = '/tmp/orbax_upgrade/no_target'

# A stateless object, can be created on the fly.
ckptr = orbax.checkpoint.Checkpointer(orbax.checkpoint.PyTreeCheckpointHandler())
ckptr.save(NOTARGET_CKPT_DIR, CKPT_PYTREE,
           save_args=flax.training.orbax_utils.save_args_from_target(CKPT_PYTREE))
ckptr.restore(NOTARGET_CKPT_DIR, item=None)

异步检查点#

要使您的检查点保存异步,请用 orbax.checkpoint.AsyncCheckpointer 替换 orbax.checkpoint.Checkpointer

然后,您可以调用 orbax.checkpoint.AsyncCheckpointer.wait_until_finished() 或 Orbax 的 CheckpointerManager.wait_until_finished() 来等待保存完成。

有关更多详细信息,请阅读检查点指南

您还可以通过异步管理器将 Orbax AsyncCheckpointer 与 Flax API 一起使用。异步管理器在内部调用 wait_until_finished()。此解决方案未得到积极维护,建议使用 Orbax 异步检查点。

例如

ASYNC_CKPT_DIR = '/tmp/orbax_upgrade/async'
flax.config.update('flax_use_orbax_checkpointing', True)
async_manager = checkpoints.AsyncManager()

checkpoints.save_checkpoint(ASYNC_CKPT_DIR, CKPT_PYTREE, step=0, overwrite=True, async_manager=async_manager)
checkpoints.restore_checkpoint(ASYNC_CKPT_DIR, target=TARGET_PYTREE)
ASYNC_CKPT_DIR = '/tmp/orbax_upgrade/async'

import orbax.checkpoint as ocp
ckptr = ocp.AsyncCheckpointer(ocp.StandardCheckpointHandler())
ckptr.save(ASYNC_CKPT_DIR, args=ocp.args.StandardSave(CKPT_PYTREE))
# ... Continue with your work...
# ... Until a time when you want to wait until the save completes:
ckptr.wait_until_finished() # Blocks until the checkpoint saving is completed.
ckptr.restore(ASYNC_CKPT_DIR, args=ocp.args.StandardRestore(TARGET_PYTREE))

保存/加载单个 JAX 或 NumPy 数组#

orbax.checkpoint.PyTreeCheckpointHandler 类,顾名思义,只能用于 Pytree。因此,如果您需要保存/恢复单个 Pytree 叶子(例如,数组),请使用 orbax.checkpoint.ArrayCheckpointHandler 代替。

例如

ARR_CKPT_DIR = '/tmp/orbax_upgrade/singleton'
flax.config.update('flax_use_orbax_checkpointing', False)

checkpoints.save_checkpoint(ARR_CKPT_DIR, jnp.arange(10), step=0)
checkpoints.restore_checkpoint(ARR_CKPT_DIR, target=None)
ARR_CKPT_DIR = '/tmp/orbax_upgrade/singleton'

ckptr = orbax.checkpoint.Checkpointer(orbax.checkpoint.ArrayCheckpointHandler())
ckptr.save(ARR_CKPT_DIR, jnp.arange(10))
ckptr.restore(ARR_CKPT_DIR, item=None)

最后的话#

本指南概述了如何从“旧版”Flax 检查点 API 迁移到 Orbax API。Orbax 提供了更多功能,Orbax 团队正在积极开发新功能。请继续关注并关注官方 Orbax GitHub 存储库以获取更多信息!