RLConfig

class srl.base.rl.config.RLConfig(observation_mode: Literal['', 'render_image', 'both'] = '', override_env_observation_type: srl.base.define.SpaceTypes = <SpaceTypes.UNKNOWN: 1>, override_observation_type: Union[srl.base.define.RLBaseTypes, str] = <RLBaseTypes.NONE: 1>, override_action_type: Union[srl.base.define.RLBaseTypes, str] = <RLBaseTypes.NONE: 1>, action_division_num: int = 10, observation_division_num: int = 1000, frameskip: int = 0, extend_worker: Optional[Type[ForwardRef('ExtendWorker')]] = None, processors: List[ForwardRef('RLProcessor')] = <factory>, render_image_processors: List[ForwardRef('RLProcessor')] = <factory>, enable_rl_processors: bool = True, enable_state_encode: bool = True, enable_action_decode: bool = True, window_length: int = 1, render_image_window_length: int = 1, state_encode_options: Optional[srl.base.spaces.space.SpaceEncodeOptions] = None, action_decode_options: Optional[srl.base.spaces.space.SpaceEncodeOptions] = None, reward_scale: float = 1.0, reward_shift: float = 0, render_last_step: bool = True, render_rl_image: bool = True, render_rl_image_size: Tuple[int, int] = (128, 128), enable_sanitize: bool = True, enable_assertion: bool = False, dtype: str = 'float32')

observation_mode: Literal['', 'render_image', 'both'] = '': 状態の入力を指定

override_env_observation_type: SpaceTypes = 1: env の observation_type を上書きします。例えばgymの自動判定で想定外のTypeになった場合、ここで上書きできます。

override_observation_type: RLBaseTypes | str = 1: observation_type を上書きします。

override_action_type: RLBaseTypes | str = 1: action_type を上書きします。

action_division_num: int = 10: 連続値から離散値に変換する場合の分割数です。-1の場合round変換で丸めます。

observation_division_num: int = 1000: 連続値から離散値に変換する場合の分割数です。-1の場合round変換で丸めます。

frameskip: int = 0: 1stepあたり、環境内で余分に進めるstep数例えばframeskip=3の場合、1step実行すると、環境内では4frame進みます。

extend_worker: Type[ExtendWorker] | None = None: ExtendWorkerを使う場合に指定

processors: List[RLProcessor]: Processorを使う場合に設定

render_image_processors: List[RLProcessor]: render_image に対してProcessorを使う場合に設定(use_render_image_stateが有効なアルゴリズムの場合適用)

enable_rl_processors: bool = True: Trueの場合、アルゴリズム側で指定されたprocessorsを使用します

enable_state_encode: bool = True: state_encodeを有効にするか

enable_action_decode: bool = True: action_decodeを有効にするか

window_length: int = 1: 2以上で過去Nステップをまとめて状態とします

render_image_window_length: int = 1: 2以上で過去Nステップをまとめて状態とします(use_render_image_stateが有効なアルゴリズムの場合適用)

state_encode_options: SpaceEncodeOptions | None = None: override state encode option

action_decode_options: SpaceEncodeOptions | None = None: override action decode option

reward_scale: float = 1.0: 報酬のスケールを変更

reward_shift: float = 0: 報酬をずらす

render_last_step: bool = True: render時にエピソード終了時のstepで描画するか

render_rl_image: bool = True: render時にRLへ入力される画像を描画するか

render_rl_image_size: Tuple[int, int] = (128, 128): render時にRLへ入力される画像のサイズ

enable_sanitize: bool = True: action/observationの値をエラーが出ないように可能な限り変換します。 ※エラー終了の可能性は減りますが、値の変換等による予期しない動作を引き起こす可能性が高くなります

enable_assertion: bool = False: action/observationの値を厳密にチェックし、おかしい場合は例外を出力します。 enable_assertionが有効な場合は、enable_sanitizeは無効です。

dtype: str = 'float32': dtype

get_processors(prev_observation_space: SpaceBase) → List[RLProcessor]: 前処理を追加したい場合設定

setup_from_env(env: EnvRun) → None: env初期化後に呼び出されます。env関係の初期化がある場合は記載してください。

setup_from_actor(actor_num: int, actor_id: int) → None: Actor関係の初期化がある場合は記載 - 分散学習でactorが指定されたときに呼び出されます

use_backup_restore() → bool: envのbackup/restoreを使う場合はTrue, MCTSなどで使用

use_render_image_state() → bool: envの画像情報を使用 - use_render_image_stateをTrueにするとworker.render_img_stateが有効になります - worker.render_img_state には env.render_rgb_array の画像が入ります

get_render_image_processors(prev_observation_space: SpaceBase) → List[RLProcessor]: render_img_stateに対する前処理"

use_update_parameter_from_worker() → bool: WorkerからParameterの更新がある場合はTrue - Trueの場合、分散学習で parameter.update_from_worker_parameter が学習後に呼ばれます - MCTSやGo系で使用

make_memory(env: EnvRun | None = None): make_memory(rl_config) と同じ動作

make_parameter(env: EnvRun | None = None): make_parameter(rl_config) と同じ動作

make_trainer(parameter: RLParameter, memory: RLMemory, env: EnvRun | None = None): make_trainer(rl_config) と同じ動作

make_worker(env: EnvRun, parameter: RLParameter | None = None, memory: RLMemory | None = None): make_worker(rl_config) と同じ動作

make_workers(players: Sequence[None | str | Tuple[str, dict] | RLConfig | Tuple[RLConfig, Any]], env: EnvRun, parameter: RLParameter | None = None, memory: RLMemory | None = None, main_worker: WorkerRun | None = None): make_workers() と同じ動作