RLConfig

class srl.base.rl.config.RLConfig(observation_mode: str | ~srl.base.define.ObservationModes = ObservationModes.ENV, override_observation_type: ~srl.base.define.SpaceTypes = SpaceTypes.UNKNOWN, override_action_type: str | ~srl.base.define.RLBaseActTypes = <RLBaseActTypes.NONE: 1>, action_division_num: int = 10, observation_division_num: int = 1000, frameskip: int = 0, extend_worker: ~typing.Type[ExtendWorker] | None = None, parameter_path: str = '', memory_path: str = '', use_rl_processor: bool = True, processors: ~typing.List[RLProcessor] = <factory>, render_image_processors: ~typing.List[RLProcessor] = <factory>, enable_state_encode: bool = True, enable_action_decode: bool = True, enable_reward_encode: bool = True, enable_done_encode: bool = True, window_length: int = 1, render_image_window_length: int = 1, enable_sanitize: bool = True, enable_assertion: bool = False)

RLConfig はアルゴリズムの動作を定義します。 アルゴリズム毎に別々のハイパーパラメータがありますが、ここはアルゴリズム共通のパラメータの定義となります。

observation_mode: str | ObservationModes = 1

状態の入力を指定

override_observation_type: SpaceTypes = 0

env の observation_type を上書きします。 例えばgymの自動判定で想定外のTypeになった場合、ここで上書きできます。

override_action_type: str | RLBaseActTypes = 1

action_type を上書きします。

action_division_num: int = 10

連続値から離散値に変換する場合の分割数です。-1の場合round変換で丸めます。

observation_division_num: int = 1000

連続値から離散値に変換する場合の分割数です。-1の場合round変換で丸めます。

frameskip: int = 0

1stepあたり、環境内で余分に進めるstep数 例えばframeskip=3の場合、1step実行すると、環境内では4frame進みます。

extend_worker: Type[ExtendWorker] | None = None

ExtendWorkerを使う場合に指定

parameter_path: str = ''

指定されていた場合、Parameter生成時にpathファイルをロードします

memory_path: str = ''

指定されていた場合、Memory生成時にpathファイルをロードします

use_rl_processor: bool = True

Trueの場合、アルゴリズム側で指定されたprocessorを使用します

processors: List[RLProcessor]

Processorを使う場合、定義したProcessorのリスト

render_image_processors: List[RLProcessor]

Processorを使う場合、定義したProcessorのリスト

enable_state_encode: bool = True

state_encodeを有効にするか

enable_action_decode: bool = True

action_decodeを有効にするか

enable_reward_encode: bool = True

reward_encodeを有効にするか

enable_done_encode: bool = True

done_encodeを有効にするか

window_length: int = 1

過去Nステップをまとめて状態とします

render_image_window_length: int = 1

過去Nステップをまとめて状態とします

enable_sanitize: bool = True

action/observationの値をエラーが出ないように可能な限り変換します。 ※エラー終了の可能性は減りますが、値の変換等による予期しない動作を引き起こす可能性が高くなります

enable_assertion: bool = False

action/observationの値を厳密にチェックし、おかしい場合は例外を出力します。 enable_assertionが有効な場合は、enable_sanitizeは無効です。

dtype

dtype

:py:class:`~numpy.float32`の別名です。

make_memory(env: EnvRun | None = None, is_load: bool = True)

make_memory(rl_config) と同じ動作

make_parameter(env: EnvRun | None = None, is_load: bool = True)

make_parameter(rl_config) と同じ動作

make_trainer(parameter: RLParameter, memory: RLMemory, env: EnvRun | None = None)

make_trainer(rl_config) と同じ動作

make_worker(env: EnvRun, parameter: RLParameter | None = None, memory: IRLMemoryWorker | None = None)

make_worker(rl_config) と同じ動作

make_workers(players: List[None | str | Tuple[str, dict] | RLConfig | Tuple[RLConfig, Any]], env: EnvRun, parameter: RLParameter | None = None, memory: IRLMemoryWorker | None = None)

make_workers() と同じ動作