Agent57

class srl.algorithms.agent57.agent57.Config(framework: ~typing.Literal['auto', 'tensorflow', 'torch'] = 'auto', observation_mode: ~typing.Literal['', 'render_image', 'both'] = '', override_env_observation_type: ~srl.base.define.SpaceTypes = SpaceTypes.UNKNOWN, override_observation_type: ~srl.base.define.RLBaseTypes | str = <RLBaseTypes.NONE: 1>, override_action_type: ~srl.base.define.RLBaseTypes | str = <RLBaseTypes.NONE: 1>, action_division_num: int = 10, observation_division_num: int = 1000, frameskip: int = 0, extend_worker: ~typing.Type[ExtendWorker] | None = None, processors: ~typing.List[RLProcessor] = <factory>, render_image_processors: ~typing.List[RLProcessor] = <factory>, enable_rl_processors: bool = True, enable_state_encode: bool = True, enable_action_decode: bool = True, window_length: int = 1, render_image_window_length: int = 1, state_encode_options: ~srl.base.spaces.space.SpaceEncodeOptions | None = None, action_decode_options: ~srl.base.spaces.space.SpaceEncodeOptions | None = None, reward_scale: float = 1.0, reward_shift: float = 0, render_last_step: bool = True, render_rl_image: bool = True, render_rl_image_size: ~typing.Tuple[int, int] = (128, 128), enable_sanitize: bool = True, enable_assertion: bool = False, dtype: str = 'float32', test_epsilon: float = 0, test_beta: float = 0, batch_size: int = 32, memory: ~srl.rl.memories.priority_replay_buffer.PriorityReplayBufferConfig = <factory>, input_block: ~srl.rl.models.config.input_block.InputBlockConfig = <factory>, lstm_units: int = 512, hidden_block: ~srl.rl.models.config.dueling_network.DuelingNetworkConfig = <factory>, lr_ext: float = 0.0001, lr_ext_scheduler: ~srl.rl.schedulers.lr_scheduler.LRSchedulerConfig = <factory>, lr_int: float = 0.0001, lr_int_scheduler: ~srl.rl.schedulers.lr_scheduler.LRSchedulerConfig = <factory>, target_model_update_interval: int = 1500, burnin: int = 5, sequence_length: int = 5, retrace_h: float = 1.0, enable_double_dqn: bool = True, enable_rescale: bool = False, actor_num: int = 32, ucb_window_size: int = 3600, ucb_epsilon: float = 0.01, ucb_beta: float = 1, enable_intrinsic_reward: bool = True, episodic_lr: float = 0.0005, episodic_lr_scheduler: ~srl.rl.schedulers.lr_scheduler.LRSchedulerConfig = <factory>, episodic_count_max: int = 10, episodic_epsilon: float = 0.001, episodic_cluster_distance: float = 0.008, episodic_memory_capacity: int = 30000, episodic_pseudo_counts: float = 0.1, episodic_emb_block: ~srl.rl.models.config.hidden_block.HiddenBlockConfig = <factory>, episodic_out_block: ~srl.rl.models.config.hidden_block.HiddenBlockConfig = <factory>, lifelong_lr: float = 0.0005, lifelong_lr_scheduler: ~srl.rl.schedulers.lr_scheduler.LRSchedulerConfig = <factory>, lifelong_max: float = 5.0, lifelong_hidden_block: ~srl.rl.models.config.hidden_block.HiddenBlockConfig = <factory>, input_ext_reward: bool = True, input_int_reward: bool = False, input_action: bool = False, disable_int_priority: bool = False)