Memory

SingleUseBuffer

class srl.rl.memories.single_use_buffer.SingleUseBuffer

ReplayBuffer

class srl.rl.memories.replay_buffer.ReplayBufferConfig(capacity: int = 100000, warmup_size: int = 1000, compress: bool = True, compress_level: int = -1)

capacity: int = 100000: capacity

warmup_size: int = 1000: warmup_size

compress: bool = True: memoryデータを圧縮してやり取りするかどうか

compress_level: int = -1: memory(zlib)の圧縮レベル

PriorityReplayBuffer

class srl.rl.memories.priority_replay_buffer.PriorityReplayBufferConfig(capacity: int = 100000, warmup_size: int = 1000, compress: bool = True, compress_level: int = -1, name: str = 'ReplayBuffer', kwargs: dict = <factory>, enable_demo_memory: bool = False, select_memory: Literal['main', 'demo'] = 'main', demo_ratio: float = 0.00390625)

capacity: int = 100000: capacity

warmup_size: int = 1000: warmup_size

compress: bool = True: memoryデータを圧縮してやり取りするかどうか

compress_level: int = -1: memory(zlib)の圧縮レベル

enable_demo_memory: bool = False: demo memoryを使うかどうか

select_memory: Literal['main', 'demo'] = 'main': 経験収集を行うメモリの種類

demo_ratio: float = 0.00390625: demo memoryの混ぜる割合

class srl.rl.memories.priority_memories.replay_buffer.ReplayBuffer(capacity: int)

class srl.rl.memories.priority_memories.proportional_memory.ProportionalMemory(capacity: int, alpha: float = 0.6, beta_initial: float = 0.4, beta_steps: int = 1000000, has_duplicate: bool = True, epsilon: float = 0.0001)

alpha: float = 0.6: priorityの反映度、0の場合は完全ランダム、1に近づくほどpriorityによるランダム度になります。

beta_initial: float = 0.4: βはISを反映させる割合。ただβは少しずつ増やし、最後に1(完全反映)にします。そのβの初期値です。

beta_steps: int = 1000000: βを何stepで1にするか

has_duplicate: bool = True: sample時に重複をきょかするか

epsilon: float = 0.0001: priorityを0にしないための小さい値

class srl.rl.memories.priority_memories.rankbased_memory.RankBasedMemory(capacity: int = 100000, alpha: float = 0.6, beta_initial: float = 0.4, beta_steps: int = 1000000)

alpha: float = 0.6: priorityの反映度、0の場合は完全ランダム、1に近づくほどpriorityによるランダム度になります。

beta_initial: float = 0.4: βはISを反映させる割合。ただβは少しずつ増やし、最後に1(完全反映)にします。そのβの初期値です。

beta_steps: int = 1000000: βを何stepで1にするか

class srl.rl.memories.priority_memories.rankbased_memory_linear.RankBasedMemoryLinear(capacity: int = 100000, alpha: float = 1.0, beta_initial: float = 0.4, beta_steps: int = 1000000)