Dqn (p.fehu.1.0.0~alpha2.doc.fehu.algorithms.Fehu

Sourcetype config = {

learning_rate : float;
gamma : float;
epsilon_start : float;
epsilon_end : float;
epsilon_decay : float;
batch_size : int;
buffer_capacity : int;
target_update_freq : int;
warmup_steps : int;

}

Sourceval default_config : config

Sourcetype params = Kaun.Ptree.t

Sourcetype metrics = {

loss : float;
avg_q_value : float;
epsilon : float;
episode_return : float option;
episode_length : int option;
total_steps : int;
total_episodes : int;

}

Sourcetype state

Source

val init : 
  env:
    ((float, Bigarray.float32_elt) Rune.t,
      (int32, Bigarray.int32_elt) Rune.t,
      'render)
      Fehu.Env.t ->
  q_network:Kaun.module_ ->
  rng:Rune.Rng.key ->
  config:config ->
  params * state

Source

val step : 
  env:
    ((float, Bigarray.float32_elt) Rune.t,
      (int32, Bigarray.int32_elt) Rune.t,
      'render)
      Fehu.Env.t ->
  params:params ->
  state:state ->
  params * state

Sourceval metrics : state -> metrics

Latest metrics gathered after step.

Source

val train : 
  env:
    ((float, Bigarray.float32_elt) Rune.t,
      (int32, Bigarray.int32_elt) Rune.t,
      'render)
      Fehu.Env.t ->
  q_network:Kaun.module_ ->
  rng:Rune.Rng.key ->
  config:config ->
  total_timesteps:int ->
  ?callback:(metrics -> [ `Continue | `Stop ]) ->
  unit ->
  params * state

Sourceval save : path:string -> params:params -> state:state -> unit

Source

val load : 
  path:string ->
  env:
    ((float, Bigarray.float32_elt) Rune.t,
      (int32, Bigarray.int32_elt) Rune.t,
      'render)
      Fehu.Env.t ->
  q_network:Kaun.module_ ->
  config:config ->
  (params * state, string) result