Gradient

Companion object Gradient

case class Gradient[Obs, A, R, T, S[_]](config: Config[R, T], valueFn: ActionValueFn[Obs, A, Item[T]])(implicit evidence$1: Equiv[A], evidence$2: ToDouble[R], evidence$3: ToDouble[T]) extends Policy[Obs, A, R, Cat, S] with Product with Serializable

This thing needs to track its average reward internally... then, if we have the gradient baseline set, use that thing to generate the notes.

T is the "average" type.

Source: Gradient.scala

Linear Supertypes

Serializable, Serializable, Product, Equals, Policy[Obs, A, R, Cat, S], AnyRef, Any

Ordering

Alphabetic
By Inheritance

Inherited

Gradient
Serializable
Serializable
Product
Equals
Policy
AnyRef
Any

Hide All
Show All

Visibility

Public
All

Instance Constructors

new Gradient(config: Config[R, T], valueFn: ActionValueFn[Obs, A, Item[T]])(implicit arg0: Equiv[A], arg1: ToDouble[R], arg2: ToDouble[T])

Type Members

type This = Policy[Obs, A, R, Cat, S]

Definition Classes
Policy

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def aToDouble(obs: Obs): ToDouble[A]
Let's try out this style for a bit.
Let's try out this style for a bit. This gives us a way to convert an action directly into a probability, using our actionValue Map above.
final def asInstanceOf[T0]: T0

Definition Classes
Any
def choose(state: State[Obs, A, R, S]): Cat[A]

Definition Classes
Gradient → Policy
def clone(): AnyRef

Attributes
protected[lang]
Definition Classes
AnyRef
Annotations
@throws( ... ) @native()
val config: Config[R, T]
def contramapObservation[P](f: (P) ⇒ Obs)(implicit S: Functor[S]): Policy[P, A, R, Cat, S]

Definition Classes
Policy
def contramapReward[T](f: (T) ⇒ R)(implicit S: Functor[S]): Policy[Obs, A, T, Cat, S]

Definition Classes
Policy
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def finalize(): Unit

Attributes
protected[lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
Annotations
@native()
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def learn(sars: SARS[Obs, A, R, S]): This

Definition Classes
Gradient → Policy
def mapK[N[_]](f: FunctionK[Cat, N]): Policy[Obs, A, R, N, S]
Just an idea to see if I can make stochastic deciders out of deterministic deciders.
Just an idea to see if I can make stochastic deciders out of deterministic deciders. We'll see how this develops.

Definition Classes
Policy
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def notify(): Unit

Definition Classes
AnyRef
Annotations
@native()
final def notifyAll(): Unit

Definition Classes
AnyRef
Annotations
@native()
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
val valueFn: ActionValueFn[Obs, A, Item[T]]
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... ) @native()

Packages

ScalaRL

Gradient

Companion object Gradient

case class Gradient[Obs, A, R, T, S[_]](config: Config[R, T], valueFn: ActionValueFn[Obs, A, Item[T]])(implicit evidence$1: Equiv[A], evidence$2: ToDouble[R], evidence$3: ToDouble[T]) extends Policy[Obs, A, R, Cat, S] with Product with Serializable

Instance Constructors

Type Members

Value Members

Inherited from Serializable

Inherited from Serializable

Inherited from Product

Inherited from Equals

Inherited from Policy[Obs, A, R, Cat, S]

Inherited from AnyRef

Inherited from Any

Ungrouped

Packages

ScalaRL

Gradient 

Companion object Gradient

case class Gradient[Obs, A, R, T, S[_]](config: Config[R, T], valueFn: ActionValueFn[Obs, A, Item[T]])(implicit evidence$1: Equiv[A], evidence$2: ToDouble[R], evidence$3: ToDouble[T]) extends Policy[Obs, A, R, Cat, S] with Product with Serializable

Instance Constructors

Type Members

Value Members

Inherited from Serializable

Inherited from Serializable

Inherited from Product

Inherited from Equals

Inherited from Policy[Obs, A, R, Cat, S]

Inherited from AnyRef

Inherited from Any

Ungrouped

Gradient