RL Homework Refactoring

Environment

Normal

Forbidden

Target

Select the penalty for forbidden states:

-1 -10

Note: Changing this will affect the results in Optimality, Q-Learning, and TD Linear modules.

Click on cells to cycle actions (这个修改只对当前页面下方的 "Evaluate Policy"（策略评估）按钮生效):

Truncation Steps (k) for TPI(修改它也会影响下面TPI可视化的迭代次数):

Iteration: 0

Epsilon:

Note: 傅里叶变换阶数越高，结果越精确，但计算量也越大。此处展示初始策略为随机的预计算结果。

Polynomial Order:

Fourier Order: