OpenAI Gym - CartPole-v0
chainerrlのサンプルを使って、Double-DQNでOpenAI Gym - CartPole-v0を学習させた。
まだできていないところ * OpenAIへのuploadが何故かできない(requestsのバージョンが低いと言われるが、それを上げてもダメだった) * そもそもソース理解していない
つまった所 * ChainerRLのdocumentが古かった(chainerのコードを読みに行ったら、target_update_intervalがtarget_update_frequencyにひっそりと変わっていた。公式docが未更新でgitへのリンクが切れてる…)
動画 https://github.com/hamko/sample/blob/master/chainerrl/cartpole-v0/openaigym.video.0.32518.video000001.mp4?raw=true ソース github.com
何のためにPRMLやってるのかわからなくなったので原因解析
何のためにPRMLやってるのかわからなくなったので原因解析
- (1) motivatingに失敗している(僕がやりたいのは教科学習)
- (2) トイプロブレムばかりでつまらない、先に実際的な問題を考えるフェーズが要る
- (3) 確率わからないので式変形ができない
読む場所を限定すべき、グラフィカルモデル大事(確率変数の依存関係の可視化) http://d.hatena.ne.jp/n_shuyo/20121004/prml
実装できるモデルの全列挙 PRMLの実装のすすめ
なんかいろいろpythonで実装している人 aidiary.hatenablog.com http://aidiary.hatenablog.com/archive/category/PRML
よく使うやつ、使わないやつの整理 http://ibisforest.org/index.php?PRML%2Fcourse
グラフィカルモデル http://machine-learning.hatenablog.com/entry/2016/02/14/123945
グラフィカルモデルのスライド https://www.slideshare.net/Kawamoto_Kazuhiko/ss-35483453
後半実装
勉強会まとめ(京都大学のやつが良さそう)
スライドと演習解答まとめ