JIDI强化学习平台

2021-08-24

【本文共130字母，887字】

今天从 RL_china 的公众号看到一个JIDI的强化学习平台。包好许多的强化学习的环境和学习资料。感觉挺棒的，收藏起来，好好学习。

RL_china学习

通过参与者数量和智能体数量将强化学习的问题分为：单方但智能体、多方单智能体、单方多智能体和多方多智能体。

程序和机器学习的流程上的区别，程序是已知流程求结果。机器学习是1+X=3求X。

选择模型、训练模型、评估模型

eg:回归和分类

正则。。博弈矩阵零和博弈、合作博弈、协同博弈、纳什均衡社会困境（囚徒困境）纯策略和混合策略

扩展式博弈和不完美信息（回合）轮流做选择博弈树、不完美边和叶子节点（收益）

马尔科夫博弈 –可重复理性智能体，最大化收益行为策略（空间远小于混合策略）

贝叶斯博弈和非完全信息动态贝叶斯博弈

解决方案占优策略Best response 帕累托最优、纳什均衡、两人混合博弈中的纳什均衡是一定存在的。

合作多智能体——-Dec-POMDP Dec-POMDP is NEXP MARL Challenges

Paradigms:

Paradigms

Summary:

Summary

Future：

基于模型的MARL

Hidden seek RPG 奖励随机化—>Fine tune 寻找各种不同的策略合作-不合作 –Monster-Hunt 离散共同抓住才算抓住（类似IGSAIL） –Agar.io 球球大作战2人

俞扬决策算法—南栖仙策

offline RL ——-> 数据驱动、0试错、少交互

工控、汽车研发、

王一君-供应链览众数据CEO

Summary