用Python玩任一款街机游戏!

编者按:近年来,虽然关于强化学习进展的新闻屡见报端,对强化学习感兴趣的人也很多,但对普通学习者来说,真正做一个自己感兴趣的强化学习项目还是太麻烦了。今天论智给大家推荐的是一名网友开源的Python库,它提供了一个可以玩任何旧版街机游戏的API,操作方式非常亲民。

这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库,它目前在Linux系统上可用。通过这个工具包,你可以定制算法逐步完成游戏过程,同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态,以及发送与游戏交互的动作。

安装

GitHub地址:github.com/M-J-Murray/MAMetoolkit/blob/master/README.md

你可以用pip安装这个库,只需运行以下命令:

pip install MAMetoolkit

演示示例:街霸

在街机爱好者心中,街霸是史上最经典的游戏之一。现在工具包内包含的街霸版本是街头霸王3:三度冲击(Japan 990608,NO CD),我们以此为例,用以下代码一个随机智能体:

  1. import random
  2. from MAMetoolkit.sf_environment import Environment
  3. roms_path = "roms/"
  4. env = Environment("env1",roms_path)
  5. env.start()
  6. while True:
  7. move_action = random.randint(0,8)
  8. attack_action = random.randint(0,9)
  9. frames,reward,round_done,stage_done,game_done = env.step(move_action,attack_action)
  10. if game_done:
  11. env.new_game()
  12. elif stage_done:
  13. env.next_stage()
  14. elif round_done:
  15. env.next_round()

这个工具包还支持hogwild!训练:

什么是hogwild!?Niu等人引入了一个叫做 Hogwild! 的更新策略,可以使 SGD 可以在多 cpu 上并行更新。处理器在无需对参数加锁的情况下就可以访问共享内存。但仅在输入的是稀疏数据时才有效,因为每次更新仅修改所有参数的一小部分。他们展示了在这种情况下,更新策略几乎可以达到一个最优的收敛率,因为处理器不太可能覆盖掉有用的信息。

  1. from threading import Thread
  2. import random
  3. from MAMetoolkit.sf_environment import Environment
  4. def run_env(env):
  5. env.start()
  6. while True:
  7. move_action = random.randint(0,attack_action)
  8. if game_done:
  9. env.new_game()
  10. elif stage_done:
  11. env.next_stage()
  12. elif round_done:
  13. env.next_round()
  14. def main():
  15. workers = 8
  16. # Environments must be created outside of the threads
  17. roms_path = "roms/"
  18. envs = [Environment(f"env{i}",roms_path) for i in range(workers)]
  19. threads = [Thread(target=run_env,args=(envs[i],)) for i in range(workers)]
  20. [thread.start() for thread in threads]

建立自己的游戏环境

这个工具包之所以易于上手,是因为它和模拟器本身不需要太多交互,只需注意两点——一是查找你关注的内部状态相关联的内存地址值,二是用选取的环境跟踪状态。你可以用MAME Cheat Debugger,它会反馈游戏的内存地址值如何随时间变化。如果要创建游戏模拟,你得先获得正在模拟的游戏的ROM,并知道MAME使用的游戏ID,比如街霸的ID是'sfiii3n'。

游戏ID

你可以通过运行以下代码找到游戏的ID:

from MAMetoolkit.emulator import Emulator
emulator = Emulator("env1","",memory_addresses)

这个命令会打开MAME仿真器。你可以搜索游戏列表以找到想要的游戏,游戏的ID位于游戏标题末尾的括号中。

内存地址

如果获得了ID,也有了想要跟踪的内存地址,你可以开始模拟:

  1. from MAMetoolkit.emulator import Emulator
  2. from MAMetoolkit.emulator import Address
  3. roms_path = "roms/"
  4. game_id = "sfiii3n"
  5. memory_addresses = {
  6. "fighting": Address('0x0200EE44','u8'),
  7. "winsP1": Address('0x02011383',
  8. "winsP2": Address('0x02011385',
  9. "healthP1": Address('0x02068D0B','s8'),
  10. "healthP2": Address('0x020691A3','s8')
  11. }
  12. emulator = Emulator("env1",roms_path,"sfiii3n",memory_addresses)

这会启动仿真器,并在工具包连接到模拟器进程时暂停。

分步运行仿真器

连接工具箱后,你可以分步运行仿真器:

  1. data = emulator.step([])
  2. frame = data["frame"]
  3. is_fighting = data["fighting"]
  4. player1_wins = data["winsP1"]
  5. player2_wins = data["winsP2"]
  6. player1_health = data["healthP1"]
  7. player2_health = data["healthP2"]

step函数会把帧数据作为NumPy矩阵返回,同时,它也会返回该时间步长的所有内存地址整数值。

如果要向仿真器输入动作,你还需要确定游戏支持的输入端口和字段。比如玩街霸需要先投币,这个代码是:

  1. from MAMetoolkit.emulator import Action
  2. insert_coin = Action(':INPUTS','Coin 1')
  3. data = emulator.step([insert_coin])

要确定哪些端口可用,请使用list actions命令:

  1. from MAMetoolkit.emulator import list_actions
  2. roms_path = "roms/"
  3. game_id = "sfiii3n"
  4. print(list_actions(roms_path,game_id))

下面这个返回的列表就包含街霸环境中可用于向步骤函数发送动作的所有端口和字段:

[
 {'port': ':scsi:1:cdrom:SCSI_ID','field': 'SCSI ID'},{'port': ':INPUTS','field': 'P2 Jab Punch'},'field': 'P1 Left'},'field': 'P2 Fierce Punch'},'field': 'P1 Down'},'field': 'P2 Down'},'field': 'P2 Roundhouse Kick'},'field': 'P2 Strong Punch'},'field': 'P1 Strong Punch'},'field': '2 Players Start'},'field': 'Coin 1'},'field': '1 Player Start'},'field': 'P2 Right'},'field': 'Service 1'},'field': 'Coin 2'},'field': 'P1 Jab Punch'},'field': 'P2 Up'},'field': 'P1 Up'},'field': 'P1 Right'},'field': 'Service Mode'},'field': 'P1 Fierce Punch'},'field': 'P2 Left'},{'port': ':EXTRA','field': 'P2 Short Kick'},'field': 'P2 Forward Kick'},'field': 'P1 Forward Kick'},'field': 'P1 Roundhouse Kick'},'field': 'P1 Short Kick'}
]

仿真器类还有一个frame_ratio参数,可用于调整算法所见的帧速率。认情况下,MAME以每秒60帧的速度生成帧,如果你觉得这太多了,想把它改成每秒20帧,可以输入以下代码

  1. from MAMetoolkit.emulator import Emulator
  2. emulator = Emulator(roms_path,game_id,memory_addresses,frame_ratio=3)

MAME性能基准测试

目前这个工具包的开发和测试已在8核AMD FX-8300 3.3GHz cpu以及3GB GeForce GTX 1060 GPU上完成。在使用单个随机智能体的情况下,街头霸王环境可以以正常游戏速度的600%+运行。而如果是用8个随机智能体进行hogwild!训练,环境可以以正常游戏速度的300%+运行。

ConvNet智能体

为了确保工具包能够训练算法,作者还设置了一个简单的5层ConvNet,只需少量调整,你就可以用它进行测试。在街霸实验中,这个算法能够成功学习到游戏的一些简单技巧,比如连击(combo)和格挡(blocking)。街霸本身的游戏机制是分成10个关卡(难度递增),玩家在每个关卡都要迎战不同的对手。刚开始的时候,这个智能体平均只能打到第2关。但在经过2200次训练后,它平均能打到第5关。

至于智能体的学习率,它是用每一局智能体所造成的净伤害和所承受的伤害来计算的。

用Python玩任一款街机游戏!

- The End -

「若你有原创文章想与大家分享,欢迎投稿。」

加编辑微信ID,备注#投稿#:

程序 丨 druidlost

2018 中国大数据技术大会

BDTC 2018

BDTC 2018中国大数据技术大会携主题“大数据新应用”再度强势来袭。本次大会由 华东师范大学副校长、教授周傲英,百度商业智能实验室主任熊辉,阿里巴巴副总裁李飞飞 三位会议主席对大会内容把关,多位两院院士参与指导,由最了解行业痛点的一线从业者为同行打造。

进群:960410445    有惊喜哟

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


我最近重新拾起了计算机视觉,借助Python的opencv还有face_recognition库写了个简单的图像识别demo,额外定制了一些内容,原本想打包成exe然后发给朋友,不过在这当中遇到了许多小问题,都解决了,记录一下踩过的坑。 1、Pyinstaller打包过程当中出现warning,跟d
说到Pooling,相信学习过CNN的朋友们都不会感到陌生。Pooling在中文当中的意思是“池化”,在神经网络当中非常常见,通常用的比较多的一种是Max Pooling,具体操作如下图: 结合图像理解,相信你也会大概明白其中的本意。不过Pooling并不是只可以选取2x2的窗口大小,即便是3x3,
记得大一学Python的时候,有一个题目是判断一个数是否是复数。当时觉得比较复杂不好写,就琢磨了一个偷懒的好办法,用异常处理的手段便可以大大程度帮助你简短代码(偷懒)。以下是判断整数和复数的两段小代码: 相信看到这里,你也有所顿悟,能拓展出更多有意思的方法~
文章目录 3 直方图Histogramplot1. 基本直方图的绘制 Basic histogram2. 数据分布与密度信息显示 Control rug and density on seaborn histogram3. 带箱形图的直方图 Histogram with a boxplot on t
文章目录 5 小提琴图Violinplot1. 基础小提琴图绘制 Basic violinplot2. 小提琴图样式自定义 Custom seaborn violinplot3. 小提琴图颜色自定义 Control color of seaborn violinplot4. 分组小提琴图 Group
文章目录 4 核密度图Densityplot1. 基础核密度图绘制 Basic density plot2. 核密度图的区间控制 Control bandwidth of density plot3. 多个变量的核密度图绘制 Density plot of several variables4. 边
首先 import tensorflow as tf tf.argmax(tenso,n)函数会返回tensor中参数指定的维度中的最大值的索引或者向量。当tensor为矩阵返回向量,tensor为向量返回索引号。其中n表示具体参数的维度。 以实际例子为说明: import tensorflow a
seaborn学习笔记章节 seaborn是一个基于matplotlib的Python数据可视化库。seaborn是matplotlib的高级封装,可以绘制有吸引力且信息丰富的统计图形。相对于matplotlib,seaborn语法更简洁,两者关系类似于numpy和pandas之间的关系,seabo
Python ConfigParser教程显示了如何使用ConfigParser在Python中使用配置文件。 文章目录 1 介绍1.1 Python ConfigParser读取文件1.2 Python ConfigParser中的节1.3 Python ConfigParser从字符串中读取数据
1. 处理Excel 电子表格笔记(第12章)(代码下载) 本文主要介绍openpyxl 的2.5.12版处理excel电子表格,原书是2.1.4 版,OpenPyXL 团队会经常发布新版本。不过不用担心,新版本应该在相当长的时间内向后兼容。如果你有新版本,想看看它提供了什么新功能,可以查看Open
1. 发送电子邮件和短信笔记(第16章)(代码下载) 1.1 发送电子邮件 简单邮件传输协议(SMTP)是用于发送电子邮件的协议。SMTP 规定电子邮件应该如何格式化、加密、在邮件服务器之间传递,以及在你点击发送后,计算机要处理的所有其他细节。。但是,你并不需要知道这些技术细节,因为Python 的
文章目录 12 绘图实例(4) Drawing example(4)1. Scatterplot with varying point sizes and hues(relplot)2. Scatterplot with categorical variables(swarmplot)3. Scat
文章目录 10 绘图实例(2) Drawing example(2)1. Grouped violinplots with split violins(violinplot)2. Annotated heatmaps(heatmap)3. Hexbin plot with marginal dist
文章目录 9 绘图实例(1) Drawing example(1)1. Anscombe’s quartet(lmplot)2. Color palette choices(barplot)3. Different cubehelix palettes(kdeplot)4. Distribution
Python装饰器教程展示了如何在Python中使用装饰器基本功能。 文章目录 1 使用教程1.1 Python装饰器简单示例1.2 带@符号的Python装饰器1.3 用参数修饰函数1.4 Python装饰器修改数据1.5 Python多层装饰器1.6 Python装饰器计时示例 2 参考 1 使
1. 用GUI 自动化控制键盘和鼠标第18章 (代码下载) pyautogui模块可以向Windows、OS X 和Linux 发送虚拟按键和鼠标点击。根据使用的操作系统,在安装pyautogui之前,可能需要安装一些其他模块。 Windows: 不需要安装其他模块。OS X: sudo pip3
文章目录 生成文件目录结构多图合并找出文件夹中相似图像 生成文件目录结构 生成文件夹或文件的目录结构,并保存结果。可选是否滤除目录,特定文件以及可以设定最大查找文件结构深度。效果如下: root:[z:/] |--a.py |--image | |--cat1.jpg | |--cat2.jpg |
文章目录 VENN DIAGRAM(维恩图)1. 具有2个分组的基本的维恩图 Venn diagram with 2 groups2. 具有3个组的基本维恩图 Venn diagram with 3 groups3. 自定义维恩图 Custom Venn diagram4. 精致的维恩图 Elabo
mxnet60分钟入门Gluon教程代码下载,适合做过深度学习的人使用。入门教程地址: https://beta.mxnet.io/guide/getting-started/crash-course/index.html mxnet安装方法:pip install mxnet 1 在mxnet中使
文章目录 1 安装2 快速入门2.1 基本用法2.2 输出图像格式2.3 图像style设置2.4 属性2.5 子图和聚类 3 实例4 如何进一步使用python graphviz Graphviz是一款能够自动排版的流程图绘图软件。python graphviz则是graphviz的python实