如何解决向前迈进的健身房复古奖励
如何奖励在超级马里奥兄弟这样的游戏中前进的代理?我拥有的唯一数据是得分和生命,但有没有办法获得代理的坐标?我正在使用 NEAT 来训练我的代理,这是代码。我目前正在奖励它以获得尽可能高的分数,但它不会因为按下右键而奖励它,因为它只会推入墙壁并获得奖励,直到计时器用完。
import retro
import numpy as np
import cv2
import neat
import pickle
env = retro.make('SuperMarioWorld-Snes','Start.state')
imgarray = []
xpos_end = 0
def eval_genomes(genomes,config):
for genome_id,genome in genomes:
ob = env.reset()
ac = env.action_space.sample()
inx,iny,inc = env.observation_space.shape
inx = int(inx / 8)
iny = int(iny / 8)
net = neat.nn.recurrent.RecurrentNetwork.create(genome,config)
current_max_fitness = 0
fitness_current = 0
frame = 0
counter = 0
xpos = 0
xpos_max = 0
done = False
# cv2.namedWindow("main",cv2.WINDOW_norMAL)
while not done:
env.render()
frame += 1
# scaledimg = cv2.cvtColor(ob,cv2.COLOR_BGR2RGB)
# scaledimg = cv2.resize(scaledimg,(iny,inx))
ob = cv2.resize(ob,(inx,iny))
ob = cv2.cvtColor(ob,cv2.COLOR_BGR2GRAY)
ob = np.reshape(ob,iny))
# cv2.imshow('main',scaledimg)
# cv2.waitKey(1)
imgarray = np.ndarray.flatten(ob)
nnOutput = net.activate(imgarray)
for i in range(len(nnOutput)):
nnOutput[i] = int(nnOutput[i])
if nnOutput[i] < 0:
nnOutput[i] = 0
ob,rew,done,info = env.step(nnOutput)
# xpos = info['x']
# xpos_end = info['screen_x_end']
# if xpos > xpos_max:
# fitness_current += 1
# xpos_max = xpos
# if xpos == xpos_end and xpos > 500:
# fitness_current += 100000
# done = True
fitness_current += rew
print(env.statename)
if fitness_current > current_max_fitness:
current_max_fitness = fitness_current
counter = 0
else:
counter += 1
if done or counter == 250:
done = True
print(genome_id,fitness_current)
genome.fitness = fitness_current
config = neat.Config(neat.DefaultGenome,neat.DefaultReproduction,neat.DefaultSpeciesSet,neat.DefaultStagnation,'config.txt')
p = neat.Population(config)
p.add_reporter(neat.StdOutReporter(True))
stats = neat.StatisticsReporter()
p.add_reporter(stats)
p.add_reporter(neat.Checkpointer(10))
winner = p.run(eval_genomes)
with open('winner.pkl','wb') as output:
pickle.dump(winner,output,1)
解决方法
使用 print( retro.__file__ )
我找到了带有模块 retro
的文件夹并检查我找到的所有子文件夹我用 SuperMarioWorld
找到的文件夹
在我的 Linux 上是
/usr/local/lib/python3.8/dist-packages/retro/data/stable/SuperMarioWorld-Snes
文件 data.json
定义了 retro
如何在 score
中找到 lives
和 ROM
在 OpenAI-Retro-SuperMarioWorld-SNES 中,我找到了 data.json,其中还包含 x
、y
等的信息。
如果我替换 data.json
那么我可以在代码中得到 info["x"]
。
但我不确定这个文件是否适用于 SuperMario
的每个版本。
我使用 Super Mario World (Europe) (Rev 1)
进行了测试
但还有其他版本 - 欧洲、美国、日本。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。