自学围棋的AlphaGo Zero，你也可以造一个( 三 ) _小知识

1def train():
2 criterion = AlphaLoss()
3 dataset = SelfPlayDataset()
4 player, checkpoint = load_player(current_time, loaded_version)
5 optimizer = create_optimizer(player, lr,
6 param=checkpoint['optimizer'])
7 best_player = deepcopy(player)
8 dataloader = DataLoader(dataset, collate_fn=collate_fn, \
9 batch_size=BATCH_SIZE, shuffle=True)
10
11 while True:
12 for batch_idx, (state, move, winner) in enumerate(dataloader):
13
14 ## Evaluate a copy of the current network
15 if total_ite % TRAIN_STEPS == 0:
16 pending_player = deepcopy(player)
17 result = evaluate(pending_player, best_player)
18
19 if result:
20 best_player = pending_player
21
22 example = {
23 'state': state,
24 'winner': winner,
25 'move' : move
26 }
27 optimizer.zero_grad()
28 winner, probas = pending_player.predict(example['state'])
29
30 loss = criterion(winner, example['winner'], \
31 probas, example['move'])
32 loss.backward()
33 optimizer.step()
34
35 ## Fetch new games
36 if total_ite % REFRESH_TICK == 0:
37 last_id = fetch_new_games(collection, dataset, last_id)
训练用的丧失函数表现如下：
1class AlphaLoss(torch.nn.Module):
2 def __init__(self):
3 super(AlphaLoss, self).__init__()
4
5 def forward(self, pred_winner, winner, pred_probas, probas):
6 value_error = (winner - pred_winner) ** 2
7 policy_error = torch.sum((-probas *
8 (1e-6 + pred_probas).log()), 1)
9 total_error = (value_error.view(-1) + policy_error).mean()
10 return total_error
三是评估 (Evaluation) ，看训练过的智能体，比起正在生成数据的智能体，是不是更优良了 (最优良者回到第一步，持续生成数据)。
1def evaluate(player, new_player):
2 results = play(player, opponent=new_player)
3 black_wins = 0
4 white_wins = 0
5
6 for result in results:
7 if result[0] == 1:
8 white_wins += 1
9 elif result[0] == 0:
10 black_wins += 1
11
12 ## Check if the trained player (black) is better than
13 ## the current best player depending on the threshold
14 if black_wins >= EVAL_THRESH * len(results):
15 return True
16 return False
第三部分很主要，要不断选出最优的网络，来不断生成高质量的数据，能力晋升AI的棋艺。
三个环节周而复始，能力养成壮大的棋手。
有志于AI围棋的各位，也可以试一试这个PyTorch实现。
原来摘自量子位，原作 Dylan Djian 。
代码实现传送门：
网页链接
教程原文传送门：
网页链接
AlphaGo Zero论文传送门：
【自学围棋的AlphaGo Zero，你也可以造一个】网页链接

自学围棋的AlphaGo Zero，你也可以造一个( 三 )

推荐阅读

杨幂|杨幂，成毅，伦，易梦玲，奚梦瑶

新的平底锅买回来第一次怎么用

中国银行保险报|年内第6家汇丰银行（中国）支行关闭

「减肥」减肥怎么吃？这样的健身食谱想不瘦都难！

立案后多久通知被告(民事诉讼立案后多久通知被告人)

罗志祥@罗志祥干妈再发声，对周扬青态度360度大转变

职业教育|为什么在毕业五六年之后，才发现公务员是真的香？现在也不晚！

声带麻痹会呼吸困难吗

内双眼皮如何画眼妆！内双眼皮化妆技巧

时尚星闻|真的是团队的锅吗？，粉丝越管越宽？一言不合就开骂

#育妈记#普通人很少用，为什么女明星更容易怀上双胞胎？这两个秘诀

捡到10万元钻戒以为是道具■跑车掉下10万元钻戒，拾到者以为是道具

猫眼看数码三款适合大学生的5G手机盘点用满四年无压力，价格不超3000元高通骁龙865：红米K30 Pro联发科天玑1000 Plus：iQOO Z1麒麟990 5G：荣耀V30 Pro

「郑智」抬价开始？内马尔转会定价1.64亿，皇马参与追逐战！巴萨这下难了

「娱乐密探」而黑过张馨予的人，远远多过喜爱她的人。，作为明星总有会被黑的时分

汽车减速只会踩刹车作为合格的车主，这3种减速方式应切换自如

『树诚教育』全世界都一样，学习是辛苦的

上大学怀念高中生活?好想念高中的日子

扬子晚报|热心群众报警疑似酒驾，司机被查后还坚称自己没开车

8月出生的属于什么星座 8月出生的是什么星座