从“能赢棋”到“能繁衍” 学院派王小川再聊“阿法狗”

2016-03-25 15:27:24|来源：国际在线|编辑：王瑞芳

图片默认标题

图为王小川在会上发言。易成晨-摄

　　国际在线报道（记者易成晨） 3月24日，在博鳌亚洲论坛“人工智能：探索生命疆界”分论坛上，具有浓厚学院派风格的搜狗CEO王小川畅谈人工智能的发展，深入介绍了AlphaGo赢棋的技术细节，以及基于技术的不断优化和算法的不断升级，使得机器的策略和行为越来越与人类相似。他认为，民众对于AlphaGo“阿法狗”的认识还停留在机器打败人上，但从技术角度上来说，“赢棋”只是像“阿法狗”这样的人工智能的能力之一，如果有合适的算法使其具备“繁衍”的能力，那么就会产生一件令人振奋的事情——生命。

　　“深蓝”赢象棋和“阿法狗”赢围棋已完全无法类比

　　王小川说，1997年IBM的打败卡斯帕罗夫的“深蓝”的计算能力比今天谷歌的AlphaGo要差三万倍，但是，计算能力的突飞猛进并不是AlphaGo赢围棋的唯一决定因素，众多围棋选手甚至是科技圈人士在赛前一边倒的认为李世石能赢也正因如此。

　　王小川介绍，“深蓝”的下棋方法大体上就是暴力搜索，而象棋相对简单的因果层级使得这种方法非常奏效。“我算过一次，大概搜索十三到十四层，每次展开三到四个页为节点。”“今天我们用一个台式机，甚至一个笔记本就已经可以赢顶尖的国际象棋选手。甚至让顶尖选手一两个兵，再开局也能赢，在国际象棋里面已经是碾压了。”这种方法被归为机器学习的第一阶段。

　　而作为对比，围棋的变化数量比全宇宙里的原子总数还要多，所以用穷举这种暴力方法不再可能了。

　　第二阶段则是人教机器怎么做，把人的方法套在机器身上，比如写电饭锅控制程序，就是把人懂的规则通过代码或数据指引机器该怎么做，这是传统的机器学习，但也存在一个明显的问题——当人类自己都不知道该怎么做的时候，机器就无法仿照了，比如我们日常的人脸识别，即便到2006年之前都很难应对这种说不清道不明的事情，因此当人类自己没有办法的时候，机器也就同样没有办法。

　　王小川说，2006年之后《深度学习》论文的出现，促使机器学习开始仿照人，代价是需要更多数据。比如谷歌把KGS（注：开放供人下围棋的游戏服务器）上人类棋手六段以上对弈的30万盘棋——大概有接近三千万棋局和答案，让AlphaGo去学习，之后它不仅学会了这30万盘棋，还在这个过程中产生了对类似问题的分析能力，所以棋局变了之后，它也能够根据以前的经验去做判断，不是记住这30万盘棋，而是学会了其中的泛化能力，这就变成了人下棋的方法。数据表明，给它一个棋局，它落子的仿人能力达到了57%，这已是巨大的突破了。

　　但谷歌觉得并不够，于是进入了第三阶段，把AlphaGo“神经分裂”成两台机器，按照人下棋的方法做随机变换，像金庸小说里的老顽童左右互搏，自己和自己打，让输了的机器倒推为什么输，哪步棋没走好。这种做法既不给机器方法，也不告诉它答案，只告诉它最终目标是更接近还是更远了，这样促使其自己探索更优解。

　　由此可见，“阿法狗”与“深蓝”的差距之巨大，并不是计算能力不同这么简单。

　　“阿法狗”难变“终结者”

　　王小川表示，虽然“阿法狗”的能力非常卓越，但它仍然只是在一个局限的环境里下棋的一个机器，一旦稍有变化它就“傻了”。

　　“我们觉得机器在赢这件事情，在AlphaGo上是非常局限的，它的赢有两个条件:第一，它只管下棋，赢棋是其唯一目标；第二，它所处的状态环境只是在19×19的棋盘上，只是在一个封闭的环境中，这跟外界是没有关系的，所以它学习的数据是非常的少。所以如果我们今天下棋把棋盘从19×19变成20×20，机器就傻了，因为它的环境发生变化了，而如果是人下棋，变换棋盘其实对水平影响不大。”

　　“第二点，人还有种能力是把学到的经验转移到其他事情上去，我们知道围棋选手思维会很缜密，下棋能教会他做一种利益交换，不是只管把别人打掉，他会想到底走先手还是走后手，局势里面互相之间能够得到一种平衡，而人的思考会把这种经验转移到其他领域里面去，而今天的机器还远做不到，所以虽然你叫它有意识有智能，但它只是在一个局限的环境里下棋的一个机器。”

　　“能赢棋”与“能繁衍” 只是能力不同

　　基于“阿法狗”这样具备自我学习能力的人工智能，王小川认为机器已进入全新的层次——追求最终目的而不是具体的过程。从某种程度上来说，这时的机器已经有一点点意识了。

　　王小川说，“从这个延伸下去我们再想另外一个问题，如果机器的目的不是赢棋或者输棋，它的目的是这个机器能够存活下去，甚至能够产生自己的繁衍，把这个当成目标，同时机器不只停留在19×19的棋盘上，而是变成要生存在地球，或者一个实验室里面，我觉得它们就在创造生命了。”

　　“所以从AlphaGo里面我们看到的不只是下棋的一个机器，不只是看到一个智能这个词，而是看到怎么在推动一种进化，而这种进化有目标，我一旦设立了目标设立了环境，如果我有合适的算法，我最后在这个环境或者目标下培养出来了一种能生存的能力，谷歌的AlphaGo是赢棋的能力，但如果它是生存的能力，它就变成一种我们认为的生命，生命其实就是生存和繁衍，所以在AlphaGo的道路里面我们在国内只关心机器打败人，但是确实在技术里面它们做得更远。”