会思考的电脑(2-2)

  • 作者:
  • 2020-06-17
  • 450人已阅读
會思考的電腦(2/2)

先教导电脑学会学习,它便能自行思考、做出预测。

(续前文)

完美配适

上述用于电影评等竞赛的机器学习系统,称为「监督式学习」,也可用在医疗诊断之类的工作上。例如,我们可从患者的病史中找出几千个白血球影像,并输入电脑,同时告诉电脑哪些影像是癌细胞、哪些不是。根据这些资讯,电脑程式学会利用特定细胞属性(也许是形状、大小、颜色等)来判断恶性细胞。这个过程由研究人员全程「监督」,他们会把每张影像到底有没有癌症告诉电脑。
监督式学习是最常见的机器学习,却非唯一一种。例如机器人学家也许不清楚二足机器人怎幺走路最好,但可以设计程式,让电脑自动以不同的走法进行实验。假设某种走法让机器人跌倒,程式就知道未来不要再那样走了。

这种方法叫做「加强学习」,基本上就是大家熟悉的尝试错误。在典型的情境中,不论是人类或机器,我们会遇到需要採取行动的状况,这时并非由别人告诉我们怎幺做,而是自行尝试,再根据结果加强好的行动、避免坏的行动。最后,我们和机器都学会了怎幺因应不同的状况。

看看网路搜寻引擎。Google创办人在1997年前后训练电脑辨识网页,不是在网路中费力搜索,而是要求程式在爬梳网路后,先产生一个初步的搜寻结果,再根据使用者的点选频率强化相关与不相关的网页。当使用者点选搜寻结果中的某个网页连结时,机器学习程式就知道这个网页是相关的;如果使用者略过搜寻结果中前方的某条连结,程式则假设那个网页不相关。把来自百万名使用者的反应整合起来之后,程式就知道未来怎幺调整对网页的评估。

过度问题

研究者经常使用加强学习来处理需要连续动作的工作,像是玩游戏。例如圈叉游戏:一开始,电脑可能是随机把X放在某个角落,这个选择很有利,比把X放在侧边更常获胜,于是这个做法就会被加强。研究者会延续这个过程,推论出接下来该採取怎样的行动才正确——对任何游戏来说都是如此,包括西洋棋、围棋,也能应用在高阶经济学,例如用来寻找纳许均衡。

但有时候,即使是加强学习也不容易执行,因为我们无法从行动中获得回馈,此时就必须转而求助「无监督学习」。具备资料,但缺乏该採取何种行动的讯息(不论是明示的,像监督式学习那样;或是暗示的,就像加强学习),要如何从资料中学习呢?想从中挖掘出意义,首先要根据相似性帮资料分类。这个步骤叫「聚类」,也就是蒐集未标示的资料,从中推论出隐藏架构的线索。透过聚类,我们对资料会有较清楚的了解,之后再考虑该採取什幺行动。有时单靠聚类就够了,例如整理图书馆,就只需要依照相似性分类书籍;其他时候,可能得进一步应用监督式学习,来处理聚类的资料。

讽刺的是,机器学习的操作者最容易落入的陷阱,竟然是以过强的运算能力处理单一问题。能否体认这个事实并妥善处理问题,正是专业与业余人士不同之处。

过强的运算能力怎幺会是问题?机器学习程式企图从资料里找出模式,如果运算得太积极,例如运用太複杂的模型来处理有限的资料样本,可能会误导自己,侦测出偶然存于样本中的伪模式,而无法反应真实的相关性。有关机器学习的数学理论研究,有很大一部份在处理这种资料「过度配适」的问题。我们想找出符合资料的真实相关性,但又不想做得太过头,反而得出一个无法信任的模式。

想了解过度配适如何发生,可以想像一下俄罗斯轮盘(为了单纯化,假设轮盘只有红黑两色)。有位玩家连续观察了10回合,总是红黑互轮,他想:「这轮盘一定有偏差,总是红、黑、红、黑。」于是他根据有限的资料在心里建立了一个模型。第11回合,他把100美元下注在红色,但就在此时,轮盘证明了它的随机性,连续两次停在黑色。玩家通盘皆输。

这位玩家所寻找的模式并不存在。以统计来讲,任何轮盘要连续红黑互轮达10回合,500次里只可能发生一次。然而,轮盘过去的结果无法影响未来,下一次的转盘总是有一半的机率落在红色。在机器学习领域有句老谚语:如果你拷问资料的时间够久,它总会招的。

为了避免这种结果,我们採用一种叫做「正则化」的技巧,让模型尽可能保持单纯。模型越複杂,越可能发生过度配适,而正则化可持续检验複杂度。

研究人员在验证程式时,一般也会避免使用训练阶段的资料(而非加工过的资料),来确保程式的性能真实无误。例如,Netflix大奖就不以参赛者下载的原始资料为评判标準,而是以Netflix人员才知道的新资料进行测试。

预测未来

在机器学习领域里工作,很难感到无聊,你永远不知道接下来可以应用在哪里。有了机器学习,纵使在某个领域里是生手(例如女装领域),也能单凭资料进行学习并预测,也因此大众对这个领域的兴趣急遽增加。今年在加州理工学院的春季班里,有15名主修不同科目的学生选修了我的机器学习课程。这是我第一次把上课资料贴上网路并现场转播,来自世界各地的数千人前来观看,而且还完成了作业。

但是,只有当问题拥有足够大量的资料时,机器学习才派得上用场。每当有人把机器学习计画拿给我看时,我都会先问一个简单的问题:你有什幺资料?机器学习无法自行产生讯息,如果没有足够的训练资料,或资料内没有适当的讯息,机器学习就无法发挥作用。

然而,资料正在急遽增加,也让机器学习的价值持续上升。这点你大可相信我,因为预测正是我的强项。(完)