会思考的电脑(1-2)

  • 作者:
  • 2020-06-17
  • 397人已阅读
會思考的電腦(1/2)

先教导电脑学会学习,它便能自行思考、做出预测。


重点提要

机器学习是资讯科学的一个分支,可从大量资料内取得讯息,并对未来做出预测。机器学习可用来辨识经济趋势、建立个人化的推荐系统,以及打造「会思考」的电脑。虽然机器学习越来越受欢迎,但必须先具备大量资料,才能处理问题。我们必须小心,避免机器推论出根本不存在的模式。

两年前,一家女装公司找上我,要我帮忙提升他们的时尚推荐能力。我对于这个领域所知甚微,任何神智正常的人都不会向我寻求意见——毕竟我是男性,还是个资讯科学家。但他们寻求的不是我个人的意见,而是我在机器学习方面的建议,我照办了。仅仅根据销售数字与顾客调查,我就可以把自己从未见过的服饰推荐给不曾谋面的女性。我的推荐胜过了专业造型师,再提醒你一次,我对女性时尚依旧所知甚微。

机器学习可让电脑从经验中学习,而且无所不在。它改善了网路搜寻的相关性、让血液检测更精确,并且提高了约会服务帮你找到伴侣的可能性。机器学习程式会读入一组现存的资料,从中归纳出模式,然后运用这些模式预测未来。过去10年来的进步已改变了这个领域,我们企图完成的工作,都是运用机器学习技术把电脑调校得比人类更「聪明」。IBM的电脑「华生」就是实例,它打败了益智节目「危险边缘」的人类冠军。

然而,机器学习最重要的挑战与参加益智节目的电脑无关。几年前,线上影片出租公司Netflix希望协助顾客寻找喜爱的影片,尤其是那些饱受冷落的旧片。这家公司已建立了影片推荐系统,但自知远远不足,于是举办一场竞赛来提升现有系统的性能。规则很简单,第一个打败既有系统、且让性能提高10%的参赛者,就能获得100万美元的奖金,吸引了全球数万人报名参加比赛。

对机器学习的研究者来说,这是一场梦寐以求的竞赛(不仅是奖金,虽然那实在很诱人),因为最关键的就是资料:Netflix提供了多达一亿笔的真实资料,随时都能下载。

展开训练

Netflix这场竞赛持续了三年,许多团队解决问题的方式是解析各个影片,将其分成一长串不同的属性。例如你可以根据不同的特质帮影片打分数,像是趣味度、複杂度,或是演员魅力。对某位观众进行推荐时,则回头分析他租过的影片,读取他对不同属性的评价,像是有多幺喜欢喜剧、偏好简单或複杂的情节,以及有多幺喜欢看那些迷人的电影明星(见下图)。

会思考的电脑(1/2)

接下来只要比对观众的偏好与电影的属性,就能做出预测。假设他热爱喜剧和複杂的情节,也许会喜欢纠结的闹剧,像是「热情如火」或「笨贼一箩筐」。我们一般想到的都是容易辨识的属性,像是「喜剧」或「複杂的情节」,但电脑却不必知道这些。事实上,整个过程完全自动,研究人员根本不必分析影片内容。机器学习程式会从不知名的随机属性开始,等程式取得观众过去对影片的评等后,再慢慢微调,直到属性可完全反映出观众对影片的评价。

举例来说,如果喜欢影片A的人也喜欢影片B、C与D,程式就会产生一个与A、B、C和D共同相关的新属性。这个过程发生在所谓的训练阶段,电脑会搜寻上百万名观众的评等,目标是根据实际评等产生一组客观的属性。

电脑学习程式所产生的属性有可能很难诠释,并不像「喜剧内容」这样直截了当,这些属性可能相当细微,甚至不可理解,因为程式的目标是找到最好的方法来预测观众怎幺评价某部电影,并不需要向我们解释是怎幺做的。

这不是我们熟悉的运作方式。在我刚开始工作时,曾经帮某银行建立信用核证系统,系统完成后,银行希望我解释每个属性代表的意义。这个要求和系统的表现无关,因为系统运作没有问题。银行要求的是合理性,银行不能不明不白否决某人的信用,只向对方解释:因为X<0.5。

不同的机器学习系统会各自发展出独一无二的属性。在Netflix竞赛的最后几星期,各个团队开始利用所谓的「聚合技术」把不同程式整合在一起。长达三年的竞赛进入最后一小时,有两组人马还在为首奖拚搏。计分板显示「和合队」(Ensemble)略胜于「贝尔可实用混沌队」(Bellkor’s Pragmatic Chaos),和合队里有一名队员是我在加州理工学院的博士毕业生。最后统计出来的得分,两队不分轩轾,性能都比原来的系统高出10.06%。根据比赛规则,若是平手,则由优先提交结果的队伍获胜。经过三年竞赛,到了最后一小时的冲刺,贝尔可队比和合队早20分钟提交,结果就是百万奖金的差别。(待续)