来源:专知
本文共4354字,建议阅读8分钟。
本文用浅近易懂的措辞精准概括了机器学习的干系知识,内容全面,总结到位,十分详尽。适宜小白快速理解机器学习。

[ 导读 ]本文用浅近易懂的措辞精准概括了机器学习的干系知识,内容全面,总结到位,阐发了机器学习的what,who,when, where, how,以及why等干系问题。从机器学习的观点,到机器学习的发展史,再到机器学习的各种算法,末了到机器学习的最新运用,十分详尽。适宜小白快速理解机器学习。
你是否利用像Siri或Alexa这样的个人助理客户端?你是否依赖垃圾邮件过滤器来保持电子邮件收件箱的干净?你是否订阅了Netflix,并依赖它惊人的准确推举来创造新的电影可看?如果你对这些问题说“是”,恭喜你!
你已经很好地利用了机器学习!
虽然这听起来很繁芜,须要大量的技能背景,但机器学习实际上是一个相称大略的观点。为了更好地理解它,让我们研究一下关于机器学习的what,who,when, where, how,以及why。
什么是机器学习?
One day ladies will take their computers for walks in the park and tell each other, “My little computer said such a funny thing this morning”.
—Alan Turing
机器学习的核心是“利用算法解析数据,从中学习,然后对天下上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来实行某些任务,不如教打算机如何开拓一个算法来完成任务。有三种紧张类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺陷。
监督学习涉及一组标记数据。打算机可以利用特定的模式来识别每种标记类型的新样本。监督学习的两种紧张类型是分类和回归。在分类中,机器被演习成将一个组划分为特定的类。分类的一个大略例子是电子邮件帐户上的垃圾邮件过滤器。过滤器剖析你以前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较。如果它们匹配一定的百分比,这些新邮件将被标记为垃圾邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。
第二种监督学习是回归。在回归中,机器利用先前的(标记的)数据来预测未来。景象运用是回归的好例子。利用气候事宜的历史数据(即均匀气温、湿度和降水量),你的手机景象运用程序可以查看当前景象,并在未来的韶光内对景象进行预测。
在无监督学习中,数据是无标签的。由于大多数真实天下的数据都没有标签,这些算法特殊有用。无监督学习分为聚类和降维。聚类用于根据属性和行为工具进行分组。这与分类不同,由于这些组不是你供应的。聚类的一个例子是将一个组划分身分歧的子组(例如,基于年事和婚姻状况),然后运用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化利用降维来识别趋势和规则。
末了,强化学习利用机器的个人历史和履历来做出决定。强化学习的经典运用是玩游戏。与监督和非监督学习不同,强化学习不涉及供应“精确的”答案或输出。相反,它只关注性能。这反响了人类是如何根据积极和悲观的结果学习的。很快就学会了不要重复这一动作。同样的道理,一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后,国际象棋的这一基本教训就可以被扩展和推断出来,直到机器能够打(并终极击败)人类顶级玩家为止。
但是,等等,你可能会说。我们是在说人工智能吗?机器学习是人工智能的一个分支。人工智能致力于创造出比人类更能完成繁芜任务的机器。这些任务常日涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然这听起来很大略,但这些技能的范围非常大——措辞处理、图像识别、方案等等。
机器学习利用特定的算法和编程方法来实现人工智能。没有机器学习,我们前面提到的国际象棋程序将须要数百万行代码,包括所有的边缘情形,并包含来自对手的所有可能的移动。有了机器学习,我们可以将代码量缩小到以前的一小部分。很棒对吧?
有一个缺失落的部分:深度学习和神经网络。我们稍后会更详细地谈论它们,请把稳,深度学习是机器学习的一个子集,专注于模拟人类大脑的生物学和过程。
谁发展了机器学习?何时何地?
A breakthrough in machine learning would be worth ten Microsofts.—Bill Gates
在我看来,机器学习最早的发展是Thomas Bayes 在1783年揭橥的同名理论,贝斯定理发现了给定有关类似事宜的历史数据的事宜的可能性。这是机器学习的贝叶斯分支的根本,它寻求根据以前的信息探求最可能发生的事宜。换句话说,Bayes定理只是一个从履历中学习的数学方法,是机器学习的基本思想。
几个世纪后,1950年,打算机科学家 Alan Turing发明了所谓的图灵测试,打算机必须通过笔墨对话一个人,让人以为她在和另一个人说话。图灵认为,只有通过这个测试,机器才能被认为是“智能的”。1952年,Arthur Samuel创建了第一个真正的机器学习程序——一个大略的棋盘游戏,打算机能够从以前的游戏中学习策略,并提高未来的性能。接着是Donald Michie 在1963年推出的强化学习的tic-tac-toe程序。在接下来的几十年里,机器学习的进步遵照了同样的模式--一项技能打破导致了更新的、更繁芜的打算机,常日是通过与专业的人类玩家玩计策游戏来测试的。
它在1997年达到顶峰,当时IBM国际象棋电脑深蓝(Deep Blue)在一场国际象棋比赛中击败了天下冠军加里·卡斯帕罗夫(Garry Kasparov)。最近,谷歌开拓了专注于古代中国棋类游戏围棋(Go)的AlphaGo,该游戏被普遍认为是天下上最难的游戏。只管围棋被认为过于繁芜,以至于一台电脑无法节制,但在2016年,AlphaGo终于得到了胜利,在一场五局比赛中击败了Lee Sedol。
机器学习最大的打破是2006年的深度学习。深度学习是一类机器学习,目的是模拟人脑的思维过程,常常用于图像和语音识别。深度学习的涌现导致了我们本日利用的(可能是天经地义的)许多技能。你有没有把一张照片上传到你的Facebook账户,只是为了暗示给照片中的人贴上标签?Facebook正在利用神经网络来识别照片中的面孔。或者Siri呢?当你问你的iPhone关于本日的棒球成绩时,你的话语会用一种繁芜的语音解析算法进行剖析。如果没有深度学习,这统统都是不可能的。
要得到更全面的机器学习韶光表,请务必查看这篇由Google云团队撰写的伟大文章!
(https://cloud.withgoogle.com/build/data-analytics/explore-history-machine-learning/)
机器学习是如何事情的?
把稳所有对数学恐怖的读者:我很遗憾地见告你,要完备理解大多数机器学习算法,就须要对一些关键的数学观点有一个基本的理解。但不症结怕!
所需的观点很大略,并且借鉴了你可能已经上过的课程。机器学习利用线性代数、微积分、概率和统计。
Top 3线性代数观点:
1.矩阵运算;
2.特色值/特色向量;
3.向量空间和范数
Top 3微积分观点:
1.偏导数;
2.向量-值函数;
3.方向梯度
Top 3统计观点:
1.Bayes定理;
2.组合学;
3.抽样方法
对付特定的数学资源,我强烈推举这篇来自MetaDesignIdeas的文章。
(https://medium.com/meta-design-ideas/math-stats-and-nlp-for-machine-learning-as-fast-as-possible-915ef47ced5f)
一旦你对数学有了基本的理解,就该开始思考全体机器学习过程了。有五个紧张步骤:
上面的图表以比较清楚的办法阐明了步骤,以是在我们关注最关键的部分:为数据和情形选择精确的算法之前,花一分钟的韶光来研究它。
We don’t have better algorithms, we just have more data.—Peter Norvig
让我们回顾一下算法的一些常见分组:
1. 回归算法
这可能是最盛行的机器学习算法,线性回归算法是基于连续变量预测特定结果的监督学习算法。另一方面,Logistic回归专门用来预测离散值。这两种(以及所有其他回归算法)都以它们的速率而有名,它们一贯是最快速的机器学习算法之一。
2. 基于实例的算法
基于实例的剖析利用供应数据的特定实例来预测结果。最著名的基于实例的算法是k-最近邻算法,也称为KNN。KNN用于分类,比较数据点的间隔,并将每个点分配给它最靠近的组。
3. 决策树算法
决策树算法将一组“弱”学习器凑集在一起,形成一种强算法,这些学习器组织在树状构造中,相互分支。一种盛行的决策树算法是随机森林算法。在该算法中,弱学习器是随机选择的,这每每可以得到一个强预测器。不才面的例子中,我们可以创造许多共同的特色(就像眼睛是蓝的或者不是蓝色的),它们都不敷以单独识别动物。然而,当我们把所有这些不雅观察结合在一起时,我们就能形成一个更完全的画面,并做出更准确的预测。
4. 贝叶斯算法
丝毫不奇怪,这些算法都是基于Bayes理论的,最盛行的算法是朴素Bayes,它常常用于文本分析。例如,大多数垃圾邮件过滤器利用贝叶斯算法,它们利用用户输入的类标记数据来比较新数据并对其进行适当分类。
5. 聚类算法
聚类算法的重点是创造元素之间的共性并对它们进行相应的分组,常用的聚类算法是k-means聚类算法。在k-means中,剖析职员选择簇数(以变量k表示),并根据物理间隔将元素分组为适当的聚类。
6. 深度学习和神经网络算法
人工神经网络算法基于生物神经网络的构造,深度学习采取神经网络模型并对其进行更新。它们是大、且极其繁芜的神经网络,利用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经由几个隐蔽层后才产生一个或多个输出。这些连接形成一个特定的循环,模拟人脑处理信息和建立逻辑连接的办法。此外,随着算法的运行,隐蔽层每每变得更小、更细微。
7. 其他算法
下面的图表是我创造的最好的图表,它展示了紧张的机器学习算法、它们的分类以及它们之间的关系。
The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver
一旦你选择并运行了你的算法,还有一个非常主要的步骤:可视化和互换结果。虽然与算法编程的细节比较,这看起来既屈曲又肤浅,但是良好的可视化是精良数据科学家和伟大科学家的关键隔膜。如果没有人能够理解,那么惊人的洞察力又有什么用呢?
为什么机器学习很主要?
Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years.— Andrew Ng
现在该当清楚的是,机器学习有巨大的潜力来改变和改进天下。通过像谷歌大脑和斯坦福机器学习小组这样的研究团队,我们正朝着真正的人工智能迈进一大步。但是,确切地说,什么是机器学习能产生影响的下一个紧张领域?
物联网物联网(Internet of Things),或者说IOT,是指你家里和办公室里联网的物理设备。盛行的物联网设备是智能灯泡,其发卖额在过去几年里猛增。随着机器学习的进步,物联网设备比以往任何时候都更聪明、更繁芜。机器学习有两个紧张的与物联网干系的运用:使你的设备变得更好和网络你的数据。让设备变得更好是非常大略的:利用机器学习来个性化您的环境,比如,用面部识别软件来感知哪个是房间,并相应地调度温度和AC。网络数据更加大略,通过在你的家中保持网络连接的设备(如亚马逊反应)的通电和监听,像Amazon这样的公司网络关键的人口统计信息,将其通报给广告商,比如电视显示你正在不雅观看的节目、你什么时候醒来或睡觉、有多少人住在你家。
谈天机器人
在过去的几年里,我们看到了谈天机器人的激增,成熟的措辞处理算法每天都在改进它们。谈天机器人被公司用在他们自己的移动运用程序和第三方运用上,比如Slack,以供应比传统的(人类)代表更快、更高效的虚拟客户做事。
自动驾驶
我个人最喜好的下一个大型机器学习项目是最阔别广泛生产的项目之一。然而,目前有几家大型公司正在开拓无人驾驶汽车,如雪佛兰、Uber和Tsla。这些汽车利用了通过机器学习实现导航、掩护和安全程序的技能。一个例子是交通标志传感器,它利用监督学习算法来识别和解析交通标志,并将它们与一组标有标记的标准标志进行比较。这样,汽车就能看到停车标志,并认识到它实际上意味着停车,而不是转弯,单向或人行横道。
这便是我们进入机器学习天下的非常短暂的旅程。感谢不雅观看。
原文链接:
https://medium.com/@lizzie_turner/lets-talk-about-machine-learning-ddca914e9dd1
转载请注明THU数据派
运营职员:冉小山