其实跑机器学习算法跟跑统计有一点点类似的地方,都必须遵从:找问题、试错、更复杂的问题与方法下手。

而初学机器学习的分析师们一定会有的问题是:要用什么算法。并不是全部的机器学习都会利用「穷举」、「蒙地卡罗」这种方式,不懂的人看看有什么算法,懂的人就看看先人是怎么建议的吧!

如果你是一个初学/中等程度的数据科学家/分析师,并且想要将机器学习的算法运用到解决你关心的问题的上,那么这篇文章正是为你写的!

初学者面对各种机器学习算法,一个典型的问题是:我应该使用哪种算法?问题的答案取决于许多因素,包括:

数据的大小,质量和性质
可接受的计算时间
任务的紧迫性
你想用数据做什么

即使是经验丰富的数据科学家也无法在尝试不同的算法之前,就断定哪种算法会是最好的。在此我们并非倡导一蹴而就的方法,但是我们希望根据一些明确的因素,提供一些关于优先尝试哪些算法的指导。

机器学习算法小抄表

这张机器学习算法小抄表帮助你从各种机器学习算法中完成选择,以找到适合你的具体问题的算法。本文将详细介绍如何使用这份小抄表。

由于该小抄表是专为入门级数据科学家和分析师设计的,所以在讨论算法时,我们将作出一些简化的假设。

这里推荐的算法来自于一些数据科学家、机器学习专家和开发人员的编译反馈和经验指导。有几个问题我们还没有达成统一——对于这些问题,我们试图突出共同点并调和差异。随着我们的库不断增长以包含一套更完整的方法,其他算法也会被陆续添加进来。

如何使用小抄表
将图表上的路径和算法标签解读为「如果需要< 路径标签> 则使用< 算法>」。例如:

§ 如果需要< 约减维度>,则使用< 主成分分析>。

§ 如果需要< 快速的数字预测>,则使用< 决策树> 或< 逻辑回归>。

§ 如果需要< 分层结果>,则使用< 层次聚类>。

有时候会有多个分支适用,而有时候一个也没有。重要的是,你要记住,这些路径旨在作为经验法则建议,因此有些建议并不准确。与我共同讨论的几位数据科学家说,找到最好算法的唯一方法就是尝试所有的算法。



相关文章