机器学习中,更多的数据总是优于更好的算法吗?对于这个问题,网站Netflix工程总监Xavier Amatriain认为,大量的时间将更多的样本添加到训练集,不会提高模型的性能,如果没有合理的方法,数据就会变成噪音。通过Netflix的实际经验,得出最终结论:我们需要的是一个好的方法,帮助我们理解如何解释数据,模型,以及两者的局限性,这都是为了得到最好的输出。

在机器学习中,更多的数据总是优于更好的算法吗?那不是真的。有时更多的数据是有用的,有时它不太好用。捍卫数据的力量,也许最著名的是,谷歌的研发总监彼得·诺维格声称“我们没有更好的机器学习算法”。我们有更多的数据。这句话通常是链接到文章“数据的不合理的有效性”,这篇文章也是Norvig自己写的(虽然它的源代码被放置在IEEE收费区,但是你应该能够在因特网上找到PDF格式的原始文件)。更好的模型是Norvig语录的最后结论“所有模型都是错误的,不管你怎么不需要它们”,当被错误引用时(点击这里查看作者以澄清他的引用)。

所以,在封闭的情况下,你可能会认为机器学习算法更重要。嗯…没有那么快。事实上,Norvig的断言和Banko和布里尔的论文是正确的……在一个环境。然而,在一些与原始环境完全不同的环境中,它们现在被错误地引用了。但是要理解其中的原因,我们需要了解一些技巧。我不会在这篇文章中给你一个完整的机器学习教程。“我如何学习机器学习?”方差还是偏见?

基本的想法是,模型的糟糕表现有两种可能的(几乎是相反的)原因。

在第一个例子中,我们使用的模型对于我们所拥有的数据来说过于复杂。这是一种高方差的情况,可能导致模型过度拟合。我们知道,当训练误差远低于测试误差时,我们面对的是一个高方差问题。可以通过减少特性的数量来解决高方差问题,是的,一种方法是增加数据点的数量。那么,Banko &Brill和Norvig断言该如何处理呢?是的,正确的:高方差。在这两种情况下,作者关注的是语言模型,每个词汇都有其特点。与训练样本相比,有些模型有很多特点。所以他们更容易适应。是的,在这种情况下,添加更多的样本会有很大帮助。



相关文章