有些人可能对工智能不是很了解, 对它的概念及所能给我们带来的益处到底是什么,人工智能是人类当前在发展或在未来的发展上都是不可或缺的重要因素。我们必须掌握它。不幸的是,对于机器学习我们都有一些误解。事实上,机器学习并不是万能的。万事达卡& Machine Box联合创始人兼首席执行官亚伦•埃德尔(Aaron Edell)写了一篇文章:机器学习是什么,通过机器学习传递给公众必须与正确的预期相结合,才能成功。

人工智能最大的挑战是对它期望过高。把机器学习与正确的期望结合起来,会比误解人工智能能为你做什么带来更好的结果。

我热爱机器学习,在我的工作中使用了三年多的时间,我看到它为许多不同领域的企业节省了时间和金钱。但是,如果最终结果与你最初预想的相反,那么事情可能会很快发生变化。

首先,我们需要了解机器学习并不会因为一个原因而预测股票市场。因为最先进的技术是有限的,不是因为没有足够的机器学习教程,而是人们必须拓宽视野,给出正确的指令。

让我们来看一些例子。

人脸检测

最先进的人脸检测技术是99%正确。人脸检测是机器学习的一个非常先进的例子,但有几件事情需要了解。首先,99%的数据来自于验证集,如果有一个机器学习算法提到了准确性,你应该记住这个数字来自于训练过程中的步骤,20%的训练数据将被分离出来以验证模型。这些数据通常是随机选择的,但它总是与其他训练数据相似。一旦你将训练模型应用到现实世界中,它就会接收到与训练模型完全不同的图像。因此,在实际操作中,数据集的精度可能小于99%。

有时一个模型可能会识别出某样东西,但它不是(假正类),或者完全忽略了一个面孔(假负类)。许多模型可以组合在不同的精度和性能水平上。你必须知道的性能和精确度是可以接受的。如果你想检测成千上万的面孔,得到10 ~ 50个等级的假阴性或阳性(阳性),比花费时间和成本做一个更精确的算法要好十倍,但只有一半的假阳性。一个人可以快速纠正一个错误的消极或积极的类的一小部分。

因此,作为一个企业,当你遇到这个问题时,你需要弄清楚你在数据中有多少个错误的正负类,以及如何处理它们。事实是,你确实有这些问题,因为有时候机器学习只是没有检测到人脸,我们也不知道为什么。我们已经习惯了人类大脑的认知模式,以至于我们忘记了电脑是用完全不同的方式执行的。

光学字符识别(OCR)

OCR 在文档识别上做得非常好。像边缘检测和计算机视觉这样的技术已经很成熟,利用这些技术可以很好地识别扫描文档中的文字。

OCR 纠结的地方在于,有些图像依然无法被识别成文字,这也是人类利用自身的 reCAPTCHA 技术作为识别文字方法的原因。人类的这种识别技术非常精密,无论字母出现在哪儿,无论这些字母是多么模糊、多么七扭八歪、色彩多么斑斓,人类都能轻松辨识。而计算机技术还在努力赶超。

这并不是说 OCR 是不可能的事儿,事实上,它有很多很好的用例,但设定正确的预期十分重要。让我们以足球比赛举例。

如果我用 OCR 来抓取这个冻结帧,我可能会得到以下数据:

[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN

如果没有上下文,您不知道什么是得分、球衣号码、标志、时间或团队名称(如果它捕获了所有这些信息)。在处理视频的过程中,由于大量的假阳性和阴性类,会出现越来越多的混乱。

在这个时候,不要将通用OCR应用到各种各样的问题上,但是要考虑使用哪一个,并把重点放在用例上。如果是跟踪玩家,那么目标跟踪系统可能更合适;如果是跟踪时间或分数,让模型固定在一个区域。



相关文章