最近,一篇题为“利用深度学习和谷歌街视角来评估美国人口构成的论文”,由arxiv.org发表的论文,作为本文的合著者之一,李飞在她的推特上向公众推荐这篇文章。本文主要讨论了如何将车辆采集数据与机器学习算法相结合,从而估计该地区人口的特征和构成,甚至是该地区居民的政治倾向。

数千年来,统治者和政策制定者进行了全国性的调查,收集人口数据。在美国,最详细的人口普查工作是“美国社区调整”,由美国人口普查局执行,每年耗资10亿美元,超过6500人。这是一个劳动密集型的数据收集过程。

近年来,计算方法的兴起已成为社会科学问题的有效解决方法。例如,利用Twitter上的数据来预测失业率,在书中使用大量的文本分析文化等等。这些例子表明,计算方法可以促进社会和经济领域的研究和发展,最后,人口趋势可以被详细地和实时地分析,而且成本非常低廉。

我们的研究表明,结合公共数据和机器学习方法,可以获得社会经济数据和美国政治倾向。在我们的过程中,我们在几个城市使用少量的人力来收集数据,然后用它来预测美国的情况。

具体来说,我们分析了在200个城市的谷歌街景车收集的5000万张图片。我们的数据主要是关于汽车的,因为90%的美国家庭拥有至少一辆汽车,而人们选择的汽车受到各种人口因素的影响,包括家庭需求、偏好和资本等。

在深度学习一种实现在线机器学习技术的基础上,CNN的计算机视觉框架不仅能识别复杂街道场景中的汽车,还能识别各种车辆特征,包括材料、模型和年份。对于一个没有受过训练的人来说,汽车之间的区别很难察觉。例如,相同型号的汽车,不同年份的尾灯都有很小的变化(比如2007年的本田雅阁和2008年的本田雅阁)。然而,我们的系统可以将汽车分为2657个类,每个图像只分析0.2秒。该系统可以在两周内对5000万张照片进行分类,而一个专业的人类分类器,假设他需要10秒的时间,则需要15年才能完成任务。

使用谷歌街景车收集5000万张图片,我们使用可变形的部件模型自动收集自动图像。在收集了每辆车的照片后,我们部署了CNN模型,用来对物体进行分类,以确定每辆车的材料、型号、型号和年份。然后根据城镇的名称对数据库进行分类,并将其划分为两个数据库。第一个是“培训图书馆”,它包含了所有以A、B和C开头的名字,其中包括35个城市和培训模式;第二个是“测试库”,其中包括以D和Z开头的所有名称,用于改进模型。

我们收集了2200万辆汽车(占美国汽车总数的8%)的数据,以便准确估计该地区的收入、种族、教育和投票模式。结果显示出惊人的简单和强大的关系。例如,如果15分钟车程的汽车数量高于城市的卡车数量,那么在下一次大选中,该市倾向于投票给民主党(88%)。相反,他们倾向于投票给共和党(82%)。结果表明,自动系统监测具有良好的空间分辨率,能够实时监测人口动态,有效地支持劳动密集型的调查方法。



相关文章