对传统调查而言,受样本选择和追踪损耗所限,对数量庞大的同一群体进行覆盖广泛且持续不断地观察,是一项难度极高的任务。然而,大数据与社会调查相结合的研究设计,为我们迅速准确地掌握研究对象在空间和时间变化上的特征提供了一种新思路。早在2015年,美国学者就曾利用电话通信数据和调查数据,研究了非洲卢旺达的财富分布状况(Blumenstock et al.,2015),之后类似的研究设计屡见不鲜。本期给大家推荐的是近期发表于《Nature Communications》的《Using publicly available satellite imagery and deep learning to understand economic well-being in Africa》。在研究设计上,该文不再聚焦于电话数据,而是为我们展现了信息量更加丰富的多光谱卫星图像的研究效用,并通过为非洲人口最多的国家创建财富地图来展现其可扩展性。
01
研究背景
一方面,政府、非盈利组织和企业一直有了解真实有效的地方财富状况的需求。但是,与此相关的关键经济数据实际上在很多国家仍较匮乏,尤其缺少对经济劣势群体的概览。在非洲地区,这一问题更为突出。此外,受高昂的调查费用所限,大多数非洲国家现存的全国性调查很少对个别区域进行重复观察,这使得人们很难衡量当地财富状况的时间变化,且这些数据也很少被公开。
一方面,政府、非盈利组织和企业一直有了解真实有效的地方财富状况的需求。但是,与此相关的关键经济数据实际上在很多国家仍较匮乏,尤其缺少对经济劣势群体的概览。在非洲地区,这一问题更为突出。此外,受高昂的调查费用所限,大多数非洲国家现存的全国性调查很少对个别区域进行重复观察,这使得人们很难衡量当地财富状况的时间变化,且这些数据也很少被公开。
另一方面,虽然大多数非洲家庭从未在消费或财富调查中被观测到,但他们的位置平均至少每周出现在来自多个卫星传感器的无云图像中,并可在未来十年间每年都被观察到。基于这一新契机,该研究试图将多光谱卫星图像作为输入,建立机器学习模型,并探索该模型在衡量非洲地方财富状况的空间差异和时间变化上的有效性,进而推广应用到推断撒哈拉沙漠以南的非洲地区。
02
研究设计
作者收集了非洲23个国家19,669个村庄中超过50万家庭的资产财富数据。数据均来自2009-2016年间各国内部进行的具有全国代表性的“人口与健康调查”(DHS)。根据被调查者对问卷中有关特定家庭资产所有权的回答,研究者首先计算出了每个家庭的财富指数。为使指数在空间和时间上相一致,研究者随后进行了主成分估计。最后,研究者通过聚类将家庭值平均至计数区域级别,以达到公共调查数据中地理坐标可用的层级(假设所有国家的资产对财富的贡献都相似)。
作者收集了非洲23个国家19,669个村庄中超过50万家庭的资产财富数据。数据均来自2009-2016年间各国内部进行的具有全国代表性的“人口与健康调查”(DHS)。根据被调查者对问卷中有关特定家庭资产所有权的回答,研究者首先计算出了每个家庭的财富指数。为使指数在空间和时间上相一致,研究者随后进行了主成分估计。最后,研究者通过聚类将家庭值平均至计数区域级别,以达到公共调查数据中地理坐标可用的层级(假设所有国家的资产对财富的贡献都相似)。
在完成以上工作后,作者再运用机器学习的方法训练了一个卷积神经网络(CNN)。该模型使用的输入数据是来自30米/像素的陆地卫星多光谱白天图像和< 1公里/像素的夜间灯光图像。上述图像信息均从谷歌地球引擎的陆地卫星档案中获取。与早期使用夜间光强度作为中间标签在白天图像上训练模型而提取特征的方法不同,研究者将两组图像合并到一个学习模型中,使模型进行端到端训练。研究让模型先分别在白天和夜间图像上训练,然后将两组图像一同加入到最终的完全模型中。该模型的目标是学习白天和夜间图像中预测资产财富的特征,但不需要预先描述模型应该寻找什么特征(即“无监督学习”)。
研究发现,机器学习模型的确可以预测集群级别的财富状况,预测结果平均解释了基于地面的财富测量在单个有调查的国家中70%的空间差异,其表现从未低于所解释的50%的差异,并且经常超过80%。为提高预测能力,模型还学习了一些与财富直观相关的其他特征,包括城乡差别、水体和沙漠分布等。改进后的模型预测性能得到了进一步提升,平均解释了基于地面的财富测量在单个有调查的(且未用于训练模型的)国家财富差异的70%。
在获取空间差异后,另一个要面临的重要问题就是如何衡量地方一级经济的时间变化。大多数社会调查难以重复测量同一地点的长期结果。即使有相关测量,几年跨度内的时间变化相对于横截面差异来说仍然偏小,且每年调查中的任何随机噪声都会减弱这些变化的信号。为此,作者提出以下解决方案:1)使用多轮重复的DHS调查,并将任一调查年中的聚类与前一调查年中最近的聚类进行空间匹配,计算出财富随匹配的成对集群之间的财富指数差异的变化;2)使用一个独立的较小家庭层面的面板数据,即生活水平测量调查(LSMS),来构建资产财富指数的集群层面的变化;3)使用相同的LSMS数据构建了一个基于主成分分析的资产所有权变化指数,以更好地捕捉财富中实际变化的部分。针对方案3,研究发现,模型需要多光谱白天图像输入才能表现良好。在模型学习有关城市化和农业模式的相关特征后,当基于地面和卫星的估计值汇总到地区级别时,模型性能再次得到显著改善,资产财富变化的预测解释了高达50%的基于地面测量的财富时间变化。
在评估模型整体性能时,该研究发现在村庄内财富差异较大的环境中,模型预测能力稍差。这是由于现有模型难以在局部异构环境中做出准确预测,或因局部变化较大时,基于调查样本的估计本身更有可能是有噪声的。此外,调查数据中的其他噪声源(例如,由于调查回忆偏差、采样变化或地理不准确)也存有重要影响。为探究这些误差带来的负面效应,研究者首先将基于卫星图像而来的机器学习模型和基于调查的数据,与从8个国家的人口普查数据中得出的资产财富独立衡量标准进行地区比较。其次,因调查实施者为保护隐私而在村级地理坐标上添加了随机噪声,致使研究输入的图像与被调查村庄的真实位置之间有地理错位。因此,研究者查阅了卫星图像数据所提供的全球定位系统位置的6.72 × 6.72公里邻域中的所有像素(假设村庄的真实位置在该邻域中)。
最后,研究者从应用层面对上述探索进行了延伸。一方面,研究者证明了基于多光谱图像的估算对下游研究或政策任务的适用性。譬如,多光谱图像数据和调查数据对温度-财富关系的估计值之间存在密切匹配的关系,以及结合日间多光谱图像和夜间灯光图像的深度学习模型可以有效确定社会保障性质的经济计划的目标。另一方面,研究者展现了机器学习模型对国家内部财富差异的预测能力,构建了一个7.65公里/像素的网格财富图,展现出了非洲人口最多的国家尼日利亚2012-2014年的财富状况(图1a),不仅与其他方法建立的模型进行了对比(图1b-g),还将像素聚集到更高的行政单位,显示出全国财富的地域差异(图1h)。
图1 尼日利亚的财富地域差异
03
小结与讨论
本期所介绍的这项研究将卫星图像数据和调查数据相结合,利用机器学习方法来估算非洲地区的家庭财富分布。结果显示,研究所建立的模型不仅具有较好的预测能力,还在应用层面具有较大的扩展性。
本期所介绍的这项研究将卫星图像数据和调查数据相结合,利用机器学习方法来估算非洲地区的家庭财富分布。结果显示,研究所建立的模型不仅具有较好的预测能力,还在应用层面具有较大的扩展性。
不难看出,大数据的应用使该研究不再受限于某年或某地调查数据的缺失,研究者可清晰了解到研究对象的空间和时间变化特征。相对于传统调查数据来说,电话、卫星等留下的数字痕迹具有不可比拟的优势。它们既能捕捉到远超某个特殊调查范围的更广泛的、更准确的实时信息,还能对同一群体进行大量地重复性观察。此外,通过结合机器学习,研究者可以对调查未抽取到的人群进行深入研究。这不仅提高研究了效率,还能节约大量社会资源,给社会政策的及时更新和落地提供了机遇。
在使用基于“大数据+调查数据”的机器学习法时,以下两个问题也值得我们的重视。第一,在收集和使用大数据的过程中,研究者需要用更加审慎的目光去处理可获取的痕迹数据与研究对象个人隐私之间的关系。第二,大数据虽然“大”,但未必“厚”,要想做有“深度”的研究,就需考虑依靠调查数据去填补社会背景信息,发挥小数据“四两拨千斤”的作用。但需要注意的是,我们既要谨慎考察调查数据的质量,如代表性和真实性,又要选择其中合适的关键数据加入模型,这样才能确保模型预测性能的高度。
Blumenstock J., Cadamuro G., On R. 2015. “Predicting poverty and wealth from mobile phone metadata.” Science 350(6264):1073.
作者 | 任奕飞(浙江大学社会学系硕士研究生)
校对 | 范晓光(浙江大学社会学系副教授);闫堃(浙江大学社会学系博士研究生)
编辑 | 周航 谭欢
原文始发于微信公众号(定量群学):小数大用:以“非洲财富状况”研究为例