周旅军计算社会科学的人工智能工具箱

2021年费孝通群学论坛·社计未来师资培训班

关于课程

讲座伊始，周老师概述性地将讲座的内容划分为“人工智能作为研究方法”和“人工智能作为研究对象”两大部分。

首先，周老师向我们介绍了基于人工智能开放平台的自然语言处理、图像理解。他从社会科学研究过程——科学环出发，揭示了人工智能在社会科学研究中的角色，即在概念操作化测量环节和数据生成后的预测过程中发挥作用。“人工智能是一组赋予计算机感知、学习、推理及协助决策的能力，使计算机能够以与人类相似的方式来解决问题的技术”，有多少人工，才有多少智能。人工智能其实早在四五十年代就诞生了，之所以直到现在才出现快速发展，是因为在人工智能发挥作用的三要素（数据/知识、算法、算力）中，数据在最近得到了蓬勃的发展，为深度学习提供了丰富的原材料。

一般而言，我们所说的人工智能其实指的是深度学习过程。机器学习以特征工程、模型构建为特点，需要专业的领域知识作为支柱，具有复杂的特征提取过程。而深度学习则以神经网络作为建模手段，不需要寻找特征，只需找到数据并输入即可。接着，周老师以评估城市品质和评估城市生活品质为例，介绍了如何通过深度学习分析城市街景图片、人脸表情图像。在这个过程中，周老师向学员们解释了端对端的概念，破除了人工智能只能将非结构化数据结构化的误区。在工具上，周老师以百度API（Application Programming Interface，应用程序接口）为例，使用完整的源代码向学员们演示了人脸识别、体态识别、言语分析、对话情绪分析等等功能，操作简便易行。

使用开放平台的API是调用已有的测量功能，但存在与研究目标不匹配的可能。我们是否可以自己生成测量规则呢？答案是肯定的。比如使用百度EasyDL，我们可以先自行对手中的图片、语料等数据材料进行分类和加标签后，再通过深度学习生成测量规则，从而实现零算法基础定制高精度人工智能模型的目标。

最后，周老师以人工智能本身作为研究对象，进行了算法公平的探讨，介绍了相关的理论概念和技术措施。在很多人工智能算法中，基于性别进行交叉分析就会发现，原本准确率很高的算法在群体之间的准确率存在巨大的差异，背后很可能存在系统性的偏见和歧视。即使是自认不会歧视他人、没有任何偏见的人也可能存在认知偏误。在种类众多的算法偏差中，周老师以历史偏差为例展开详细介绍，比如由于美国司法历史数据中存在的种族歧视后果，警局使用的人工智能算法会将黑人街区视为有更大犯罪可能性的范围，从而分配更多的警力，造成更多的黑人被捕，加剧历史造成的不平等，同时，过于集中的警力监督会导致其它街区的安全问题得不到充分的资源解决。此外，公平其实也具有众多不同且相互矛盾的定义，比如规避性公平和基于受保护变量的公平。

算法公平问题在社会科学领域从技术问题转化为社会问题。周老师指出，算法公平问题的本质其实就是社会问题。在解决算法公平问题的工具方面，周老师向我们介绍了谷歌的开源工具What－if，用可视化的方法比较各种公平指标，而微软的Fair－learn则可以选择具体的公平性指标和缓解不平等程度的算法，可以在精度不变的前提下对不同群体进行差异检测，评估和纠正人工智能系统的偏差。

讲座结束后，线上和线下的学员分别提出了各种专业且有趣的问题，周老师进行了详细解答，师生间进行热烈讨论。至此，本次讲座取得圆满成功。