社计书香|李培林 《计算社会科学导论》前言

 

 

《计算社会科学导论》

主编: 吕鹏、范晓光

副主编:陈忱、计湘婷、李轩涯

出版社: 清华大学出版社

出版时间:2023年9月
页数: 276
装帧: 平装
ISBN: 9787302645801

 

内容简介

    本书精心选择了回归分析、机器学习、聚类分析、神经网络分析、自然语言处理、计算机视觉、社会网络分析、ABM等内容。通过飞桨平台提供多种开发工具和预模型,以及详细的帮助文档和课程,让广大师生快速有效地开展学习和研究。本书是一本开源的、不断更新的、“适文化”的教材,可作为人文社科类学生学习计算社会科学的入门教材,目的是让他们了解计算社会科学主要的研究议题、研究方法、源起和发展,从而开启他们的学习与探索之旅。本书也可以供计算社会科学相关专业学生和研究者来了解“社会科学家们到底在做什么?”,有助于计算社会科学相关专业学习人员提高人文素养。

目录

基础理论篇

第1章  绪论

   1.1  实证社会科学的困境

   1.2  计算社会科学简史

     1.2.1  两大传统

     1.2.2  未来挑战

   1.3  计算社会科学的基础问题

     1.3.1  概念界定

     1.3.2  学科边界

     1.3.3  研究范式

     1.3.4  研究方法

   1.4  如何使用本书?

   习题1

 

 第2章  Python语言入门

   2.1  Python语言简介

     2.1.1  简介

     2.1.2  历史

     2.1.3  Python与计算社会科学

   2.2  Python的安装

     2.2.1  在Windows上安装Python

     2.2.2  在macOS上安装Python

     2.2.3  Anaconda安装

     2.2.4  PyCharm安装

     2.2.5  AI Studio调用

   2.3  Python基础语法

     2.3.1  数据结构类型

     2.3.2  条件语句

     2.3.3  循环语句

     2.3.4  函数

     2.3.5  库(包)

     2.3.6  案例:政府工作报告热点分析

   2.4  搜集数据:网络爬虫简介

     2.4.1  什么是网络爬虫

     2.4.2  利用Python进行爬虫

   本章小结

   习题2

机器学习篇

第3章  回归分析

3.1  算法基础

     3.1.1  线性回归的基本原理

     3.1.2  线性回归模型的评估指标

     3.1.3  方差与偏差的权衡

     3.1.4  过拟合与欠拟合

   3.2  岭回归

     3.2.1  对岭回归的理解

     3.2.2  调参

     3.2.3  案例1:如何预测居民的幸福度

   3.3  拉索回归

     3.3.1  对拉索回归的理解

     3.3.2  贝叶斯角度理解岭回归与拉索回归

     3.3.3  案例2:如何预测住院群体的医疗支出

   3.4  弹力网

     3.4.1  对弹力网的理解

     3.4.2  案例3:如何预测小麦产量

   本章小结

   习题3

 

第4章  非参数监督学习

   4.1  K近邻法

   4.2  决策树

     4.2.1  决策树是什么?

     4.2.2  案例1:申请研究生的录取率预测

   4.3  集成学习

     4.3.1  袋装法

     4.3.2  随机森林

     4.3.3  提升法

     4.3.4  案例2:员工离职率预测

   本章小结

   习题4

 

 第5章  聚类分析

   5.1  计算社会科学也需要聚类分析

   5.2  聚类分析基础

     5.2.1  距离:如何测量两个人的相似程度?

     5.2.2  聚类结果的性能评估

     5.2.3  聚类结果的选择与解读

   5.3  原型聚类

     5.3.1  经典聚类算法:K-means

     5.3.2  其他原型聚类算法

     5.3.3  案例1:强基建与促发展:中国村庄发展的类型差异

   5.4  密度聚类与层次聚类

     5.4.1  密度聚类

     5.4.2  层次聚类

     5.4.3  案例2:关注与忽略——中国家庭教育的不同模式

   5.5  聚类分析展望

   本章小结

   习题5

文本与图像分析篇

第6章  神经网络

6.1  神经网络简史

   6.2  神经网络原理

     6.2.1  感知器(Perceptron)

     6.2.2  反向传播算法思想

   6.3  卷积神经网络

     6.3.1  感受野

     6.3.2  共享参数

     6.3.3  池化

     6.3.4  拉平和SoftMax

     6.3.5  应用场景

   6.4  案例分析

     6.4.1  案例1:单体汉字书法识别

     6.4.2  案例2:文本自动生成

   本章小结

   习题6

 

 第7章  自然语言处理

   7.1  自然语言处理基础

     7.1.1  “是什么”:自然语言的特点

     7.1.2  “做什么”:自然语言处理的任务

     7.1.3  “怎么做”:自然语言处理的演进

   7.2  词法分析: 分词、词性标注与命名实体识别

     7.2.1  中文分词

     7.2.2  词性标注

     7.2.3  命名实体识别

     7.2.4  案例1:使用Baidu✌LAC进行词法分析

   7.3  信息提取

     7.3.1  关键词提取

     7.3.2  关键句提取

     7.3.3  实体关系抽取

     7.3.4  案例2:信息抽取

   7.4  文本分类与文本聚类

     7.4.1  文本分类

     7.4.2  文本聚类

     7.4.3  案例3:谣言分类

     7.4.4  案例4:通过LDA主题模型进行主题聚类

   本章小结

   习题7

 

 第8章  计算机视觉

   8.1  计算机视觉基础

     8.1.1  计算机视觉简史

     8.1.2  图像形成

   8.2  识别

     8.2.1  图像分类

     8.2.2  目标检测

     8.2.3  图像分割

     8.2.4  视频理解

     8.2.5  案例1:汉字书法场景识别

   8.3  特征提取

     8.3.1  边缘检测

     8.3.2  轮廓追踪

     8.3.3  案例2:假的真不了?

   8.4  图像对齐与拼接

     8.4.1  图像对齐

     8.4.2  图像拼接

     8.4.3  图像合成

   8.5  运动估计

     8.5.1  平移对齐和光流

     8.5.2  运动追踪

     8.5.3  案例3:老照片翻新

   本章小结

   习题8

复杂性与网络分析篇

 第9章  社会网络分析基础

   9.1  社会网络语境下图的基本构成:点与边的意义

   9.2  线性视角下的局部流动性:游走、路径及连通

前言

我非常欣喜地看到由吕鹏、范晓光、陈忱、计湘婷、李轩涯等一批青年才俊撰写的《计算社会科学导论》的书稿。他们“社计师”团队已经连续两年开展了关于“计算社会科学”的培训课程,受到广泛欢迎,没想到这么快他们就完成了课程教材的编写。我一直在关注着计算社会科学前沿的发展,也积极支持青年学者在这方面大力开拓。因为随着信息社会的突飞猛进,社会科学对社会变迁的理解和研究方法都会发生极其深刻的变化,有些变化甚至是颠覆性的。我并不是计算社会科学的专家,但也不揣浅陋,应邀谈几点对这方面学科发展的看法,算是为青年学者们站台。

 

一、计算社会科学将异军突起

 

长期以来,学科的研究方法总是从属和辅佐学科研究的理论、内容和对象,但随着互联网、大数据和人工智能等技术的飞速发展,计算社会科学成为一种认识世界和社会生活的新型学科,对整个社会科学将会产生革命性的影响。但迄今为止,我国在这个领域的学科发展和人才储备都还很难适应时代发展的要求。

根据我国工业和信息化部人才交流中心发布的 《人工智能产业人才发展报告(2019—2020年版)》,人工智能相关企业数量不断增加与相关人才供需不平衡,成为我国人工智能产业强劲发展的突出矛盾。当前,我国人工智能产业的有效人才缺口高达30余万人。人工智能的人才不仅要具备计算科学背景,还要具备社会科学素养。

 

在世界范围内,“计算社会科学”(Computational Social Sciences)作为一门新兴学科正在蓬勃发展。2009年2月,以拉泽(David Lazer)为首的15位学者在《科学》(Science)杂志上发表题为“计算社会科学”的文章,是公认的宣示这一学科诞生的重要作品。计算社会科学是采用计算科学和数据科学的方法研究社会科学问题的新兴交叉学科。这种新兴性体现在以下几方面。

 

第一,数据来源形式的大幅度扩展。“巧妇难为无米之炊”,实证社会科学的发展离不开数据采集和处理技术的进步。传统社会科学研究的数据来源或是结构化的宏微观数据(定量研究),或是小样本的文字(访谈研究)、历史资料(历史比较研究)。随着电子计算机运算能力的提升,计算社会科学可以广泛地采用数量庞大的网络数据、文本数据、图像数据、视频数据、空间地理数据进行研究,为社会科学研究的发展注入新的生机。

 

第二,提升预测和决策的科学性。传统的预测和决策多依赖于对常规性事实的研究,而计算社会科学为现代国家和机构提供了一个应对高度复杂和快速变化环境的高效能、低成本的工具,将革命性地改变决策科学。比如,政府部门对疫情发布数据、流调数据、防控舆情数据进行挖掘,预测疫情的扩散趋势,也可以使用计算机模拟疫情防控政策施行的效果进行预测,提升决策的科学性。与此同时,政策制定者应该鼓励对预测模型进行公开的验证,同时提供标准数据集,作为解释性模型的验证性数据框架。

 

第三,为因果推断提供新的解决思路。2021年10月,约书亚·安格里斯特(Joshua D. Angrist)和吉多·因本斯(Guido W. Imbens)因为对因果分析方法学的贡献而被授予诺贝尔经济学奖。因果推断是社会科学经久不衰的议题,学者们提出了各种各样的解决方法,如随机试验、工具变量、倾向值匹配等。如今,计算社会科学的发展为因果推断提供新的思路,大数据挖掘有利于探索信息的关联模式,并据此提出更精确的解释性问题,同时机器学习可以更好地应对维度灾难,进行统计估计。对因果关系的检验是计算社会科学研究中的重要部分。

 

计算社会科学的发展对于中国社会科学的未来发展同样具有重要的意义。现代文明历史上有多次技术革命,在这次数字化引领的新变革中,中国具有独特的优势。其一,中国数字社会建设走在世界前列,从大众生活的移动支付到数字政府的大力建设,无一不突显数字中国的发展活力;其二,中国的数据规模十分庞大,一条信息可能没有太大的意义,一亿条信息就会产生重大的价值。因此,在这一场计算社会科学的大变革中,中国与世界的距离最小,这为中国社会科学的发展实现“弯道超车”或是“换道超车”提供新的契机。当前,大数据和人工智能技术越来越多地进入社会科学研究领域,“计算社会科学”作为新兴学科蓬勃发展,“新文科”建设方兴未艾,一个由社会科学家、计算机科学家、统计物理学家和其他领域的研究人员组成的研究生态正在形成。

 

二、大力培养计算社会科学新人才

 

最近一段时间以来,以教育部新文科建设工作组发布的《新文科建设宣言》和组织的一系列会议为标志,促进文科与理工科的学科交叉成为学术界的讨论热点。中国社会科学院时任院长谢伏瞻大声呼吁,要针对交叉学科建设的一些短板,加快发展具有重要现实意义的新兴学科和交叉学科。中国社会科学院是中国哲学社会科学研究的最高学术机构和综合研究中心,学科齐全,人才集中,资料丰富。近年来,中国社会科学院的一些研究团队,发挥国家队的平台优势,在数字经济、数字乡村、智慧社会、国家智治、智慧法治等众多领域积累了丰富的研究成果。

 

然而,总体来看,当前国内的社会科学界在人工智能与大数据方面的知识储备与能力建设仍有不足。很有必要倡导和鼓励广大社会科学工作者、青年学子就大数据和人工智能在社会科学中的作用展开研讨与交流。尤其是需要推动社会科学界与计算科学界的跨界合作,探索社会科学研究的新研究范式与方法。特别是在以下几方面,要加快推进。

 

第一,建立技术与社会相结合的学术知识体系。计算社会科学通常是利用特定的研究方法,开发和应用复杂的、大规模人类行为的数据。但支撑计算社会科学学术生态的,不应只是广义上的定量研究方法。传统的社会科学和计算社会科学实际上正在变得越来越紧密。所涉及的主要内容,既涵盖系统仿真、知识图谱、文本分析与建模、数据可视化等“计算方法”,又包括算法审计、数据治理、数字公益等“社会治理”技术。这需要培养一批社会科学和计算科学的复合型人才。

 

第二,推动社会领域的知识图谱、数据库、实训平台建设。完善新型数据基础设施是计算社会科学的生命线,因为这是一门以数据为基础的学科,就如同人工智能技术也是一门以数据为基础的技术一样。在大数据时代,如何进一步合法合规地获取大数据、分析大数据,成为制约未来中国社会科学进一步发展的一个严峻挑战。要善于把“沉默的文本”变成“活动的知识图谱”,这就需要发挥人文社会科学专家的专业知识,而不仅仅是靠计算机技术解决技术难题。

 

第三,整合力量,设立计算社会科学的专业学位。国内外众多大学和科研机构,已经设立了计算社会科学的学位教育体系。国际高校社会科学类博士研究生辅修大数据第二学位也蔚然成风。例如,芝加哥大学设立了计算社会科学的硕士和博士学位,清华大学也已经在相关学科的学位项目里设立了相应的研究方向,中国社会科学院大学成立了计算社会科学研究中心。我们应鼓励建设计算社会科学课程体系,培养这方面的人才。

 

十年树木,百年树人。培养人才不仅是为满足当前之需,更要为未来做储备。

 

三、编好用好计算社会科学的基础教材

 

当前虽然存在诸多大数据、人工智能的教学工具和内容,但大多数是为计算机专业的学生和学者开发的,尤其是在应用场景上,不能适应人文社会科学类学生的专业背景和训练需求。这本以社会学的青年学者为主体编写的计算社会科学教材,是专门为人文社会科学相关专业的学生掌握计算社会科学的知识而量身定做的,有以下几个特色。

 

第一,计算社会科学理论与软件操作相结合。学习计算社会科学的目的是应用,因此离不开软件应用,同时软件的应用有利于加深对理论知识的理解。除绪论外,本教材各章都先讲解理论知识,再提供应用理论知识的案例,并且案例给出了详尽的Python代码及操作说明,方便使用者上手操作。对于案例,编者特别选择了人文社会科学领域的案例。

 

第二,服务于计算社会科学的教学与人才培养。本教材目的在于帮助一线的高校教师为人文社会科学专业学生讲授计算社会科学的基本知识,因此在绪论中编者特别提供了如何使用本书授课的建议,并在每章精心设计了习题供学生们巩固练习。可以看出编者的用心,是希望帮助人文社会科学专业学生掌握计算社会科学的基本技能,这也有利于培养兼具科学精神与人文情怀的数字社会建设者。

 

第三,体现学科交叉性。计算社会科学的发展离不开多学科的知识共享、人员协作。尽管诸多学者都认识到这一问题的重要性,然而现实中不同类型机构之间、机构内部不同部门之间的壁垒始终存在。我很欣喜地看到,本教材既有百度公司与国内知名学术机构的深度合作,比如学者们借助百度AI平台实现软件操作,同时又有来自社会学、公共管理、网络科学、计算机科学与技术等专业学者的精诚合作。我相信,打破机构壁垒、学科壁垒,这对计算社会科学的发展和未来非常重要。

 

期待本书能够成为一个引子,带动更多的人投身到交叉学科建设的事业中来。

 

是为序。

 

作者:李培林

社会学家、中国社会科学院学部委员、社会政法学部主任、原副院长、第十三届全国人大常委会委员、社会建设委员会副主任委员

2023年5月3日于北京