吕鹏、范晓光等:《计算社会科学导论》

关于课程

本书精心选择了回归分析、机器学习、聚类分析、神经网络分析、自然语言处理、计算机视觉、社会网络分析、ABM等内容。通过飞桨平台提供多种开发工具和预模型,以及详细的帮助文档和课程,让广大师生快速有效地开展学习和研究。

本书是一本开源的、不断更新的、“适文化”的教材,可作为人文社科类学生学习计算社会科学的入门教材,目的是让他们了解计算社会科学主要的研究议题、研究方法、源起和发展,从而开启他们的学习与探索之旅。本书也可以供计算社会科学相关专业学生和研究者来了解“社会科学家们到底在做什么?”,有助于计算社会科学相关专业学习人员提高人文素养。

作者简介

吕鹏,清华大学社会学博士。中国社会科学院社会学研究所经济与科技社会学研究室主任、研究员,中国社会科学院大学数字中国研究院执行院长。主要研究领域为经济社会学、科技社会学。

目录

基础理论篇

第1章 绪论
1.1实证社会科学的困境
1.2计算社会科学简史
1.2.1两大传统
1.2.2未来挑战
1.3计算社会科学的基础问题
1.3.1概念界定
1.3.2学科边界
1.3.3研究范式
1.3.4研究方法
1.4如何使用本书?
习题1

第2章 Python语言入门
2.1Python语言简介
2.1.1简介
2.1.2历史
2.1.3Python与计算社会科学
2.2Python的安装
2.2.1在Windows上安装Python
2.2.2在macOS上安装Python
2.2.3Anaconda安装
2.2.4PyCharm安装
2.2.5AI Studio调用
2.3Python基础语法
2.3.1数据结构类型
2.3.2条件语句
2.3.3循环语句
2.3.4函数
2.3.5库(包)
2.3.6案例:政府工作报告热点分析
2.4搜集数据:网络爬虫简介
2.4.1什么是网络爬虫
2.4.2利用Python进行爬虫
本章小结
习题2

机器学习篇

第3章 回归分析
3.1算法基础
3.1.1线性回归的基本原理
3.1.2线性回归模型的评估指标
3.1.3方差与偏差的权衡
3.1.4过拟合与欠拟合
3.2岭回归
3.2.1对岭回归的理解
3.2.2调参
3.2.3案例1:如何预测居民的幸福度
3.3拉索回归
3.3.1对拉索回归的理解
3.3.2贝叶斯角度理解岭回归与拉索回归
3.3.3案例2:如何预测住院群体的医疗支出
3.4弹力网
3.4.1对弹力网的理解
3.4.2案例3:如何预测小麦产量
本章小结
习题3

第4章非参数监督学习
4.1K近邻法
4.2决策树
4.2.1决策树是什么?
4.2.2案例1:申请研究生的录取率预测
4.3集成学习
4.3.1袋装法
4.3.2随机森林
4.3.3提升法
4.3.4案例2:员工离职率预测
本章小结
习题4

第5章 聚类分析
5.1计算社会科学也需要聚类分析
5.2聚类分析基础
5.2.1距离:如何测量两个人的相似程度?
5.2.2聚类结果的性能评估
5.2.3聚类结果的选择与解读
5.3原型聚类
5.3.1经典聚类算法:Kmeans
5.3.2其他原型聚类算法
5.3.3案例1:强基建与促发展——中国村庄发展的类型差异
5.4密度聚类与层次聚类
5.4.1密度聚类
5.4.2层次聚类
5.4.3案例2:关注与忽略——中国家庭教育的不同模式
5.5聚类分析展望
本章小结
习题5

文本与图像分析篇

第6章 神经网络
6.1神经网络简史
6.2神经网络原理
6.2.1感知器(Perceptron)
6.2.2反向传播算法思想
6.3卷积神经网络
6.3.1感受野
6.3.2共享参数
6.3.3池化
6.3.4拉平和SoftMax
6.3.5应用场景
6.4案例分析
6.4.1案例1:单体汉字书法识别
6.4.2案例2:文本自动生成
本章小结
习题6

第7章 自然语言处理
7.1自然语言处理基础
7.1.1“是什么”:自然语言的特点
7.1.2“做什么”:自然语言处理的任务
7.1.3“怎么做”:自然语言处理的演进
7.2词法分析: 分词、词性标注与命名实体识别
7.2.1中文分词
7.2.2词性标注
7.2.3命名实体识别
7.2.4案例1:使用BaiduLAC进行词法分析
7.3信息提取
7.3.1关键词提取
7.3.2关键句提取
7.3.3实体关系抽取
7.3.4案例2:信息抽取
7.4文本分类与文本聚类
7.4.1文本分类
7.4.2文本聚类
7.4.3案例3:谣言分类
7.4.4案例4:通过LDA主题模型进行主题聚类
本章小结
习题7

第8章 计算机视觉
8.1计算机视觉基础
8.1.1计算机视觉简史
8.1.2图像形成
8.2识别
8.2.1图像分类
8.2.2目标检测
8.2.3图像分割
8.2.4视频理解
8.2.5案例1:汉字书法场景识别
8.3特征提取
8.3.1边缘检测
8.3.2轮廓追踪
8.3.3案例2:假的真不了?
8.4图像对齐与拼接
8.4.1图像对齐
8.4.2图像拼接
8.4.3图像合成
8.5运动估计
8.5.1平移对齐和光流
8.5.2运动追踪
8.5.3案例3:老照片翻新
本章小结
习题8

复杂性与网络分析篇

第9章 社会网络分析基础
9.1社会网络语境下图的基本构成:点与边的意义
9.2线性视角下的局部流动性:游走、路径及连通性的相关概念
9.3二模图与结构等价
9.4图的密度与集聚
9.4.1密度
9.4.2从局部到宏观:三元组(Triad)与集聚系数(Clustering Coefficient)
9.4.3弱连带与结构洞
9.5中心度及其相关概念
9.6社区挖掘:聚类研究在社会网络中的拓展
本章小结
习题9

第10章 社会网络数据与分析
10.1自我中心网络
10.2边界的界定
10.3网络分析的未来
10.4案例
10.4.1案例1:佛罗伦萨与美第奇家族的崛起
10.4.2案例2:美国的政治极化与博客域(Blogosphere)
10.4.3案例3:网络游走与知识创新
本章小结
习题10

第11章 基于多主体建模与仿真
11.1ABM定义与核心概念
11.2ABM简史与经典案例
11.2.1ABM的先驱学者
11.2.2案例1:隔离模型
11.3ABM的特点
11.3.1ABM: 一种社会仿真建模方法
11.3.2计算社会科学中的ABM
11.3.3此模型非彼模型: ABM与实证社会科学
11.4ABM的软件实现
11.5社会科学中的ABM应用
11.5.1验证经典理论
11.5.2解释宏观现象
11.5.3预测:决策科学的革命
11.5.4案例2:风险认知信息的传播模型
11.6ABM的未来
本章小结
习题11

附录A R语言入门
附录B 飞桨全景与平台应用
附录C 计算社会科学相关网站
附录D 专业词汇中英文对照表
后记