2021年费孝通群学论坛·社计未来师资培训班
关于课程

讲座伊始,胡安宁教授首先介绍了树模型(Tree Model)的概念。早期树模型主要应用于商业决策,因此也被称为决策树。树模型是一系列以数据细分为基础的算法模型的统称,对于数据中的所有样本,依据某种变量的取值标准,不断进行细分,从而构建一个树形模型。与线性模型不同,基于树的模型能够很好地表达非线性关系,适合用来解决我们遇到的分类和回归问题。通常而言,如果分析的因变量Y为分类变量,通常称之为决策树;而如果Y为连续型变量,则称之为回归树。树模型包括分类回归树、决策森林、贝叶斯叠加回归树等各种复杂类型,其主要作用是基于大量已有数据或经验进行预测,具有分割和交互两大功能,能够对现有数据的构成空间进行分割,并充分考虑变量之间的相互关系。

接着,胡安宁教授介绍了“树是如何种出来的”。“种树”的过程其实就是分叉的过程,关键点在于根据哪一个候选变量进行分叉。对于树模型而言,在每个树分叉节点处需要对各个变量逐一“扫描”。而节点分割或分叉遵循以下几个标准:选择最有解释力度的变量,对于每个变量选择最优分割点以提升信息纯度。熵值被认为是信息纯度衡量的常用方法,纯度越高,熵值越低。一般而言,信息增益越大,则意味着使用特征来进行划分所获得的“纯度提升”越大。除此之外,也可以采用基尼系数来衡量信息纯度。因此,我们可用信息增益来进行决策树的划分属性选择。同时,树模型的问题在于这棵树可能会很长,从而带来数据的过度拟合问题,即模型在抓住一些真实信息的同时也抓住了一些噪声,导致对未知数据的预测准确率比较低。为了解决这一问题,需要对树进行剪枝。

此外,胡老师归纳了集成学习的几种方法。第一,Boosting。权重调整思路,通过用多个子学习器之间的相互补充作用不断降低模型的误差来提升精度,更加关注降低模型的偏差。第二,Bagging。多个数据下求平均或投票,通过采样的方式让模型看到更多的数据来提升其泛化能力,更加关注降低模型的方差,避免过度依赖一颗树模型。第三,Random Forest。由很多决策树构成,不同决策树之间没有关联,最终分类结果取决于各个决策树分类器简单多数选举。

最后,胡安宁教授从节点分叉、模型拟合、处理效应估计三个角度介绍了广义随机森林。从方差分析的角度来看,传统随机森林的分叉标准要求组内方差最小化。与之相比,广义随机森林则在每个节点内估计因果效果和(如每个节点内部实验组Y的均值减去控制组Y的均值)。此时在决定节点是否继续分叉时,所采用的标准就不再基于节点内部方差最小,而是节点间变异最大,即希望节点之间估计的处理效应彼此差异尽可能大。在处理效应估计方面,对于这个新的分析对象i,我们可以根据广义随机森林中一系列的树模型计算训练组中的所有数据点和i同分到一个节点的频数。频数越高的人(如个体j)和个体i的背景越接近,自然我们就应当在计算针对i的处理效应时给j更大权重。如果没有新的测试数据,可以采用包外(out-of-bag)估计来计算权重。

讲座最后,线下和线上学员提出了各种有趣且富含深度的问题,胡安宁教授进行了详细的答疑解惑。师生讨论深入,现场气氛活跃。至此,本次讲座取得圆满成功。