2021年费孝通群学论坛·社计未来师资培训班
关于课程

讲座伊始,刘河庆老师简要介绍了无监督学习的几种分析方法与应用场景。无监督学习包括但不限于聚类分析、潜类分析、主题模型、词向量模型。与半监督和有监督学习不同,无监督学习主要应用于发现理论,而前者主要用来验证理论。

接着,刘老师详细介绍了聚类分析的概念、聚类分析的算法以及聚类效果的评估。聚类分析是对根据测量或感知到的内在特征或相似性对对象进行分组或聚类的方法。同簇(cluster)的数据具有相似性,不同簇的数据具有相异性,从而将数据分成不同的类别,以探索非结构化数据的内部结构或分类。常见的聚类算法包括原型聚类(K-means)、层次聚类、密度聚类。

原型聚类(K-means)的有关原理。K-means,包括K和means两部分。K-means算法会将样本量N特征数M的数据X(其中X是N*m的矩阵)分到K个簇中,每个簇会有一个重心centroids。聚类效果的目标是通过计算簇中各个点到重心距离平方和尽可能的小。层次聚类又称为树聚类算法,通过一种层次构架的方式,反复将数据进行分裂或凝聚。密度聚类的主要思想是聚类可以定义为特征空间中的高密度区域被低密度分隔,以便直接在特征空间中搜索连通的密集区域。密度聚类善于解决不规则形状的聚类问题,目前广泛应用于空间信息处理等方面。对于如何评估聚类效果,刘河庆老师引用了美籍日本学者渡边慧证明的“丑小鸭定理”,即并不存在分类的客观标准,一切分类的标准都是主观的。聚类效果的好坏取决于研究者的研究目的和研究兴趣。

随后,刘老师借用案例向大家展示了文本分析的主要步骤与过程。文本分析主要包括数据清理、文本基本信息提取、文档词频矩阵的生成以及可视化展示。由于现有文本大数据具有来源多样、非结构化、数据稀疏、词语模糊性、情景敏感性等特征,导致文本分析面临信息不真实、信息过载等主要挑战,因此将聚类方法应用于文本数据分析可以在一定程度上解决部分问题。目前,利用无监督学习来进行文本分析主要包括基于LSA的文本分类和文本相似度分析以及词向量模型。LSA使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;LSA将词和文档映射到潜在语义空间,通过降维去除冗余信息,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

最后,刘老师归纳了词向量模型(Word2Vec)的用途及其实现。词向量的基本思想是将文本作为单词序列提供给单词嵌入层,该层将每个单词映射为向量空间中的实数向量,这样一方面减少了文本的维数,同时保留了单词之间的语义关系,进而有效的考虑了文本中词汇语境等信息。词向量模型可以用于计算词汇相似度,发现词汇间的隐含关系、研究词汇语义的变迁、进行政策文本分析。

课程结束后,线下和线上学员积极提问,刘河庆老师耐心地答疑解惑,师生讨论深入。至此,本次讲座取得圆满成功。

在下午的课程中,刘河庆老师在助教刘太石的协助下,通过百度飞桨AI Studio平台为学员们讲解了无监督学习的操作实例。

基础讲解由刘太石助教完成。刘助教使用已经完成清洗和异常值剔除的数据,为学员们讲解了结构化数据的处理过程,包括数据的导入和预处理、聚类参数的选择和数据的可视化处理。在讲解过程中,助教为学员们详细讲解了pandas库、sklearn库、Kmeans算法和TSNE降维算法的应用,展示了选择聚类中心数量的多种方法,以及数据可视化处理的方法。

提升阶段的讲解由刘河庆老师完成。首先,刘老师为学员们讲解了大规模文本的数据聚类案例。沿着“只有将字符串编码为计算机可以理解的数字,计算机才有可能发现文本中的规律”的思路,刘老师向学员们讲解具体操作流程:先对文本编码,然后将词语与数字相对应以建立基于给定文本的词典,再根据词典对所有文本的数据进行转码。在文本数据清理、词典构建、奇异值分解、文本相似性计算及进一步探索和分析等环节,刘老师都进行了完整演示。接下来,刘老师讲解了词向量的相关处理和应用。通过调用训练好的词向量,刘老师展示了最相关词汇计算和两词相关程度的计算。

每个案例讲解结束后,刘老师都会同助教一起走下讲台,为学员进行耐心细致的指导,帮助学员们进一步掌握无监督学习的操作方法。