第24卷第5期 兰州工业学院学报 Vo1.24 No.5 2017年10月 Journal of Lanzhou Institute of Technology 0ct.2017 文章编号:1009-2269(2017)05-0065—04 网络舆情情感倾向分析模型研究 吴 宁 ,尚坡利 ,彭琳茹。 (1.兰州工业学院电气工程学院,甘肃兰州730050;2.兰州石化职业技术学院电子电气工程学院,甘肃兰州730060; 3.兰州工业学院电子信息工程学院,甘肃兰州 730050) 摘要:随着互联网技术的快速发展,网络舆情成为舆情系统中重要的组成部分.网络舆情除具备 一般舆情系统的特点外,还具有突发及匿名等特点,将现有的基于语义词典的分析方法和基于机 器学习的分析方式相结合并验证其有效性.实验结果表明。该方法较单一方法分析准确率更高. 关键词:舆情;情感倾向;本体;机器学习 中图分类号:G203 文献标志码:A 0 引言 分析系统设计的难度也较大.由于网络信息的数量 庞大,人为收集并提取有效信息并不现实,因此,必 舆情是指在一定的社会空间内,围绕中介性社 须通过自动采集手段汇总信息,并利用计算机技术 会事件的发生、发展和变化,民众对社会中各种现 对所涉及信息进行分析和处理.其中,对于的 象、问题所表达的信念、态度、意见和情绪等表现的 情感分析属于计算语言学的范畴,它更加关注于主 总和.近年伴随着网络技术普及,截至2016年12 观性信息的分析和提取,该技术涉及计算语言学、 月,我国网民规模达7.31亿,普及率达到53.2%, 人工智能、机器学习、信息检索、数据挖掘等多方面 超过全球平均水平3.1个百分点,超过亚洲平均水 的研究l1。]. 平7.6个百分点.中国网民规模已经相当于欧洲人 1.1 研究现状 口总量.互联网的飞速发展使得网络媒体被公认为 情感分类的主要目的在于将来自于不同来源 是继报纸、广播、电视之后的“第四媒体”,网络成 的各种评论与看法进行区别与归类,判定出主观态 为反映社会舆情的主要载体之一.网络上发表的观 度属于正面、负面还是中立.目前,对于网络舆情中 点和看法即网络舆情,其形成更快速,传播更迅猛, 相应评论的情感分析主要可以归结为两类,一类方 覆盖更广泛,影响更巨大.对于网络舆情进行及时 法是粗粒度情感分析法(Coarse—Grained Sentiment 的监测与分析,有助于相关机构在第一时间做出决 Analysis).该方法在分析情感倾向性时是基于评论 策,对相关内容加以监督与引导,助力于社会及企 分析的文本都是针对于同一个目标或是对象这一 业的和谐发展_1]. 假设前提下的,然后对整个文本整体进行情感倾向 1 相关技术研究 分析,最后得到的结果是全体文本的情感倾向性及 强度.另一类方法是细粒度情感分析法(Fine— 近年来,针对于网络舆情的相关分析技术的研 Grained Sentiment Analysis).该方法在情感判别中 究取得一些成果.这些成果已逐步应用在一些舆情 更加深入具体,认为在评论中或许存在差异化的观 分析系统中.由于相关信息的体现形式不一,使得 点主题,可以对其中感情要素进行抽取分析并判 收稿日期:2016—09。02 基金项目:甘肃省自然科学基金(1506RJZA057);甘肃省青年科技基金计划(1606RJYA271) 作者简介:吴宁(1981.),男,甘肃兰州人,副教授,硕士. ・66・ 兰州工业学 院学报 第24卷 断.在这种方法中,Kim和Hovy以及Wiebe都做出 过重要研究,前者设定了四个情感划分类别.即主 题、持有者、陈述和情感,后者将注意力集中在主观 性表达、情感极性及其强度、情感持有者和情感的 主题.对于第一类情感分析方法来说.通常可以有 此,除了标注过程需要耗费不少人力及物力,更为 重要的是其又含有一定的主观性.训练样本的选择 的适当性与准确性将对于分类器的分类精度造成 不少影响【 . 两种方法实现,第一种是基于语义的情感分析方 2基于本体语义及机器学习的情感 法,第二种是基于机器学习的情感分析方法_2]. 1.2基于语义的情感分析方法 基于语义的情感倾向性分析主要依赖于对文 中的结构进行拆析,即通过语法结构将由文字和标 点符号组成的字符串、词语、短语、句子、段落、文章 进行拆解,过滤掉无情感内容,将剩下涉及到的所 有情感词及情感语句进行汇总并进行综合评测,最 终得到整个内容的倾向性分类.该方法在使用时, 其重点在于如何通过抽取特征词汇以构建相应特 征词典,特征词典将直接用于评测内容拆析后词句 的匹配。也直接决定了最后的倾向结果¨3j. 因为计算机在处理文本时并不能分辨其语义 倾向,因此最后的判断完全依赖于情感词典的指 导。而计算机则是完成了匹配与计算的简单工作, 因此可以看出.情感词典的准确性将直接影响到最 后倾向性的准确判断.这一方法最大的优势在于,可 以提高分析系统的移植性,但是由于不同语言的复 杂程度及相应语法的特殊性会不同程度影响到情感 的表达方式,包括其句式结构及修饰方法,最终影响 到系统的分类精度.因此,该方法具有局限性 ]. 1.3基于机器学习的情感分析方法 基于机器学习的情感分析方法。其原理可以简 化为训练.测试这一过程.首先是训练过程,即将一 部分数据进行标注并作为训练数据,然后通过相应 的机器学习算法来构建分类标准,以此作为基准对 后续测试数据进行分类.该方法由于先将已有典型 数据进行标注,再将其作为标准来指导未分类数 据.因此,也将其称为“有监督的学习方法”,其分 类准确率相对更高,例如SVM. 但是,该方法也有一些不足之处,其可移植性 比较差.即某一特定分类器在某一种领域方面可以 实现较好的分类效果时,如果换到一个不同领域 后。其分类结果或许会受到影响.另外一个问题是, 由于训练样本是人为标注后才作为分类标准的,因 倾向分析系统 上述提到的两种方法都存在一些缺陷.前者不 需要进行训练,移植性较好,但是其分类精度容易 受限;后者精度较高,但是需要事先对语料进行标 注。而且存在着无法移植使用的问题.因此.可以尝 试将两者融合使用以达到更好的分类效果.此外, 还将在基于语义词典的分析方法中引入本体概念, 以加强分析效果. 本体一般用于描述一定专有领域.或者较广泛 范围内的概念以及概念之间的关系.这些概念以及 关系,在共享的范围内,是具有明确唯一的、大家共 同认可的定义,因此使得人机问、机器间可以进行 交流.本体可以将繁杂凌乱的情感知识有效组织起 来。充分体现词汇之间的内在关系及强度,因此,依 据本体理论可以建立起较为清晰的高质量情感语 料资源,而语料资源的质量对于语义情感倾向分析 尤为重要,它可以使得后续的情感倾向性分析更加 准确 . 2.1文本预处理 2.1.1 分词 在英文的行文中,由于空格的存在,使得词与 词之间有着天然的分割界限,因此通过计算机可以 轻松的识别每个单词;相反,中文的行文中,虽然句 与段落各自之间有着明显的分界符,但是词汇之间 却通常连接紧密,没有明显间隔,因此,如何将中文 词汇之间的连接,在分析过程中断开以明晰词语含 义,以方便理解判断,是一个非常复杂且重要的问 题.中文分词技术正是针对这一问题应运而生,其 作用是将一段连续的汉字序列切分为单个分离的 词条并进行新的组合以便于进行相应的分析. 本文采用NLPIR汉语分词系统进行分词,即 中国科学院计算技术研究所张华平博士及相关工 作人员研制的汉语词法分析系统——ICTCLAS,其 主要功能包括中文分词、词性标注、命名实体识别、 第5期 吴 宁等:网络舆情情感倾向分析模型研究 ・67・ 新词识别、微博分词、新词发现与关键词提取;用户 词典功能;支持GBK编码、UTF8编码、BIG5编码. 该系统分词速度单机可以达到996 KB/s.分词精 度98.45%,是目前最好的汉语词法分析器之一. 2.1.2构建情感词词典 情感词典是进行文本倾向性分析的重要依据, 通常其包含词语可分为褒义、贬义、中性词三类,但 由于文本最后的立场通常是由褒贬两类词语决定, 因此,中性词在分析时通常可以忽略.情感词典中 的词语需要进行极性标注,以便于作为文本的参考 坐标通过数值计算判断出文章总体的偏向性,其情 感倾向越强。标注的数值越大.在文本计算时,将文 中出现的情感词语析离出。然后根据情感词典进行 查找比对,对已有的词可以直接赋值,未收录的词 语可进行人工添加和极性标注. 本文采用由林鸿飞教授团队研究出的大连理 工大学信息检索研究室提供的《中文情感词汇本 体库》作为基础情感词词典,该词库从不同角度对 词汇进行描述,在历次的文本倾向评测比赛中都获 得了非常好的成绩.此外,还将知网Hownet情感词 典,清华大学李军中文褒贬义词典.大学NT— USD简体中文情感词典进行补充.对词库加以完 善.此外,还需要构建反义义原词典.构建程度副词 词典,构建否定词词典,构建连词词典以增强文本 判断的准确性. 2.2分类过程 分类过程主要由以下步骤构成: 1)情感倾向性计算:原则为根据情感词典抽 取带有情感词的语句.但由于存在情感词典尚未涵 盖的情感词语,因此可以在分词及词性标注后,对 每一个分句与常用情感表达搭配进行匹配。将其选 为情感句,其余句子再次进行情感词典词语检索, 选出其余的情感句.抽取情感句之后,结合情感词 典计算其情感倾向.最后汇总得到文本的情感词. 2)训练文本获取:将情感极性明显的文本选 出作为机器学习过程的训练集,其余文本可用来进 行测试学习结果. 3)特征选择:在文本分词后,为了采用尽可能 少的特征项表征文本以达到提高处理效率的目的. 需要对特征项进行降维处理,可采用将词频以及特 征词情感程度融入到传统的信息增益方法以实现 较好的效果_7 . 4)文本表示:为了便于计算机处理分析,采用 VSM(Vector Space Mode1)将文本向量化表示,使用 大学林智仁团队开发的LIBSVM作为训练工 具,对特征项采用TF—IDF计算权重(Term Frequen. cy,表示全部特征项数量中该项特征项数量所占比 重;Inverse Document Frequency,表征在全部文本中 该特征项所在文本出现的频度).在文本表示完成 后,利用LIBSVM工具的svm.scale对特征权重进 行归一化,以便训练出更好的模型. 5)文本分类:采用SVM分类算法进行分类. SVM即支持向量机(Support Vector Machine),是 1995年由Corinna Cortes和Vapnik等首先提出的, 其是一种使用较广的机器学习分类方法.属于有监 督学习.该方法在处理小样本、非线性及高维模式 识别中优势较为明显,在函数拟合中也有出色 应用. 2.3实验分析 目前国内采用的测试语料多以COAE及中科 院计算所提供的为主,本文选用了后者谭松波博士 整理的10 000篇酒店评论语料中的一部分语料进 行测试,其中正面评论文本500篇.负面评论文本 500篇,随机选取5组不交叉文本共5 000份进行 测试. 实验中分别采用基于本体语义的分类方法.基 于机器学习的分类方法及两种方法结合的分类方 法对语料进行测试,测试结果使用较为经典的查全 率、查准率和F.测量值来衡量测试结果. 查准率定义为判别结果正确的测试样本占所 有判为该类文本的比例,其公式定义如下: 某类中判断正确的文本数 … 判断为该类的总文本数‘ 查全率定义为判别结果正确的测试样本占所 有应该判为此类文本的比例,其公式定义如下: R= 某类中判断正确的文本数 实际为该类的总文本数‘ (2) 在实际使用过程中。常常 ̄JIA.第三个分析指标 在以上两者中进行权衡,即F- ̄IJ量值,其公式定义 如下: ・68・ 兰州 工业学 院学报 第24卷 通过实验结果可以得出,基于本体语义的分类 方法,在筛选出倾向性更为明显的样本来作为机器 参考文献: 学习的训练语料后.提高了分类的准确率,其分类 [1]周杰.网络舆情话题情感倾向性分析技术研究[D]. 效果要优于采用单一分类的方法. 郑州:信息工程大学.2010. [2] 高铭泽.网络评论情感分类与观点抽取技术研究 3结论 [D].长沙:国防科学技术大学,2014. 本文在总结了基于本体语义分类方法及基于 [3] 王成龙.基于文本分类的语义相似度研究[D].青 机器学习的分类方法的基础上,分析了各自方法的 岛:青岛理工大学,2016. [4]徐健锋,许园,许元辰,等.基于语义理解和机器学 优势及缺点.验证了将两种方法有效结合后并引入 习的混合的中文文本情感分类算法框架『J1.计算机 个体概念后的分类结果要优于单一方法的设想,其 科学,2015,42(6):61—66. 特点在于将随机噪声滤除在机器学习训练过程之 『5] 张玲玲.基于知识语义特征的篇章级文本情感分类 前。提高了学习分类的效率,可以在较短时间内达 方法研究[D].北京:北京工业大学,2015. 到较好的分类效果.由于本文所测试的语料数量有 [6]刘倩.基于本体的话题情感分析研究[D].新乡:河 限,当语料数量大幅增加后,该方法是否有效还需 南师范大学.2011. 在下一步研究中进行验证. [7] 许元辰.基于优化的语义理解与SVM相结合的文本 情感分类研究[D].南昌:南昌大学,2014. Research on Affective Tendency Analysis Model of Online Public Opinion WU Ning .SHANG Po—li .PENG Lin—ru (1.College of Electrical Engineering,Lanzhou Institute of Technology,Lanzhou 730050,China; 2.Electronic and Electrical Engineering Department,Lanzhou Petrochemical Polytechnic,Lanzhou 730060,China; 3.College of Electronic Information Engineering,Lanzhou Institute of Technology,Lanzhou 730050,China) Abstract:With the rapid development of Internet technology,network public opinion has become an important component of public opinion system.Besides the general characteristics of the public opinion system,the network public opinion system also has the sudden and anonymous characteristics.The paper combines existing analysis methods based on semantic dictionary and machine learning and attempts to verify their effectiveness by experi— ment.The results show that the method has higher analysis accuracy than single method. Key words:public opinion;emotional tendency;ontology;machine learning (责任编辑:曾贤灏)