第24卷第5期 计算机技术与发展 COMPUTER TECHNOLOGY AND DEVELOPMENT 2014年5月 Vo1.24 No.5 Mav 2014 基于社会网络分析的学术合作关系研究 康文杰,郑倩冰,陈侃 (国防科学技术大学计算机学院,湖南长沙410073) 摘要:学术合作关系是各领域各学科的科学家之间的合作关系。随着科学技术快速发展,各科学领域之间的交叉融合 已成为一种需求趋势,学术合作关系也越来越密切。文中首先给出异构信息网络和元路径的定义,并在此基础之上提出 在异构信息网络中通过元路径对学术合作关系进行预测的方法;然后建立合作可能性预测模型来计算作者之间的合作可 能性;最后收集实验数据,并将数据代入到合作可能性预测模型中进行计算。实验表明,通过该模型作者可以找到其最佳 合作者。 关键词:异构信息网络;元路径;特征空间;合作可能性 中图分类号:TP31 文献标识码:A 文章编号:1673—629X《2014)05—0001—05 doi:10.3969/j.issn.1673—629X.2014.05.001 Research on Relationship of Academic Cooperation Based on Social Network Analysis KANG Wen--jie,ZHENG Qian-bing,CHEN Kan (College of Computer,National University of Defense Technology,Changsha 410073,China) Abstract:The academic cooperation relationship mearls the cooperation relationship between scientists in diverse esearrch fields.With he trapid development of science and technology,the interdisc ̄'linary research is blooming,as the relationships between different research ielfds have become increasingly close.In this paper,firstly present the definiion of hetterogeneous information networks and meta—path, on the basis of it,a method is proposed which uses meta-path tO evaluate possible collaborators in heterogeneous information network. And then an evaluation model is established to calculate the cooperation probability between authors.Finally collect experimental data nd ainput the data into the evaluation model to calculate.The experiments show the effectiveness of he prtoposed method. Key words:heterogeneous information networks;meta path;feature space;collaboration probability O 引 言 在市场需求的驱动下,科学研究呈现两种发展趋 势,一是研究的范围越来越大,课题之间没有明显的学 合作发文网络和共词合作网络…进行分析,来说明学 术网络中的合作情况。这些研究只是从现有的网络中 挖掘出较强节点(发表论文数量少的作者已被忽略) 之间的合作关系,而且该网络是均匀合作网络 ,即每 个节点的类型相同。 这些研究存在的不足在于它们只是挖掘出学术合 科分界,甚至有很多交叉学科之间的合作研究;二是研 究的方向逐步变细,研究难度也不断增大。在这种情 况下,依靠个体的力量很难完成科学研究,因此需要靠 个体之间的合作来推动科学研究的步伐。而能否寻找 合适的合作对象关系着科学研究的效率和成果,也是 文中要解决问题的关键。 在这之前,在学术界有很多学者通过运用社会网 作网络中隐藏的合作关系,并没有对可能的合作关系 进行预测。 文中运用社会网络分析方法对异构信息网络 进 行分析,涉及到社会网络中合作者之间的合作强度等, 主要目的是为了在已有的合作网络中找到某作者的最 佳合作对象。 络分析法对论文合作网进行过研究,通过收集某某会 议或期刊的大量文章,统计作者合作发表论文的数量, 并计算出所占比例以及合作强度,还有从情报学领域 收稿日期12013—07—20 修回日期:2013—10—27 网络出版时间:2014—02—11 基金项目:国家自然科学基金资助项目(61170285) 作者简介:康文杰(1987一),男,山西吕梁人,硕士研究生,研究方向为社会网络;郑倩冰,副教授,博士,研究方向为P2P网络、社交网络。 网络出版地址:http://www.enki.net/kcms/detail/61.1450.TP.20140211.1613.037.html ・2・ 计算机技术与发展 第24卷 1问题的定义 这部分,将介绍有关异构信息网络的思想,并且定 义其关系。主要通过对DBLP书目网络 进行研 究,构建元路径的特征空间 并对合作可能性建模, 采集数据并验证模型的可行性,即通过检索某科学工 作者就能给出其最佳合作者。 1.1异构信息网络 异构信息网络是信息网络的一种在数据结构之下 作为有向图的特殊类型,它既包含多种类型的对象,又 有多种类型的链路 。如DBLP书目网络,它的节点 由作者、地点、论文和术语组成,链路由4种不同节点 任意2个链接构成,而且不同链路所表示的意义不同。 定义1(信息网络):信息网络 被定义为一个有 向图G=(V,E),存在一个对象类型映射函数‘D: —A 和一个链路类型映射函数 :E一 ,当每个对象 ∈V 时,有特殊的对象类型 ( )∈A成立;当每条链路e ∈E时,有一个特殊的关系 (e)∈R。 DBLP书目信息网络 就是一种典型的异构信 息网络,包含的对象来自四种不同性质的实体类型:论 文P(Papers),地点V(Venues),作者A(Authors),术语 T(Terms)。对于每篇论文P∈P,它都存在指向作者 集、地点集、术语集和论文集的链路,并且链路类型被 这些关系所定义。 定义2(网络图):网络图 是一种异构信息网络 G=(V,E)元模板,存在一个对象类型映射函数 :V —A和一个链路类型映射函数 :E一 。它是一个定 义在对象类型A之上、把边看作关系RI拘有向图(如图 I),把它定义为Tc=(A,R)。 地点 术语 图1 DBLP书目网络 不同于传统网络定义,明确地区分在网络中的对 象类型和关系类型。当对象类型A的绝对值I A I>1 或者关系类型R的绝对值l R I>1时,网络被称为异 构信息网络;否则它是均匀信息网络。 1.2元路径 在一个异构网络中,两个对象能够通过不同路径 被连接¨ 。例如,两个作者之间可以被连接,通过“作 者一论文一作者”、“作者一论文一地点一论文一作者”、“作 者一论文一术语一论文一作者”等路径。从本质上讲,在 不同路径之下的语义暗示不同的意义。把这些路径称 为“元路径”,定义如下: 定义3:元路径是定义在网络图 =(A,R)中的 R. R R 一条路径,表示形式为A,— A:— …— A ,它 定义了在类型A。和 川之间的一个综合关系R=R,。 。…。R ,这里符号。表示在关系上的综合操作。元 路径的拓扑关系如表1所示。 表1元路径的特征关系表 元路径 语释 A—P—P—A 作者 的论文引用 作者ttI的论文 A—P—P—A 作者 的论文被作者nf的论文71用 A—P— —P—A作者 的论文和作者al的论文在相同的地点发表 A—P—A—P—A作者ak和作者 的合作者是同一个人 A—P—r—P—A作者o 的论文和作者Ⅱj的论文有相同的标题 A—P—P—P— 作者 的论文所71用的论文引用了作者af的论文 A—P—P—P—A 71用作者ak论文的论文被作者。 71用 A—P—P一尸一A作者 的论文和作者。f的论文71用了同一篇论文 A—P—P一.P—A 作者。 的论文和作者oz的论文被同一篇论文所引用 1.3基于元路径的度量 一个基于元路径特征的其他成分就是对元路径之 间联系的度量。有很多度量方法被定义和执行为了去 测量查询实体和给出相同元路径潜在结果实体之间的 相似度或相近度。 一些基于元路径的度量方法如下: (1)术语相似性:指两个作者发表过论文的术语 相似性,论文P 和论文p,的术语相似性: 吨P,L , Pi、)= ; (1) 式中,cover(p ++P,)表示在论文P 和论文p 题目 中存在相同内容的字数;num(P )表示论文P 中标题 或关键字的字数;num(p,)表示论文p,中标题或关键 字的字数。 (2)相似路径 :给出一个对称的元路径P,两个 相同类型 和Y之间的相似路径: s( ,Y)= 2 Xl{P y:p y∈P}l ,¨ l{P :p ∈P}I+I{P :p ∈P}I 式中,P…是 与Y之间的一个路径实例;p…是 与 之间的路径实例;p一是Y与Y之间的路径实例。 2元路径的特征空间 基于元路径特征空间 是元路径与基于元路径方 第5期 康文杰等:基于社会网络分析的学术合作关系研究 法的结合,该空间可以描述为两个数据集(元路径集 和方法集)的笛卡尔积。即F=P×M,这里P是可能 元路径的集合, 是基于元路径方法的可能集合。 2.1合作可能性 合作可能性是通过对不同元路径的分析来预测某 领域科学家之间存在合作的可能性,其可能性以概率 的形式表达出来,概率大的说明科学家之间的合作几 率大,反之较小。 定义4(合作可能性):在网络图Tc=(A,R)中任 意一条路径P=(A。A:…A ),都存在合作可能性 CP(P)=CP(A。,A ,…,A ),因为子路径P。=A A:和P: =A A,是的两个过程,任意子路径对其他子路径 的存在相互没有影响,所以: CP(P)=CP(pl,P:,…,Pz)==CP(AIA2)× CP(A2A3)X…×CP(A㈧Af): 【_1 CP(p ) (3) 针对不同的关系R 给出合作概率,首先要对所有 可能的不同关系进行分类,一次给出每种关系之上的 合作概率公式,然后用将这些概率乘积来表示复杂元 路径之上的合作可能性。 2.2合作可能性预测模型 合作可能性预测模型是基于元路径的特征空间建 立起来的模型,其目的是通过异构信息网络中的元路 径挖掘合作者,进而找到最佳合作者。即每种元路径 所对应的合作概率都不同,复杂的元路径是通过子元 路径组成的,在它之上的合作概率是各个子元路径的 乘积。 子元路径主要分为以下五种情况: (1)P :A…P P A:作者12 的论文P 引用了作 者口 的论文p,或作者。 的论文引用了作者a 的论文。 所以作者12 与作者12 的合作可能性为: CP(p ~(Pi,Pj) (4) 式中,count 表示论文P 引用了论文p 的次数; count .表示论文P 中所有引用的论文; 竺 count 三 +count 表示作者ak选择与作者at的概 率。 (2)P2:A—P— —P— :作者0 的论文P。和作 者12 的论文 在相同的地点发表。所以作者a 与作 者o 的合作可能性为: ∑∑w(p ,Pi) cP(pz)=s(21k ̄211)×( )(5 式中,s(o ,o )表示作者o 与作者a 的相似性, 其值越接近于1说明两个作者的学术水平和权威程度 ∑∑w(p ,pj) 越相近,选择合作的可能也就越大;三 mln n— 一 'm 表示作者o 与作者o 所有发表在同一地点论文的术 语相似性,n和m分别表示作者a 和作者 的论文数, min(n,m)是n和m之中的最小值,如果作者o 和作者 o 合作发表过相同的文章,就会有w(p ,Pi)等于1,两 人所有发表文章的术语相似性∑∑w(p ,pj)就会 大于1,再除以两人在同一地点发表文章数量的较小 数min(n,m)就得到发表在同一地点两个作者的术语 相似性。 (3)P :A—P—T—P—A:作者口 的论文P 和作 者o 的论文Pj有相同的标题。所以作者o 与作者o 的合作可能性为: CP(p (6) (4)P :A—P…A P A:作者0 和作者0 的合 作者是同一个人。 ,也就是合作者的合作者。该情况 下,需要考虑合作者之间的平均合作强度和两篇论文 的术语相似性。所以作者。 与作者。 的合作可能性 为: CP(p ) 者× ×w(p ,Pi) (7) 式中, 表示作者吼的论文中合著者人数; 表 示作者o 的论文中合著者人数; 表示作者n 与 o 的平均合作强度;— 表示作者n 与o。的平均合 一 作强度。用 和。 的合作强度之积乘以论文术语相 似性就得出了作者n 与作者o 的合作可能性。 (5)P :A—P—P—P—A:如表1所述P 路径有 四种可能的情况。但作者。 的论文与作者o 的论文 通过一篇论文联系起来,它们之间存在着引用与被引 用的关系,在计算合作可能性时,这四种元路径的计算 方法相同,所以作者 与作者 的合作可能性为: CP(p )=w(p ,Pi) (8) 以上是元路径的五种基本的子路径,任何复杂的 元路径都是通过这几种子路径组合而成,其合作可能 性也是由各个子路径合作可能性的乘积。所以,元路 径的特征空间就是由元路径以及元路径的度量方法构 成的,文中已经给出具体的度量方法,下面通过实验来 验证其特征空间。 3实验 为了通过特征空间中的度量方法来找到最佳合作 者,采集了某科研单位科学工作者及相关合作者288 计算机技术与发展 第24卷 名,论文1 812篇,从中挖掘相关信息进行研究。通过 对作者相似性和论文相似性的计算,以及合作可能性 的度量,可以找出很多有可能合作的科研工作者。 3.1 数据集 8 7 5 量对于所有的实验是足够的,当然在生成数据集的时 候已经把那些孤立的点利用数据挖掘的方法去除掉 了,这并不影响实验结果。 对所有作者在刊物上发表的所有文章进行了统计 O O 3 4 者作者作者作者作者作作者者作者 ~作 生成一个训练数据集来存储从大量论文数据信息 中提取出来的有用信息,它包括DBLP书目网络中四 种不同实体类型的相关信息,训练数据集的数量和质 O 2 (如表2),来计算作者与作者之间的相似性,再根据元 路径各个不同的子路径相关的算法来求出与某作者可 能的合作者,从中判断出最佳合作者。 驺 O 0 O O O O O 6 6 甜 ∞ 6 O m 0 O O 3 4 表2作者一期刊一论文数量表 0 O 0 期期刊刊期期刊刊期刊期刊期刊期刊8 期刊2 期刊期期期期期O 期O O O O 刊O 0 O 期刊期刊期刊期刊期期刊刊期刊期刊期 刊 刊O O 刊O O 刊O 刊刊0 O O 1 O O A B C D E F G H I G K L M N O P Q R S T U V W X Y 0 l 0 O O O O O O O O O 0 O 4 O 3 O 1 O 0 O O O O O l 1 O O 9 8 O O O 0 O 2 2 9 O b O 5 O 4 4 O l O O 0 m 6 3 £! O O O O O m O O 0 6 m O 0 O O 7 3 O 6 3 3 O 期刊A至Y分别代表计算机教育,计算机工程与 化。由于以上作者信息敏感涉密,所以用作者a、作者 O O 8 5 6 4 O b、作者c、作者d、作者e、作者f、作者g、作者h代替。 科学,计算机研究与发展,软件学报,科技信息,计算机 0 O O 7 O O O O 与现代化,微计算机信息,计算机工程与设计,信息安 O O 0 O 省略了那些合作概率较小的节点,给出以上几位 0 0 O O O 全与通信保密,高等教育研究学报,硅谷,计算机工程, 国防科技大学学报,中国教育网络,计算机科学,计算 O 0 作者的论文发表情况,表的横列表示某作者在各个期 刊上发表的论文数,纵列数字表示某期刊上刊登各个 O O 3 O 6 0 0 O O H O 0 机工程,电子学报,小型微型计算机系统,计算机工程 6 0 O 作者发表论文数量。根据表2来求作者相似性(如表 3所示)。 0 O O 0 O 与应用,计算机应用研究,计算机学报,通信学报,华中 科技大学校报,计算机技术与发展,计算技术与自动 表3作者相似性情况表 3.2查询合作者结果 表4)。 选择一条元路径P :A—P— —P—A作为研究对 象来计算作者a与其他作者之间的合作可能性,其他 由表4不难发现,作者a的最佳合作者是作者e, 之后合作可能性由大到小依次为作者b,作者h,作者 g等。合作可能性较大的说明作者a与该作者合作的 路径类似。根据公式(5)还需要算出术语相似性(如 第5期 康文杰等:基于社会网络分析的学术合作关系研究 ・5・ 概率大。 表4作者a与其他作者的合作可能性表 4结束语 文中通过对异构信息网络的研究,建立合作可能 性预测模型并给出了在元路径特征空间下不同元路径 合作可能性的计算方法,通过对不同元路径下合作可 能性的计算来确定最佳合作者,提出了在异构信息网 络图中预测最佳合作者的思想,为今后科学家之间的 合作找到了一条捷径。目前有不少关于合作关系方面 的研究,国内外学者利用科学计量方法、数理统计方法 以及组合数学模型等对科学合作进行了深入的研究, 取得了丰富的成果,使得科学合作领域研究由定性分 析向定量化迈进了一大步 ,荣先乾等使用社会网络 分析方法考察图情领域作者之间的合著关系 ,李亮 等以合著分析比较不同学科领域的特点¨ ,邱均平等 从整体网络特征、节点度分布和每篇论文合作作者数 方面对三个样本进行计算和对比¨ ,张金柱等利用K —shell值较度、介数更好地表征作者的传播影响力 。 虽然有很多合作关系网络方面的研究和成果,但是还 有很多问题需要进一步的研究,使算法更合理精确,需 要广大科学工作者共同努力来挖掘潜在的社会网络合 作关系的影响因素和特性,为今后的科研合作提供一 个平台。文中还可以利用决策分析理论在原有模型的 基础上做出决策,以及引用马尔可夫模型来解决实际 问题。 参考文献: [1]刘蓓,袁毅,Boutin E.社会网络分析法在论文合作网 中的应用研究[J].情报学报,2008,27(3):407—417. [2]Sun Yizhou,Han Jiawei,Yan Xi ̄ng,et a1.Pathsim:meta path —based top-k similarity search in heterogeneous information networks[c]//Proc of VLDB.New York:Curran Associates, 2011. [3] Sun Yizhou,Han Jiawei,Aggarwal C C,et a1.When will it happen?:relationship prediction in heterogeneous ifnormation networks[C]//Proceedings of the fifth ACM international conference on web search and data mining.New York.NY. USA:ACM.2012:663—672. [4]Yu Xiao,Gu Quanquan,Zhou Mianwei,et a1.Citation predic— tion in heterogeneous bibliographic networks[C]//Proc of SI- AM intenrational cofnerence on data mining.[S.1.]:[S.n.], 2012:1119-1130. [5] Yu Xiao,Sun Yizhou,Norick B,et a1.User guided entity simi— lariyt search using meta-path selection in heterogeneous ifnor- marion networks[C]//Proceedings of the 21 st ACM interna— tional conference on ifnormation and knowledge management. New York,NY,USA:ACM,2012:2025—2029. [6]Lichtenwaher R N,Lussier J T,Chawla N V.New perspectives and methods in link prediction[C]//Proceedings of the 16th ACM SIGKDD international conference on knowledge discov— cry and data mining.New York,NY,USA:ACM,2010:243— 252. [7] Sun Yizhou,Barber R,Gupta M,et a1.Co-author relationship prediction in heterogeneous bibliographic networks[C]//Proc of international conference on advances in social networks a— nalysis and mining.Washington,DC,USA:IEEE Computer Society,2011:121—128. [8] Ji Ming,Han Jiawei,Danilevsky M.Ranking-based classiifca・ tion of heterogeneous infomration networks[C]//Proceedings of the l7t}l ACM SIGKDD international conference on knowl— edge discovery and data mining.New York,NY,USA:ACM, 2011:1298-1306. [9] Sun Yizhou,Noifck B,Han Jiawei,et a1.Integrating meta-path selection with user-guided object clustering in heterogeneous ifnormation networks[C]//Proceedings of the 18th ACM SIGKDD international conference on knowledge discovery and data mining.New York,NY,USA:ACM,2012:1348-1356. [10]Davis D,Lichtenwaher R,Chawla N V.Multi-relational link prediction in heteorgeneous ifnormation networks[C]//Proc of 201 1 international eonference on advances in social networks naalysis and mining.Kaohsiung:[8.n.],201 1:281-288. [11]付允,牛文元,汪云林,等.科学学领域作者合作网络分 析一以《科研管理》(2004—2008)为例[J].科研管理,2009, 30(3):41-46. [12]荣先乾,覃桃.社会网络分析方法在图情领域合著关系 的实证研究[J].图书馆界,2010(1):1-5. [13]李亮,朱庆华.社会网络分析方法在合著分析中的实证 研究[J].情报科学,2008,26(4):549-555. [14]邱均平,李佳靓.基于社会网络分析的作者合作网络对比 研究一以《情报学报》,{JASIST}和《光子学报》为例[J].情 报杂志,2010,29(11):1—5. [15]张金柱.利用K—shel1分析合著网络中的作者传播影响力 [J].现代图书情报技术,2012,28(5):65-69.