SCI-TECH INFORMATION DEVELOPMENT&ECONOMY 201 1年第21卷第2l期 文章编号:1005—6033(2011)21—0123-03 收稿日期:20110-5—30 基于用户兴趣模型的高校新I司息推送模式研究 李学静,杨家权,庞歆 (重庆大学经济与工商管理学院,重庆,400030) 摘要:以高校新闻息推送为研究对象,在学习和掌握国内外先进的信息推送技 术及其应用的基础上,结合国内高校新闻网站信息的特点,提出了一个用户过滤和文 本内容过滤相结合的高校新闻息推送模式,为用户提供主动信. ̄-)Jt务。 关键词:高校新闻网;信息推送;权重设置;兴趣模型 中图分类号:G252 文献标识码:A 随着信息技术的高速发展,互联息量剧增,互联网正 (4)处理近义词。 逐渐成为学生和老师获取信息的主要渠道。据调查,59.7%的学 (5)归一化。 生日常信息主要是通过网络获取的【“。高校新闻网作为高校师 (6)截取关键词,形成关键词集A=l口l,口2,…,%}。 生获取信息的重要渠道之一,肩负着用社会主义核心价值体系 一般情况下,关键词越多越能精确代表文本本身,但是随着 引领社会思潮,传播主流意识形态和价值观念,传播先进文化, 互联息爆炸,Web文本急剧增多,提取的关键词规模巨大。 弘扬时代主旋律,加强高校网络思想政治教育,促进师生精神文 过多的关键词将极大地影响计算机的工作效率,因此需要从原 化生活健康发展的重任。研究如何利用先进的推送技术,积极主 始的关键词集中提取最具代表性的关键词集,减少关键词集的 动地推送高校新闻息,提高新闻网的信息传播效率具有重 规模。通过对Web文本中出现的关键词at的频率和含有关键词 要意义。 嘶的文本在所有Web文本中的比重分别设置阀值,能有效地精 信息推送技术最先由美国PointCast Network公司于1996年 简关键词集。 提出,旨在提高基于计算机网络的信息获取效率C 2]。信息推送技 1.2关键词权重设置 术通过了解用户的需求,实现信息提供者向信息需求者自动提 在Web文本中,每个关键词的重要程度是不同的,因此将 供信息的功能。将信息推送技术和与传统的信息检索技术进行 Web文本表示为关键词及其权重的结构形式,将更有效地表示 传输时间对比,信息推送技术传输信息效率更高C 。虽然信息推 Web文本本身。关键词权重计算可以采用TF*IDF权重公式[6]。 送技术在电子商务领域得到了成功的应用,但是由于目前高校 (。,d): 坠 (1) 新闻网与普通电子商务网站在运行机制上存在一定的区别,将 信息推送技术应用于高校新闻息服务领域的案例还不多。 1’dEd /∑CTF(,a,d)xlog(N/no+0.01)] 本文将在此方面展开讨论。 在式(1)中,le(a,d)为关键词a在Web文本d中的权重;TF (口,d)为口在web文本d中的词频;log(N/n.+0.01)为关键词口在 1权重分析设置 文本集中分布情况的量化,衡量关键词n在文本集中出现的频 新闻网原始信息属于自然语言,基于自然语言实现信息的自 繁程度,Ⅳ为文本总数, 是出现该关键词的文本数;万/k丐rrt为归一 动推送非常困难。所以在实施信息推送前需要对新闻息进行 化分子,对文本向量的各个分量进行标准化。 结构化处理,通过捕捉文件中不同索引词或关键字之间的关系对 在设置Web页面中关键词权重时,除了考虑关键词的词频 Web文档进行自动分类[4】。将承载信息的新闻网网页用关键词及 外,关键词在Web页面中出现的位置及其表现形式也能够非常 其权重的方式表示,进而计算出新闻网中各个网页的权重。 好地体现其重要性,例如,如果关键词出现的标题中就能很好地 1.1关键词提取 体现其主题[7],因此应该对TF*IDF公式获取的关键词权重进行 目前大部分的关键词提取技术都是基于统计学的方法获 必要的修正。假设描述关键词位置、大小等显示特点的标签数量 得,一般而言,提取步骤包括6个部分 ]。 为r,标签的权重计为c (i=1,2,…,r)。对式(1)进行必要的修 (1)去掉Web文本中的系词、前置词、冠词、代词等词,将形 正,修正的公式如下所示: 容词或副词与其修饰的词结合在一起当作一个复合词。 ( ): 一 (2)对Web文本中出现的词进行统计。 、/∑[TF(as,P )xlos(mn.+O_01)] (3)处理同义词或转义词。 123 李学静,扬家权,庞歆基于用户兴趣模型的高校新闻息推送模式研究 本刊E—mail:bjb@sxinfo.net 信息工作研究 /L8 q (2) p 、 × I J 在式(2)中,∑ ∑ C — (吩,C P )为关键词吩在Web页面P 中的权重;曰 (aj,P )是一个布尔函数,当关键词q被识别到具有显示特点的标 签时,曰(q,P )为1,否则为0;L是某一个Web页面中关键词ai 的所有描述显示特点的标签集合。 1.3网页权重设置 从每位用户访问新闻网主页开始到点击新闻网其他网页, 最后离开网页期间所浏览的网页组成了一位用户的浏览网页集 合K=(p。,P ,…,p ),由所有用户的浏览行为又共同产生了一个 总的用户浏览页面集合r--(k。,k ,…,kn)。结合式(2)中每个网页 中关键词的权重计算 集合中网页P 的权重,计算公式如下㈨: ∑∑ (吩,P.) X=W(pf,k )= l E 1 (3) ∑∑ (q,p) P Er j=i 在式(3)中,X=W(p ,k )为一位用户浏览的某一个网站在他 所浏览的所有网页中的权重; (吩,P )为关键词吩在Web页面p。 中的权重。 2基于用户兴趣模型的信息推送模式 本文将用户浏览的信息内容与用户浏览行为分析相结合, 提炼出用户的兴趣模型,然后通过比较用户兴趣相似度的方法。 为新闻网在线用户制定网页信息推荐集。用户信息推荐集的形 成过程见图1。 Web 13志l I新闻网网页l lWeb 13志 数据预处理 I数据预处理 l数据预处理 用 结构化表示 l为I I 面磊 : 蚤 三 兰 用户n浏览行为 结构化表示 信息内容分析与用户 信息内容分析与用户 浏览行为分析相结合 浏览行为分析相结合 用户兴趣模型1 l I用户兴趣模型n l余弦公式分析、设置阀值 l 信息推荐集 图1用户信息推荐集的形成过程 2.1用户兴趣模型 用户兴趣模型的建立主要有两种方法,一种是基于显性的方 式获取用户的兴趣模型,一种是基于隐性的方式获取用户的兴趣 模型。显性的方式直接与用户进行互动,通过用户对所浏览的信 息进行打分,收集用户对信息的评价【引。这种方式较容易实现,但 是这种方式需要用户的直接互动,容易干扰用户正常的信息浏览, 引起用户的反感。随着技术的发展,基于网络日志的用户兴趣模 型构建的提出实现了用户兴趣模型的隐性获取 。本文就是采用 124 隐性的方式对Web日志进行挖掘,发现用户的兴趣模型。 通过对服务器日志和客户端日志的挖掘,可以得到用户进 入网站的浏览行为中的平均浏览时间A.、拉动滚动条的次数A 、 重复访问同一页面的次数A 、访问的统一关键词的次数,4 、点击 链接的次数A 、将页面保存于书签中的次数A 以及打印的次数 A,,通过熵权法确定各种行为相应的权值W 、W:、W,、W 、W,、W 、W , 并以此来描述用户的兴趣度。 用户在浏览一个网页的时候,同时也就提取了这个网页关 键词结构,结合用户浏览行为就可以制定和修正某一个体用户 的浏览网页集合K 以及其中的每个单独网页的权重 形成用 户的兴趣模型。 ∑∑ (吩,P ) ∑W X = (p ,k。 )= ∑∑ (q,p) ∑W (4 P Er卢l 在式(4)中,m是用户浏览某一个网页过程中所包含的浏览 行为A。 ̄A 的个数。 2.2信息推荐集的形成 在获取用户兴趣模型的基础上,通过余弦定理计算它们之 间的相似性,进而设置一定的阀值来产生基于用户兴趣模型的 信息推荐集。基于某一具体用户兴趣模型的浏览页面集合 与 其他用户的浏览页面集合K之间的相似度计算公式如下: ∑W(p—k)xW(p |I} ) cos(k ̄,k )=— — ———-二_二————一 (5) 1V/ ∑t1 w(p , 。)] ×∑ti=1 W(p )] 对cos(k ,k )设置一定的阀值,低于这个阀值的用户将被过 滤。然后再计算大于这个阀值的用户浏览的网页集中,每个网页 的推荐值计算公式如下: Score=W(p ,k1)xcos(ki,k{ ) (6) 由于同一个网页可能出现在不同的用户浏览集合中,因此 相同的网页将根据网页推荐值最大进行推荐,这样就能在大于 cos(k ,k )阀值的用户浏览集中产生一个和访问用户兴趣相似的 信息推荐集。 3结语 本文以提高高校新闻息传播效率为目的,将信息推送 技术引入高校新闻息推送研究中。通过用户浏览的网页内 容与用户兴趣分析相结合,设置关键词权重和网页权重,将用户 浏览的信息内容与用户浏览行为分析相结合,提炼出用户的兴 趣模型,然后通过比较用户兴趣相似度的方法,提出了基于兴趣 模型的高校新闻息推送模式,为网络用户提供信息推荐集, 为读者提供主动的信息推送服务,充分发挥新闻网思想教育阵 地的作用。 参考文献 [1]柳翔.大学生信息素养状况与提升[J].情报探索,2009(1): SCI—TECH INFORMATION DEVELOPMENT&ECONOMY 文章编号:1005—6033(2011)21—0125—04 201 1年第2l卷第21期 试论EDP理念在高 校信息 管理中的应用 收稿日期:2011—O5—26 孙劲松 (浙江大学教育学院,浙江杭州,310028) 摘要:针对高校电子信息系统建设中普遍存在的管理盲点,尝试引进国际大型企业 EDP部门的管理理念,以分析目前高校信息管理存在的问题及解决方案。 关键词:高校;EDP理念;信息管理 中图分类号:G647 文献标识码:A 进人2l世纪以来,随着计算机技术的高速发展,我国所有 辅单位也热火朝天地建设二级计算机管理系统,纷纷添置个人 电脑、服务器、存储及备份设备,采购与本院系专业对口的专用 高校都把信息技术作为解决办学规模日益扩大所带来管理问题 的首选利器,都在建设、完善电子信息管理系统,并在这方面持 续投入了大量的人力物力,借此把全校所有业务活动都联系起 来。高校大量购置和更新IT设备,构建校园网络,采购和自建名 目繁多的各类数据库系统。除高校本部以外,下属院系和行政教 31-33. 数据库资源。与此同时,管理团队建设陆续跟进,聘用电脑应用 人才,组建电子信息操作队伍,成立校园网络管理中心。有些大 学还把图书馆和网络中心合并扩大为信息中心,如浙江大学。至 此电子信息系统已现雏形,学校师生通过高校信息系统在信息 [7]凌云,刘军,王勋.多层次Web文本分类[J].情报学报, 2005(6):684—689. [2]张月天,邬伟,曾欣当前互联网几种信息推送技术及其评 析[J].云南农业大学学报,2009,3(2):116—120. 13]Mine Ca ar,Oznur Ozkasap.A Chain-Binomial Model for Pull [8]易明.基于Web挖掘的个性化信息推荐[MJ.北京:科学出 版社,2010:95—106. [9]Chen-Tung Chen,Wei-Shen Tai.An information push--delivery system design for personal information service on the Internet【JJ. and Push—Based Information Difusion[C].Communications,ICC’06, IEEE International Conference on,20061909—914. 14] Chooehaa Harueehaiyasak,Mei-Ling Shyu,Shu-Ching Chen,et a1.Web Document Clssiaicatifon Based on Fuzzy Information Processing&Management,2003,39(6):873-888. [10]杨学明.基于本体学习的个性化网页推荐[J].情报杂志, 2009,28(3):171—175. Assoeiafion [C].compsac,26th Annual International Computer Software and Applications Conference,2002:487. (责任编辑:李敏) [5]何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类 [J].中文信息学报,1998,13(1):9—15. [6]陈晓云.文本挖掘若干关键技术研究[D].上海:复旦大学, 2O05. 第一作者简介:李学静,女,1966年生,2008年毕业于重庆 大学机械工程学院管理科学与工程专业(博士),研究员,重庆大 学经济与工商管理学院,重庆市沙坪坝区,400030. Study on the Information Push Mode of University Campus News Network Based on User’S Interest Model LI Xue-jing,YANG Jia-quan,PANG Xin ABSTRACT:Taking the information push of university campus news network as the research object,and based on learning and mastering the application of domestic and foreign advanced ifornmation push technologies,and connecting with the features of the ifornmation of domestic university campus news network,this paper puts forward a university campus news network’S iformatnion push mode th the combination of user filtering and text content filtering for providing active information service for users. KEY WORDS:university campus news network;ifornmation push;weight setting;interest model 125