龙源期刊网 http://www.qikan.com.cn
浅谈网络环境下的信息检索
作者:王燕红
来源:《湖北函授大学学报》2010年第04期
[摘要]本文介绍了在网络环境下信息检索的常用方法,分析常见的检索问题,并通过实例介绍了使用搜索引擎检索信息的方法和技巧,最后罗列了常见信息的检索工具。 [关键词]信息检索;搜索引擎;检索问题;技巧;检索工具
[中图分类号]G2 [文献标识码] A[文章编号]1671-5918(2010)04-0101-02 doi:10.3969/j.issn.1671-5918.2010.04.050[本刊网址]http://www.hbxb.net
随着计算机技术和网络通信技术的发展,internet已经发展成为世界上规模最大,资源最丰富的网络信息平台,为全球范围内快速传递信息、检索信息提供了有效手段。但是,internet的开放性不可避免地引发网络信息资源显现异构、分散和动态的特性,阻碍了人们对信息资源的开发和利用,从而使得网络环境下的信息检索面临新的挑战,为了有效地利用网络信息资源,下面就网络环境下的信息检索方法及其出现的问题作简单的介绍,并针对常见的检索问题提出相应的检索技巧。
一、网络环境下的信息检索的方法 (一)浏览
浏览是在Internet上发现、检索信息的原始方法。浏览一般是指超文本文件结构的信息浏览,即用户在阅读超文本文档时,利用文档中的超链接从一个网页转到另一个相关网页。这种检索方法获得的检索在很大程度上取决于网页所提供的链接,这种方式可以在很短的时间内获得大量相关信息,但也有可能在“顺链而行”中偏离了检索目标,或迷失于网络信息空间中。因此搜索的结果可能带有某种偶然性和不可预见性。 (二)利用目录型网络资源检索工具(新浪、搜狐等)
目录型网络资源检索工具,如 Yahoo等已是广为人知。它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上开发出的可供浏览和检索的网络资源主题指南,通常称为目录(Catalog),利用目录型网络资源检索工具检索是用户通过浏览其分类目录索引数据库,在目录体系上下位类的从属、并列等关系导引下层层递进,不断深入,随着目录类范围的缩小,查询的专指度逐步提高,最终使用户发现、检索到自己所需要的相关信息。目录型网络资源检索
龙源期刊网 http://www.qikan.com.cn
工具由于人工的干预提高了检索结果的相关性,但其数据库规模较小,检索到的信息资源数量有限,且其更新、维护的速度和周期受系统人员工作效率的制约。 (三)利用索引型网络资源检索工具(百度、谷歌等)
利用搜索引擎检索信息是较为常规、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。利用搜索引擎进行检索省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。 二、信息检索存在的普遍问题
搜索引擎是目前检索网络信息最常用的方法,一般针对网页信息。据CNNIC的调查,“用户得知新网站的主要途径”中,搜索引擎排在第一位,使用率为82.2%,而“用户经常使用的网络服务”中,搜索引擎排在第二位,使用率达到63.8%,仅次于电子邮箱的使用率。搜索引擎服务已成为我国网民使用最多的服务项目之一。但是绝大多数的用户在使用搜索引擎时多出现了以下问题: (一)长期使用某一两个搜索引擎或数据库
绝大多数用户习惯于长期使用某一两个最初接触到的搜索引擎或数据库。当前, 因特网上搜索引擎的数量日益增加, 且每一种搜索引擎其检索功能和搜索网罗度各不相同。而用户一般只习惯于一、两种搜索引擎的使用, 且大多数用户只满足于简单地使用, 输入单一的检索词或者自然语言,检索效果不佳。
(二)很少正确使用布尔运算符号和高级搜索语法
检索之前, 需编写一个既能表达用户信息需求, 又能为计算机所识别的检索提问式。提问式需要使用布尔逻辑运算符等将检索词进行组配, 准确地表达信息需求的内容, 而很多用户, 对布尔逻辑运算、高级检索技术及检索提问式的编写都一无所知, 他们不能正确运用字段检索和二次检索, 且只有极少数人能正确运用高级检索功能。 (三)粗略查看结果信息
通过搜索引擎查找到的信息通常有成百上千条,但是大多数的用户都没有耐心去一一点击查看,只是浏览前面的几条信息,这样就会漏掉许多有价值的信息。 三、信息检索技巧
(一)正确选择搜索引擎。目前搜索引擎非常多,人们熟悉的有百度、google,搜狐等,到底哪个搜索引擎方便检索呢?大部分人认为只是用一种搜索引擎解决所有的检索需求,其实这样的检索
龙源期刊网 http://www.qikan.com.cn
是不全面的。互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。所有我们要使用不同搜索引擎,用它们分别搜索到不同的内容。当需求很明确,能用很独特的、非常有区分性的关键词来描述,建议使用google、百度等通用搜索工具,结合精确查找语法及其他限定词或检索语法来搜索。我们只是想浏览一个比较宽范的主题推荐使用目录、专题网站、专题网页,如雅虎、搜狐。
(二)正确构造检索表达式。我们常用的搜索引擎多是基于关键字的搜索引擎,所有搜索时使用关键字构造检索表达式能得到较准确的搜索结果。检索表达式一般有:主题词、辅助词、外部特征三部分组成,主题词是表达某种明确概念的词。辅助词通常是没有单独意义、随主题各异的动词、数词、量词、代词、形容词等;外部特征主要有两部分:对词的外部特征。如位置、关系等;对网页的外部特征。如网页大小,域名,语言,时间,文件格式等。有意识地用“主+辅+外部限定”三种成分去分析搜索需求,设计检索串,会提高检索速度。例如以百度为例:查找国际象棋有几个棋子,可以设计检索串:国际象棋 个 棋子,检索结果直接就显示出来了,提高了检索速度,避免了二次查找。当然有时主题词可以单独成为检索串。1个检索串中至少有1个主题词也可以有多个,当按单个关键词搜索的结果可能不能满足要求,那么此时就可以用相关的关键词来检索,比如说,在输入“电脑”的同时,还要搜索有关“计算机”的内容才有可能保证搜索引擎的检全率。
(三)了解搜索引擎的语法规则,正确使用布尔运算符号和高级搜索语法。首先,要会使用诸如AND、OR、NOT这样的布尔逻辑操作符,在特定的情况下,比如要求特定单词是否包含在索引文档中时,正确使用“+”,“-”连接号,这种高级检索往往会带来更精确的搜索结果。在者,要学会使用高级搜索语法,很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,在普通的查询词后面,加一个“filetype”文档类型限定词,在其后跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。例如要搜索信息检索的课件,我们知道课件一般以PPT的格式存在,所以我们设计检索式:信息检索filetype:ppt, 检索结果即全为PPT格式的文档,点击即可下载,提高了检索速度。
(四)灵活使用搜索引擎的特色服务。各种搜索引擎有各自的搜索特色,如百度有拼音提示,错别字提示,英汉互译词典,股票、列车时刻表和飞机航班查询,天气查询,货币换算等特色搜索,我们进行相关问题搜索时使用相关的搜索,可提高我们的检索速度。如要进行一个数学计算式log((sin(5))^2)-3+ log10的计算,Windows 系统自带的计算器功能过于简陋,尤其是无法处理一个
龙源期刊网 http://www.qikan.com.cn
复杂计算式,而百度网页搜索内嵌的计算器功能,则能快速高效的解决您的计算需求。只需简单的在搜索框内输入计算式,回车即可。log((sin(5))^2)-3+log10 检索结果就一目了然。 四、常用信息的检索工具介绍
互联息资源的分类:《中国互联网络发展状况统计报告》中把互联息按内容分成: 新闻、计算机软件、休闲娱乐、生活服务、社会文化、电子书籍、科技教育、各类广告等22 类信息。下面就简单介绍几种常用信息的检索工具: (一)软件搜索
1.搜索软件吧 http://www.soft8.net/
自称中国首家专业软件搜索引擎,能轻松地找到几乎所有的软件和驱动。 数据量大,排序合理。可以“按名称”和“按名称或介绍”两种方式搜索软件。 2.海量软件搜索引擎http://www.digdig.com.cn/
由海量科技研发的软件搜索引擎,该搜索引擎集中了互联网上的大多数 软件下载资源,完整、系统地向用户提供常用软件的档案及下载服务。 (二)生活服务搜索
Google 生活搜索http://www.google.cn/shenghuo/
Google生活搜索可以帮您方便地寻找您身边的分类生活信息。目前,可以搜索的信息包括房屋租售、工作机会、火车票、物品交易和餐饮等。 爱帮生活搜索http://www.aibang.com
爱帮围绕着不同地域不 同圈子的不同生活需求,用强大信息搜索技术聚合了海量的生活信息,从吃喝玩乐、衣食住行,到医疗教育、健身休闲,生活所需信息一应俱全。 (三)电子书籍
1.网络中国电子图书搜索引擎http://book.httpcn.com/search/
提供数万本电子图书(E书)免费下载.分为综合类、科教类、小说类三大类,每个大类下又分为若干小类别。搜索方式包括书名和作者 二种。 2.百度图书搜索http://book.baidu.com/
龙源期刊网 http://www.qikan.com.cn
百度图书搜索是百度与众多图书行业合作伙伴合作建立的图书信息查询平台,帮助您轻松查找各类图书相关的信息。 (四)学术信息搜索
1.Google学术搜索http://scholar.google.com
Google学术搜索是一项免费服务,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。信息来源包括万方数据资源系统,维普资讯,主要大学发表的学术期刊、公开的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。 2.百度国学搜索http://guoxue.baidu.com/
百度国学搜索 是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,为传播中华古代文明和国学研究提供使用的便利。目前已经有10多万网页,1.4亿字。收录大部分上起先秦、下至清末两千多年的以汉字为载体的历代典籍。
参考文献:
[1]孙成福.网络搜索引擎的技巧与使用[J].福建电脑,2008,(2):180.
[2]魏力更.高校网络用户信息需求与信息行为研究[J].情报资料工作,2005,(5):103~105. [3]何慧英.网络搜索引擎的技巧与使用[J].江西化工,2004,(9):49~51.