关于作者

姓名:

性别:其他

出生日期:--

地区:

联系电话:

QQ:--

婚否:保密
用户名:邢志宇
笔名:邢志宇
地区:
行业:其他

日历  

快速登录

+ 用户名:
+ 密 码:

在线留言



搜索引擎

搜索技巧

搜索引擎Blog

访问统计:
文章个数:72
评论个数:141
留言条数:21




Powered by BlogDriver 2.1

网海扁舟

 

文章

人物信息的网络检索途径与方法

人物信息的网络检索途径与方法

邢志宇

(许昌市图书馆 河南 许昌 461000

 

关键词:人物信息检索 网络检索 检索途径与方法

  :通过实例介绍了网页搜索、专用搜索引擎、传记网站、百科全书网站、人物资料数据库、网络传记辞典等六种人物信息网络检索的主流途径,以及相应的检索方法和相关资源的调查方法。

 

人物信息是关于人的信息,是在社会生活生活中产生和被广泛利用的一种信息,它即可以是诸如姓名、性别、职业、出生年月、从业单位等简单的身份确认信息,也包括较为详细的生平或传记资料。互联网诞生之前,人物信息的检索主要使用相关的工具书,或通过论文著者索引和图书馆著者目录等展转查找,由于工具书和其他印刷型检索工具的出版周期和时滞性限制,人物信息的传播时空较小,检索利用极为不便。随着互联网的产生与普及,信息的产生、传播和利用呈指数增长,以网络为载体的人物信息空前丰富,其检索利用也更加快捷和方便。然而,在浩瀚的网络信息中,人物信息仅为沧海一粟,且类型多样分散难觅,只有了解其分布规律,借助一定的工具,选择适当的途径,采用相应的方法才能进行有效的搜寻和检索。

一、网页搜索

    网页搜索(web search)是利用搜索引擎的网页搜索功能查找一般网页中的人物信息,适用于公众人物、知名人士或新闻人物、成功人士、专栏作家等简单身份信息的查找。网页搜索是搜索引擎的主要和常用的功能,不同的搜索引擎对网页索引的深度与范围不同,收录网页的文种和数量各异,适用的逻辑算法、搜索语法和对关键词的规定等亦各有差别,因此有效的网页人物信息搜索,要求对搜索引擎有较为全面的了解,掌握相应的检索方法和技巧。就关键词的选取而言,单纯的人名(主题关键词)搜索往往检准率较低,必须附以必要的 “特征关键词”或限定性搜索语法才能收到事半功倍的效果。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的名词、量词、形容词等进一步说明限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。

    GOOGLE网页搜索为例,查找俄罗斯总统普京的个人信息,仅用“俄罗斯总统普京”或“普京”搜索,返回的结果数以十万计,且前三页无适用结果,而附以特征关键词“简历”或“档案”搜索,结果首页的首项即可满足检索需要,以“普京 身高”为检索式搜索,还可以获得官方资料不载的罕见信息。

又如查找第十一世班禅额尔德尼•确吉杰布的出生年月和认定、坐床经历的资料,使用限定性搜索语法“intitle:”(仅在限定的网页标题中搜索)构建检索式“intitle:额尔德尼•确吉杰布 出生”,可以明显而有效地缩小检索范围(仅返回28项结果),且首页检索结果大多都满足要求。

    查找一般网页中的人物信息,要注意“特征关键词”的斟酌和选用,通常多使用“籍贯”、“出生”、“毕业”、“简历”、“档案”或行业名称、职务称谓等描述性词语进行限定性搜索。例如,在网页搜索中出现同姓名过多且结果数量太大的情况下,只有附加如“图书馆”、“副研究馆员”等特征关键词,才能在众多相同姓名的搜索结果中快速找到特定人物的信息。

二、专用搜索引擎

    顾名思义,专用搜索引擎(special search engine)是专门用于搜索某一方面信息的搜索引擎。查找网络人物资料的搜索引擎主要有个人信息搜索引擎(people search engine)、电话号码搜索引擎(phonenumber search engine)、EMAIL搜索引擎(email search engine)、黄页、白页搜索引擎(Yellow&White Pages search engine)、公众信息搜索引擎(public record search engine)等类型。此类网络检索工具国内尚不多见且功能难如人意,而在欧美国家则十分流行,从yahoo 的“Phone Numbers and Addresses”、“ Background Verification”目录和 about的“Free People Search - Use the Web for a Free People Search”等目录可见一斑,用“people Search”搜索更是多不胜数。其中,查找美国个人信息常用Yahoo! People Searchhttp://people.yahoo.com/)、Lycos People Searchhttp://www.whowhere.com/)、People Searchhttp://www.peoplesearch.com/)等搜索引擎,这些搜索引擎功能强大信息详尽,包括了姓名、性别、年龄、住址、电话号码、EMAIL、信用与犯罪记录,以及广泛的“背景”资料等等。而Find a Person & Email Searchhttp://person.langenberg.com/)则是一个极为实用的人物信息集成搜索引擎(All-in-One Search Page),它在同一页面提供Whowhere/Lycos Phonebook Search)、Zoom InfoPerson Finder)、Google-DejaPeople Who Posted on Usenet)、YahooPerson-EMail Search)、BigFootPerson-EMail Search)、x10/Find a GraveFamous Person Grave Finder)等15个专用搜索引擎的检索入口,并超链接至源搜索引擎的主页,是查找国外人物信息的便捷工具。

    国内较有影响的人物搜索引擎有Ucloo搜人(http://www.ucloo.com/)和搜狗人物搜索(http://people.sogou.com/)、搜人(http://www.sooren.cn/)等,由于技术原因后两个搜索引擎已经停止运行。Ucloo搜人号称“全球最大的中文搜人引擎”,它使用自动索引技术,从网络资源(包括网站、出版物、电子文书等)中收集和分析与人物有关的信息,其独特的算法使搜索器能在极短的时间内收集到最大数量的信息并进行分析匹配、归类和及时的更新。查找诸如联系方法, 个人简历, 教育工作背景, 个人照片, 网上口碑, 评价评分, 留言等极为方便快捷。

    国内虽少有人物信息专用搜索引擎,但借助诸如新闻搜索引擎、百度图书搜索(http://book.baidu.com/)和百度国学搜索(http://guoxue.baidu.com/)等其他专用搜索引擎,也可以在一定程度上查找某些到方面的人物信息。例如利用新闻搜索引擎可以查找新闻人物的简介、动态信息和背景资料,百度图书搜索的“简介”较为详细,尤其传记类图书多有传主的事迹或生平介绍,百度国学搜索查找历史人物快捷方便且资料详实可靠。

三、传记网站

传记网站是查找人物信息的主要网络资源。综观网络资源,人物生平和传记资料数量庞大、广为分散、不胜枚数,但按主题或分类建立的高质量的群传网站却相对较少,系统而完备的中文传记网站与英文相比更是少而又少。利用传记网站查找人物资料,首先要掌握人物姓名的正确书写或拼写形式以及人物的大致定位,查找历史人物和著名人物首选综合性传记网站,查找现代人物和某领域、学科的知名人士多使用专科性传记网站。

1、古今中外人物(http://www.1-123.com/index1.asp

    按时代和学科分为远古、夏商周、秦汉、魏晋南北朝、隋唐五代、宋朝、元朝、明朝、清朝、政治、军事、经济、科教、哲学、宗教、文学、艺术、其他等18类,介绍近2000位中外名人,资料来源于网络文献,除按时代和学科检索外,其“古代人物索引”、“现代人物索引”、“外国人物索引”还提供人名音序检索。   

2、文化人物(http://www.shtvu.edu.cn/ccwindows/page/renwu.htm

上海电视大学《中国传统文化》的人物专栏,分为医学人物、哲学人物、文学人物(先秦两汉作家、魏晋作家、南北朝作家、隋唐五代作家、宋代文学家、辽金作家、元代作家、明代作家、清代及近代作家)、美术家、神仙人物、史学人物、古代语文学家、古代宗教人物、古代经学家、古代科学家、二十世纪文化人物等11类,介绍人物近千名,可分类查找或以人名检索。

3Biography.comhttp://www.biography.com/

从古至今的25,000位杰出人物传记,所有资料来自《剑桥百科全书》数据库、《美国传记剑桥词典》和《A&E传记》,可按姓名和关键词检索,也可按姓名字顺浏览查找。

4Biographical Dictionaryhttp://www.s9.com/biography/

收录了古今28,000多位杰出人物的传记,提供生年、卒年、身份、职业、文学和艺术作品、成就、以及其它关键字等多种检索途径。

5Biography Centerhttp://www.biography-center.com/

多语种传记索引,收录了27,867位人物的传记资料,其中英文传记10,989篇,按姓名字顺查找,也可分语种进行关键词检索。

6infoplease.com: Biographyhttp://www.infoplease.com/people.html

按姓名、职业、学科或地区分类检索全世界30,000多位古今新闻人物的传记,资料来源于哥伦比亚百科全书、Infoplease词典和Infoplease年鉴。

7Catalog of the Scientific Community: 16th and 17th Centuries

http://galileo.rice.edu/lib/catalog.html

收录1473年至1680年出生的近千位科学家的详细生平资料,数据库检索功能完善,可从生平资料的20个方面进行检索。

8The Nobel Prize Internet Archivehttp://nobelprizes.com/nobel/nobel.html

历年诺贝尔奖得主介绍,包括主要成就、出生日期、教育背景、联系地址、E-MAIL、著述和相关资源链接,可按学科查找和关键词快速检索。

9the American Presidencyhttp://ap.grolier.com/

历届美国总统、付总统、第一夫人传记,按届别检索,按资料来源分别查看。

10The largest guide to posthumoushttp://amillionlives.com/

已故名人传记,收录美国、加拿大、澳大利亚、西班牙、新西兰、拉丁美洲数千位已故名人传记资料,按姓名字顺,或地区、行业等分类检索,并有大量传记站点链接,由于资料多、分类细,检索前须阅读“How to Use this Site”。

调查和了解传记网站是利用其查找人物资料的前提,我们可通过搜狗(http://www.sogou.com/dir/)、YAHOOhttp://search.yahoo.com/dir)、ABOUThttp://www.about.com/)等分类搜索引擎、Librarians' Index to the Internethttp://lii.org/)、Infominehttp://infomine.ucr.edu/)等图书馆员编制的参考工具和传记网站链接等三种主要途径掌握传记资源的分布,对传记网站进行选择和利用。应当注意的是,使用分类搜索引擎查找传记网站需要对其类目设置有充分的了解,如在搜狗“目录”中,综合性“传记”网站列目于“文学>纪实文学>人物传记”和“文学>纪实文学>人物传记>名人传记”类下,各学科人物和地方名人相关网站则分散在“社会科学>哲学>中国哲学>儒家”、“科学技术>科技信息/服务>人物>生物/医学家”、“政法军事>军事>军事人物”、“社会文化>人物>中国各地人物”等数十个类目之中;YAHOO的“Directory > Society and Culture > People > Biographies”类下仅列举综合性传记网站,各国、各时期、各学科和个人传记资源则分散在相关类目之中。使用参考工具网站要首先阅读其“About”,了解收录内容范围、编制体例、更新频率和检索功能等,力求用适当的检索入口和准确的关键词高质量地检索适需资源。如Librarians' Index to the Internet包括14,000多个网站的主题目录,提供分类和关键词两种检索入口,关键词检索检索可进行“all fields(在所有类目中检索)”、“Title(在标题中检索)”、“URL(在网址中检索)”、“Description(在资源描述中检索)”等检索范围设置,检索式支持逻辑运算符,用“关键词and databases”构建检索式可以检出较多的一般网络搜索难寻的深层网络结构(deep Web structure)中的罕见资源。  

四、百科全书网站

    百科全书是知识密集型的治学工具,包含着大量的人物资料,以网络为载体的百科全书是查找人物信息便捷而有效的途径。

1、中华百科全书(http://living.pccu.edu.tw/chinese/index.asp

中华百科全书是多位专家学者参与编制的百科全书,分为38个类别、10,525个档案,内容丰富,图文并茂,其中“传记”类几乎囊括了中国古、近、现代名人且资料详实,按“部别”检索。

2、维基百科(http://zh.wikipedia.org/[中文])、(http://wikipedia.org/[英文]

包含200多种语言7百万篇文章的百科全书。维基百科200210月推出中文版,查找人物信息用人名作为关键词一检即得。由于它是任何人都可以参与编辑的开放性百科全书,其中文版的条目管理多受指摘,网站时常被封。

3Encyclopedia Britannicahttp://www.britannica.com/

《不列颠百科全书》网络版,包括《不列颠百科全书》、《简明不列颠百科全书》和《韦氏词典》三部分,1994年正式发布,是互联网上第一部百科全书,可检索词条达到98,000多个可链接的优秀网站200,000多个。提供关键词、字顺索引、主题分类索引等多种检索方法。

4Encyclopedia.comhttp://www.encyclopedia.com/

提供《简明哥伦比亚电子百科全书》2001年第650,000多篇文章的全文检索,每篇文章均有相关链接,以人名为关键词可以检索所有收录文章中人物资料。

5Information Pleasehttp://www.infoplease.com/

提供主题广泛的数百万个事实查询,“Encyclopedia”可以检索《哥伦比亚百科全书》(第六版)57,000多篇文章,“Dictionary”可以查询125,000多词条,均可用于人物检索。

6Encyclopedia Smithsonianhttp://www.si.edu/resource/faq/start.htm

《史密森百科全书》由咨询解答档案汇编而成,所有内容按主题组织,按字顺查找,每一主题下都有多个相同主题资源链接,以对该主题进行全面阐释。

7Encyclopedia of British History: 1500-1980

http://www.spartacus.schoolnet.co.uk/industry.html

研究1500-1980年英国历史最好的资源,目前已有2,000多条目,并在不断增加之中。每一词条都包括故事、插图、背景资料和参考书目等,按事件或年代检索,是查找该国该时期著名人物的首选工具。

8Encyclopedia of the orienthttp://i-cias.com/e.o/index.htm

东方百科全书,是有关北非和中东国家的唯一一部网络百科全书,收集了从北非西北部古国毛里塔尼亚到东部的伊朗,从北部的土耳其到南部的苏丹之间的所有国家的文化信息。

9Encyclopedia Mythicahttp://www.pantheon.org/mythica.html

神话、民俗和传说百科全书,收录文章6,800多篇,神话按非洲、美洲、亚洲、欧洲、中东、大洋洲等地区分类,民俗部分包括一般的民间风俗、亚瑟王的传奇、希腊英雄传奇和很多国家的迷人的民间故事,另有动物寓言、传奇英雄、神话人物画廊、神话人物一览表等专题栏目。按地区、关键词或栏目检索。

10The WWW Virtual Libraryhttp://home.istar.ca/~obyrne/ency.html

网络虚拟图书馆的参考资源,介绍并链接了24种综合与专科百科全书。

查找网络百科全书资源主要采用分类搜索引擎、图书馆员编制的参考工具和传记网站链接等方法。

五、人物资料数据库

    人物资料数据库是有关机构或个人为特定目的编制的专门用于人物资料检索的事实型数据库。数据库是可供计算机快速检索的、有组织的、可共享的数据集合。就查找人物资料而言,利用数据库是最为简捷和有效的途径。

1、地方志人物传记索引数据库(http://www.nlc.gov.cn/newpages/database/dfzrw.htm

国家图书馆编制,提供1949年以后新编地方志中所见人物的姓名、性别、民族、生活朝代、生卒年、字、号、别名、籍贯、身份类别及本条资料出处等方面的信息检索。现有数据量3.2万余条,年增数据量1万条。

2、台湾人物志资料库(http://tbmc.infolinker.com.tw/whos2app/servlet/whois?simplegenso

摘取18951945台湾各种官方及民间发行的报纸、期刊和书籍中的各种记事编辑而成的综合性大事年表资料库,其中收录的材料来源超过50种,总条目数更高达50,000笔以上。

3、中国人物库(http://www.bjinfobank.com/IrisBin/Select.dll?Special?db=RW

中国资讯行编制,数据库提供详尽的中国主要政治人物, 工业家, 银行家, 企业家, 科学家以及其他著名人物的简历及有关的资料,其内容主要根据对中国八百多种公开发行刊物的搜集而生成。

4、中国科学家门户(http://www.cqvip.com/zuozhekj/

维普资讯依靠其强大的文献数据库摘去论文作者信息而编制,提供详细的分科浏览查找和多字段检索,个人条目下不但有姓名、所在机构、主要研究方向、个人专长、社会职务、出生年月等简要信息,还有收录在维普数据库中的“已发表论文”目录。

5、人民数据——中国共产党重要事件、人物库(http://data.people.com.cn/111.jsp

由人民日报社网络中心(人民网)与金报电子出版中心联合编辑制作,资料来源于人民网丰富的新闻资源,内容权威、可靠,检索方便,需注册使用。

6、搜狐经济人物库(http://business.sohu.com/7/0304/57/column219615768.shtml

    设有人物库分类导航(官员、经济学家、企业家、经理人、国际人物、经济传媒人、业界人士、专栏作家),提供分类浏览、姓名拼音字顺查找和关键词快速检索。

7TOM人物库(http://tech.tom.com/figure/index.html

主要介绍IT业人士,分为互联网行业、电信.手机行业、PC.硬件行业、软件行业等栏目,以网页形式按姓名浏览查找。

8、湖南人物库(http://hncd.hnu.cn:81/

   介绍古今湖南籍人物近千人,以时代分为古代人物、近现代人物和当代人物,其下多重列类详子目,在方便逐级浏览的同时,还提供关键词快速检索和高级检索。

数据库属普通搜索引擎的“蜘蛛”程序不易抓取的“深层网络”(deep Web)中的“不见网页”(The Invisible Web),查找起来有一定的难度。就国内人物资料数据库而言,除了上述介绍的之外,各省、市、自治区图书馆网站大多提供根据地方志编制的人物资料数据库的免费利用,一些国家级学术机构(如中国科学院等)网站、行业网站(如中国国防资讯网等)和高校(如武汉大学)网站等也多设置人物专栏或挂接自编人物资料数据库。据此,我们可以从地域、学科或机构等途径查找在网络中高度分散的适合自己需要的人物资料数据库,进而利用其检索具体的人物信息。

查找国外的人物资料数据库,除上述方法外,可以利用专门的查询工具,如:已介绍过的Librarians' Index to the Internet( http://lii.org/),还有About.com ( http://www.about.com/) ,其查询主题数以万计,包括众多“Invisible Web”资源,以关键词“Invisible Web”检索,可以找到很多诸如:“Invisible Web: The Cloaked Internet”(“看不见的网页”:被掩盖的网络资源)等隐藏网页的链接,常用来作为查找人物资料数据库的指南。更广泛的人物资料数据库调查,可以利用The Invisible Web Directory ( http://www.invisible-web.net/),它是《看不见的网页》(The Invisible Web: Uncovering Information Sources Search Engines Can't See 一书的作者Chris Sherman Gary Price创办的专门用于指导检索Invisible Web资源的网站,网站的宗旨是“寻找搜索引擎无法找到的隐藏的网络资源”(Finding Hidden Internet Resources Search Engines Can't See)。

六、网络传记辞典

传记辞典由来已久种类繁多,近年来随着网络的飞速发展,可在线阅读的传记辞典不断增多,其中英文传记辞典最为人称道。例如我们可以在dmozhttp://www.dmoz.org/)中检出47biographical dictionary(传记辞典)、YAHOODirectory”( http://search.yahoo.com/dir)中列举了97类与“"Biographical Dictionary"”(英文双引号为短语精确匹配)相关类目、liihttp://lii.org/)推荐了2431Biographical Dictionary等等。我们可以通过搜索引擎对传记辞典的数量有一个大致的了解,并利用搜索结果选择适合自己需要的网络传记辞典。

使用网络传记辞典前,需要认真阅读其简介或编制说明,了解其创制时间、资料收录种类和时限、学科或地域范围,以及检索入口、检索式要求等等,如Biographical Dictionaryhttp://www.s9.com/1997年上线,收录33000多位世界范围内从古至今的著名人物,可以用姓名、出生与去世日期、职位、职业、学术成就等作为关键词进行检索;4,000 years of women in sciencehttp://www.astr.ua.edu/4000ws/4000WS.html)可从姓名字顺和历史时期两中途径查找全世界4000年来的女性科学家的生平资料,而其图像资料则学要从“Photographs”中检索。

查找人物信息及其详细资料的途径多样方法各异,除上述主流途径和常用方法外,我们还可以利用论文数据库收录的论文多有作者姓名、性别、职称、单位、学术简介,同学录提供省市、学校、班级、姓名、性别、年龄等信息,博客展示个人多方面的动态信息的特性,获得简要的用于确认身份的个人信息。此外,还可以利用网页搜索引擎,以“XX人物(或名人”(XX为地区、学科或历史时期称谓,如“河南人物”、“河南名人”、“ IT名人”、“历史人物”、“三国人物”等)、“**传记”(**GOOGLE通配符)等为关键词搜索出许多有关人物信息的网页和检索工具。再则,利用搜索引擎的互动问答平台,如百度知道(http://zhidao.baidu.com/)、雅虎知识堂(http://ks.cn.yahoo.com/)、YAHOO奇摩知识+http://tw.knowledge.yahoo.com/)、爱问知识人(http://iask.sina.com.cn/)、YAHOO ANSWERhttp://answers.yahoo.com/)等的“搜索答案/知识”、“search answer”(即查询已解答过的问题)功能,也是查找人物信息不可忽视的有效捷径。

我们应清楚地意识到,查找人物信息有不同的要求和目的,应根据具体的查询需求利用不同的工具,选择不同的途径和方法。“工欲善其事,必先利其器”,只有了解网络人物信息资源的分布规律,掌握基本的检索途径和主要的查找方法,才能有的放矢,一矢中的,一检即得。

 

参考文献

1/span>、邢志宇.网络搜索中的检索式及其构建.科技情报开发与经济,200717):94-95

2、蔡绍莹.事实型数据库初探.情报学报.19905):360-370

(该文已在《河南图书馆学刊》2008年第二期发表)

 

- 作者: 邢志宇 2008年05月27日, 星期二 07:03  回复(1) |  引用(0) 加入博采

搜索结果的评价

邢志宇

     搜索结果评价是对搜索结果价值的评判和对搜索结果进行去粗取精、去伪存真的甄别和筛选。
搜索结果评价不同于网络资源评价。前者仅仅是对相关搜索结果的价值进行评判,用于指导搜索者在已有的结果列表中选择和利用具有准确性、可靠性、权威性的较高质量的特定结果; 而后者则着重对网络资源的整序,按照一定的标准对相关资源进行评价、标引和组织,目的是方便特定网络资源的公共利用。
在网络搜索实践中,我们通常从结果来源和信息出处两个方面,对搜索结果进行评价和选择。
1、结果来源
    结果来源是指相关的搜索结果是使用何种类型的搜索工具获得的,即结果的途径来源。利用不同的搜索工具得到的结果,其质量和可信度等级明显不同。总的来说,分类搜索工具的结果优于关键词形式匹配的搜索结果。
各学科专家、学者和图书情报人员编制的分类目录、主题索引、专题指南等检索工具,
从收录范围(Scope)、准确性(Accuracy)、权威性(Authority)、新颖性(Currency)、独特性(Uniqueness)、可靠性(Reliability)、链接(Links)等方面对网络资源进行评价、标引和介绍,所收录的资源具有较高的质量保障。与之相反,基于索引程序的搜索引擎的搜索结果由查询串的形式匹配产生,网页摘要为自动生成,结果排序由算法控制,在充分体现“客观反映”的同时,也给结果的甄别和选择带来一的困难。尽管“网页级别(PageRank)”(如Google等)的排序算法对搜索结果有一定的评价和推荐作用,但它只是链接指向的机械计算,不能从内容评价的角度影响人们对搜索结果的取舍决定。
    使用分类搜索工具,实际上是在利用专家、学者对网络资源整序的智力劳动成果。因此,在分类搜索工具的结果中,我们可以很容易地通过类目性质和网站介绍对某一资源的内容和适用程度做出明确的评价和判断。但是,对于搜索引擎完全形式匹配的搜索结果,则需要花费更多的时间和精力对其内容进行比较和验证,以保证最终采用结果的准确和适用。例如,查找“百度”收录网页的数量,用检索式“百度 收录 网页 亿”搜索,有“百度收录的中文网页超过6亿”、“在差不多20亿中文网页中,百度索引库中搜集了8亿”、“全球首个中文网页收录量达到10亿的搜索引擎”等不同的结果,到底哪个为最新和最准确的结果,我们需要利用新闻搜索进行时间验证,以找出最新的数据;还有必要使用英文搜索(如“baidu's web pages millions”、“baidu index  web pages millions”等),从国外评价和第三方测试数据中进行验证,以找到令人信服的事例。
2、信息出处
   信息出处是指信息的原始出处,即信息的最初发布者。信息发布者的权威性与信息的
可信度有着直接的联系。从原始出处判断信息的可靠性是搜索结果评价的重要方法。
信息的出处不同,表现出不同的质量权重。一般来说,来源于官方和专业网站的信息
的权威性要远远高于BBS、BLOG、和商业网站,原发信息的可靠性要远远高于转载和引用信息。
    在网络搜索中存在一个普遍的现象,即一次搜索输出的不同的相关网页,由于宣传、推荐、转载、引用等,可能包含着相同或相似的内容,但它们的原始出处却只有一个,而只有来源于原始出处的信息才有足够的质量保障。例如,查找2005年7月4日美国宇航局(NASA)对坦普尔一号彗星进行“深度撞击”的图片和资料,使用“Deep Impact NASA”、“Deep Impact Gallery”等检索式搜索,均有数以十万计的相关结果,仅前两个页面的搜索结果就分别来自十多个不同的网站。通过对不同网站相关结果的分析可以看出,它们均为经过整理和重新编辑的NASA图片和资料,根据信息出处的评价原则,我们应优先采用NASA网站发布的信息和图片。

- 作者: 邢志宇 2006年07月30日, 星期日 09:09  回复(5) |  引用(147) 加入博采

检索式的构建


邢志宇

     检索式是搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索指令(搜
索语法)等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
1、关键词
      关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。
     网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。
       从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化 网站推广”搜索,“约有215,000项符合搜索引擎优化 网站推广的查询结果”、“搜索引擎优化 网站推广 竞价排名”搜索,“约有30,800项符合搜索引擎优化 网站推广 竞价排名 的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and & not)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部 –电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华 OR "Andy Lau"”搜索,可以得到较高的查全率。
        准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。
        关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋 棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋 个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。
        正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electrical toy”搜索,但通过对其搜索结果进行分析,可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nail scissors" factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示,使用“"Nail Clippers" Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。
2、逻辑运算符
     网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、
“-”表示,它们称为布尔逻辑符或逻辑运算符。
    “与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“A OR B”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A –B”形式,表示B一定不会出现在搜索结果之中。
    在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“and not”表示,减号“-”是“not”运算的唯一符号形式。
使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种
逻辑运算,了解和掌握逻辑符号的形式及其用法。
3、通配符
      通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号 (?)等,通常星号(*)表示替代若干字母,问号 (?)表示替代一个字母。
通配符又可以分为“词间通配符”(partial-word wildcard)和“全词通配符”(full-word wildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。
      截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation 等以Comput 开头的单词进行搜索。
       Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“How often does Halley's comet appear?”(哈雷彗星多少年出现一次?),用“Halley's comet appears every * years”搜索,可以轻而易举地得到答案:Halley's comet appears every 76 years。
       搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。
4、搜索指令
       搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。
⑴、标题搜索(Title Search)
[title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。
[intitle:] Google、Teoma、yahoo、百度……。
[allintitle:] Google ……。
⑵网站搜索(Site Search)
[host:] AltaVista……。
[hostname:] Yahoo……。
[site:] Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。
[domain:] Inktomi、HotBot、iWon, LookSmart、MSN、AltaVista、百度、一搜……。
⑶、网址搜索(URL Search)
[url:] AltaVista、Excite、yahoo(需要带http://)、一搜……。
[url.all:] AllTheWeb、Lycos……。
[allinurl:] Google
[inurl:] Google、yahoo、Teoma、百度……。
[originurl:] Inktomi、AOL、GoTo、HotBot、一搜……。
[url.domain:] Alltheweb……。
[url.host:] AllTheWeb、Lycos……。
⑷、链接搜索(Link Search)
[link:] AltaVista、Google 、yahoo(需要带http://)……。
[linkdomain:] Inktomi、AOL、HotBot、iWon、MSN、yahoo、一搜……。
[link.all:] AllTheWeb、Lycos……。
[inlink:] Teoma……。
[link.extension:] AllTheWeb……。
⑸、锚点搜索(Anchor Search)
[anchor:] AltaVista……。
[allinanchor:] Google……。
⑹、文件搜索(filetype Search)
[filetype:文件类型后缀](如PDF、DOC、SWF等)Google、iWon、AOL、Netscape、百度、中搜……。
[feature:文件类型名称](acrobat、activex、audio、embed、flas、frame、audio、video等) Yahoo、MSN、HotBot、overture……。
⑺、临近搜索(Proximity Searching)
[NEAR] AltaVista、Lycos、WebCrawler、AOL……。
[BEFORE] Lycos……。
[FAR] Lycos……。
[ADJ] Lycos、AOL……。
    此外,符号搜索指令还有表示强制搜索的加号“+”、精确搜索的引号“" "”、优先搜索的圆括号“( )”、同义词搜索的“~”号等等。
    搜索引擎是否支持某种搜索指令和各种搜索指令的形式在其搜索“帮助(Help)”文件中均会有相关的说明。判断搜索引擎是否支持某种搜索指令也可以采用以下方法:即使用某一搜索指令搜索,如果其结果不出现指令词或符号本身并显示相应的结果,则该搜索引擎支持该搜索指令,反之,如果结果中出现指令词或指令符号,则该搜索引擎就一定不支持该搜索指令。
        应当注意到,采用同一搜索技术或搜索结果具有同源性的搜索引擎,其搜索指令基本相同。然而,搜索技术或搜索结果的提供商与其合作者的关系,绝不是一成不变的,随着搜索技术的升级和搜索引擎之间关系的变化,各搜索引擎所支持的搜索指令也会有所调整和改变。

该问已在《科技情报开发与经济》2007年第17期发表

- 作者: 邢志宇 2006年07月30日, 星期日 09:06  回复(0) |  引用(0) 加入博采

搜索工具的选择


邢志宇

搜索工具是互联网发展到一定阶段的必然产物。互联网诞生初期,信息的存取矛盾尚未出现,人们无须借助任何工具就可以利用有限的网络资源。1989年NSFNET取代ARPANET并向公众开放以后,互联网进入飞速发展时期,海量信息与对其个性化利用的矛盾日渐突出,不借助一定的工具便不能有效地获取特定的信息。人们开始认识到搜索工具(Search Tools)对网络利用的重要意义,各类针对互联网信息整序和检索的工具应运而生。
搜索工具随着网络的发展而不断地创新和完善。从实用的角度讲,目前常用的搜索工具可分为网络搜索工具、站内搜索工具和数据库检索系统。网络搜索工具具有对整个互联网络搜寻的能力,又可分为基于索引程序的全文搜索引擎(Full Text Search Engine,又称关键词搜索引擎(Keyword Engine)、通过人工标引而建立的分类搜索引擎(Directory)和调用独立搜索引擎的元搜索引擎。站内搜索工具的范围仅限于某一网站之内,通常具有关键词搜索和分类浏览查找两种功能。数据库检索系统是为检索库内信息而开发的专用工具,功能视数据库内容性质而多有不同,一般有关键词、分类、字顺、特定符号或编号等检索功能。
明确了搜索意图和制定了搜索策略之后,搜索工具的选择尤为重要,它直接影响着搜索的效率。工欲善其事,必先“选”其器,搜索工具选择得当,就会给人以愉悦的搜索体验,能够收到事半功倍的效果。
不同类型的搜索工具有着不同的功能,同类搜索工具之间也存在着性能、特色等差异。满足不同的信息需求必须使用不同的搜索工具,一定的搜索工具可以更好地满足特定的信息需求。
1、族性检索
“族”为丛聚、集合、类别之义,族性检索是对具有某种共同性质或特征的众多事
物、概念的检索,分类搜索引擎是族性检索的首先选工具。
分类搜索适合查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。例如,“公共图书馆”就是典型的族性概念,进行国内与美国公共图书馆网站调查及其比较研究,最有效的方法就是利用分类搜索引擎,根据分类体系,按照其类目归属,以“参考资料—图书馆—公共图书馆”或“区域—国家与地区—中国大陆—参考资料—图书馆 —公共图书馆”(雅虎中国)、“Reference—Libraries—Public Libraries—By Region— U.S. States”(YaHoo!)等路径逐级浏览查找。
由于分类体系的系统性和聚类特点,分类搜索可以方便地进行扩检或缩检,在查找某一学科或专业文献时,利用类系层层隶属、外延渐小的原理,满足不同查全和查准要求;利用类列外延相斥、同位详列的特性,进行相关查询。即类以求,触类旁通是分类搜索引擎的天然优势和显著特征。
使用分类搜索引擎需要对其分类体系、类目设置、立类原则、收录范围等有一个大致的了解,能够确定所需资源的大类归属。然而,目前常用的分类搜索引擎的分类体系各有不同,当难以把握浏览路径时,可以借助其“所有目录(the Directory)”和“此目录下(this category)”的关键词搜索功能,根据结果页面的路径指示,在相关类目中查找。
2、特性检索
“特”为唯独、只有、专门之义,特性检索是指对特定事物或概念的检索,关键词搜索引擎是特性检索的首选工具。
关键词搜索引擎多用于查找主题范围较小、明确具体的信息和交叉性、细节性问题。例如,“黄河源头”、“北京图书馆现有藏书量”就是典型的特性检索,使用“黄河 发源地”和“国家图书馆 现有 藏书 册”等关键词搜索,便可一检即得。
关键词搜索引擎的特性检索优势是明显的,但由于其智能化程度有限,不可避免地会产生较大的搜索“噪音”,人们没时间也不可能逐页翻检结果列表,只有排列靠前(通常在前三页之内)的相关结果才有可能被真正地利用。
关键词搜索引擎,除了具有强大的字、词、短语等搜索功能外,还可以进行字、词间的“与”、“或”“非”等逻辑关系搜索和标题、URL、文件类型、时间、网站、链接等多种限定搜索,其“高级搜索(Advanced Search)”还具有搜索词语控制和个性设置功能。各种专用搜索引擎,如新闻、图像、购物、音乐搜索引擎等,都属于基于索引程序的关键词搜索引擎。
3、专题搜索
专题是指范围较小、体裁单一、具有相同性质和专门用途的信息或资源,专题搜索
主要使用站内搜索工具。
专题搜索不同于学科或主题搜索,因为“专题”的范围要比学科或主题的外延小得多,尽管相对完整,但缺乏系统性和稳定性,分类搜索引擎不会专门列目标引和收录专题信息或专题资源。关键词搜索引擎虽然具有一定的专题搜索能力,但其专指性的搜索很难满足专题明显的“族性”要求。
我们所说的专题信息或专题资源,是指经过网站人工整理、编辑,并为特定用途发布的信息或资源,如“北京申奥”、“2005年我国洪涝灾情”、主题教育推荐书目、特定事件的专题新闻等等。一般情况下,专题信息或专题资源多在相关网站中以超链接形式出现,分类搜索引擎对此类专题搜索无能为力,用“北京申奥 专题”、“北京申办奥运会”、“2005年 (洪水 OR 洪灾) 灾情报告”等关键词搜索,虽有相关结果,但与“专题”的要求相差甚远,即使是使用关键词进行新闻搜索,也只能得到零散的相关信息,而无法直接找到的经过整理和编辑的相关新闻专题。
进入相关网站进行站内专题搜索则更为便捷和直接,如在有关体育网站、新闻门户网站、教育网站等利用关键词搜索或浏览查找,可以一次满足上述主题搜索的要求。当然,对网络资源不太熟悉的搜索者来说,确定查找有关专题的网站可能有一定的困难,这时可以利用分类和关键词搜索引擎分别了解相关网站的信息,根据网站简介和提示信息登陆相关网站进行站内搜索。
4、        数据库检索
在线数据库是一种特殊形式的网络资源,一般的搜索引擎难以寻觅其踪迹,即使是
专门的数据库网站也多有授权限制而不提供免费使用。数据库有其自身的检索系统自不待言,问题是怎样找到并利用数据库。数据库属于网络的深层结构(deep Web structure)资源,需要借助专门的搜索工具。查找数据库资源请参见《专用搜索引擎》的有关介绍,对有授权限制的数据库的利用请参见《搜索技巧》中的有关内容。

- 作者: 邢志宇 2006年07月30日, 星期日 09:05  回复(0) |  引用(0) 加入博采

《实用网络搜索》出版

实用网络搜索   邢志宇等著   西安地图出版社出版

发行   新华书店经销    大32开   355千字  定价:

36.00元 

2005年12月第1版   ISBN  7-80670-886-3

- 作者: 邢志宇 2006年01月15日, 星期日 17:26  回复(4) |  引用(0) 加入博采

《实用网络搜索》序言

网络搜索与搜索引擎研究

(代序言)

邢志宇

    顾名思义,网络搜索就是在互联网上进行的信息搜寻。广义的网络搜索可以包括网站浏览式查找,但作为信息挖掘、图书馆学和情报学研究内容的网络搜索是狭义和主流的“网络搜索”,即利用搜索引擎进行的网络信息的搜寻与查找。

我国上网用户人数达到10,300万,搜索引擎已成为仅次于电子邮件的第二大网络应用。凡有过网络经历的人,无不对GoogleYahoo、百度、搜狗、中搜、一搜、北大天网等耳熟能详,无不有过网站、网页、新闻、图像、游戏、MP3FTP等搜索体验。网络的发展造就了搜索引擎,搜索引擎使人们能够快捷和有效地利用网络。无论对一般网民和工程技术与学术研究人员来说,搜索引擎已成为不可或缺的网络信息检索工具。

对商家来说,搜索引擎是一种赢利的产品,而对使用者而言,搜索引擎则仅仅是一种检索工具。作为产品,搜索引擎公司和搜索技术提供商要研制和创新搜索技术;作为工具,使用者要了解搜索引擎的功用、性能,掌握其使用方法和技巧。利用搜索引擎的目的不同,构成了搜索引擎研究的不同群体和对搜索引擎不同角度不同侧重的研究。

搜索技术研究的主体是搜索引擎的创制者和搜索技术提供商,它们多为专业公司和研究团体,拥有专职的研发队伍,专门从事网络信息挖掘理论研究、搜索引擎的开发、研制和搜索技术的改进、创新,靠建立搜索网站或提供搜索技术生存和赢利。如Google拥有独特的链接评价体系和PageRank专利技术; Yahoo!在收购了InktomiOvertureFastAltaVistaKelkoo3721等公司后,20042月断然与Google决裂,推出融合各旗下公司搜索技术精华的自有搜索技术(YST),并开始成为搜索技术提供商;Metacrawler开元搜索引擎先河,它的价值不仅在于同时调用多个独立的搜索引擎分别进行搜索的创意,更体现在处理各搜索引擎的查询结果,提交统一格式结果页面的独特技术;AltaVista第一个开发了支持自然语言的搜索技术;Ask Jeeves开创智能答询搜索引擎模式;About.com推出垂直主题搜索引擎模式;hobomo独创“MFGS闪电搜索”技术和“变异再生呈现”技术;百度拥有“超链分析”专利技术;中搜开发的“划词搜索”技术;一搜依托YST的本地化搜索;HillTop算法专利技术;vivisimo公司的搜索结果自动个性化聚类技术;Blinkx公司推出号称“可以搜索200余种媒介类型,包括了WordExcelPowerPointAcrobat PDF等格式的文档,以及各种音频与视频格式”的全新的“占卜式”搜索技术;搜狐200483推出了自主研发的第三代搜索引擎—“搜狗”.…..。由于搜索引擎具有较大的赢利空间和诱人的前景,搜索技术无时不在研发和创新之中,搜索引擎商无不具有独门产品和自主知识产权的特色技术。 

网络发展的需要和自身生存的压力,促使搜索引擎商不断对搜索引擎进行改进和升级,推出新的功能,以满足不断增长的搜索需求,争取更多的用户。以Googl为例,自199897日问世以来,它从未停止过其搜索技术的创新:19992月增加短语搜索功能,2000727日推出高级搜索功能、816日增加布尔逻辑符“OR”检索,2001131日增加PDF搜索,1015日增加分类目录搜索,20021012日增加购物搜索,2003813Toolbar 2.0新版问世,820日增加单词释义功能,116日推出Deskbar 2004113日推出区域编码、产品代码、航班信息、车辆确认号码以及美国邮政监管号码等搜索,3月推出本地索,4月推出拼音汉字自动转换功能,624日推出中英文字典、天气、股票、邮编区号、手机号码等实用搜索功能,7月推出“实名通”,99日推出新闻简体中文版,106日增加图书搜索,1117日推出学术搜索,2005223日推出电影搜索,37日推出桌面搜索中文版,420日推出My Search History个性化功能,824日推出GoogleTalk即时信息和网络语音电话服务,9月推出中文本地搜索和Blog搜索……Googl几乎每月都有新的变化,每年都有重大的改进和创新,以功能的不断改进、增强和增加,满足用户不断提高和变化的需求。其它搜索引擎无一不是孜孜以求,不断地创新技术,增强功能。为适应个性化的搜索需求和发展趋势,各搜索引擎争相展显技术优势,纷纷抢滩桌面和工具栏,一时间几乎所有的搜索引擎都推出了称谓不同的toolbardeskbar。然而,尽管搜索技术研究竞争激烈,新的搜索搜索技术和搜索功能不断问世,但真正“智能化”和“个性化”的搜索技术还仍在人们的期待之中。

搜索方法研究属于应用研究,对搜索引擎的推广使用有着直接的影响,与搜索引擎的普及和利用水平相辅相成。网络检索的需要催生了搜索引擎,搜索引擎使用方法的研究极大地促进了网络检索技能和网络资源利用水平的提高。

搜索方法研究的群体最为庞大,广大的网络搜索爱好者是其中的生力军,高校图书情报院系和图书情报部门的科研人员是网络搜索方法研究的主力和骨干,网络搜索教学网站和搜索论坛是普及搜索知识、学习搜索方法、交流搜索经验和探讨搜索问题的主要平台,搜索引擎普及与研究网站和图书情报专业期刊是发表研究成果的主要载体。

较有影响的网络搜索教学网站有:extreme searcherhttp://extremesearcher.com/handbooklinks.html)、Finding Information on the Internet: A Tutorialhttp://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html)、Anne Clyde'Webloghttp://www.hi.is/~anne/)等。研究搜索方法较为知名的论坛有:Search Engine Watchforumhttp://forums.searchenginewatch.com/)、Search Guildforumhttp://www.searchguild.com/)、中文搜索引擎指南的“搜索论坛”( http://www.sowang.com/bbs)、中国生命科学论坛的“文献与检索技巧”( http://www.bioon.net/list.asp?boardid=17)、丁香园医学论坛的“文献检索知识交流版”( http://www.dxy.cn/bbs/post/page?bid=6&sty=1&age=0)、搜狗说吧—搜索引擎吧、百度帖吧—搜索引擎吧等等。此外,搜索引擎普及与推广网站一般也都设置专栏,登载搜索引擎功能与特点、各种网络资源搜索方法与技巧等方面的文章,其中影响较大的有中文搜索引擎指南网(http://www.sowang.com/)、《搜索研究院》(http://www.9238.net/)、搜索引擎直通车(http://www.se-express.com/)等等,这些都是不可多得的研究搜索引擎、搜索技巧和学习专业文献检索的门径。

近年来,高校《文献检索》课程均增加了搜索引擎和网络信息检索的相关内容,对普及网络搜索知识起到了积极的推动作用。图书情报界同仁对网络搜索的理论和实践从不同的角度进行深入的研究和系统的总结,各具特色的研究成果亦多有问世。在维普《中文科技期刊数据库》中进行关键词检索,“搜索引擎”检索出文章3,249篇,“网络信息检索”407篇,“internet+文献检索”54篇,以“搜索引擎”、“网络信息检索”为关键词,从国家图书馆《中文普通图书数据库》分别检索出有关专著23种和14种。综观现有研究成果,搜索方法研究的范围比搜索技术研究要宽泛的多,涉及搜索引擎的检索功能、检索语法、检索策略、检索词语、检索技巧、检索工具的评价与选择、各个学科与各种类型网络资源检索等诸多方面。我们有理由相信,随着社会信息意识的增强,网民人口将快速增长,搜索引擎的使用率将逐步提高,搜索方法的研究将会受到人们更多的关注。

网络搜索离不开搜索引擎,对搜索引擎的了解和掌握影响着网络搜索的质量和效率。了解搜索引擎,很重要的一个方面就是及时获得搜索引擎的诸如版本升级、性能优化、算法改进、功能增加等动态信息。搜索引擎的动态信息有官方发布和研究者或使用者发布两种方式。前者多以新闻形式出现,可以通过新闻搜索及时获得,或在有关网站进行专题新闻查阅。设立搜索引擎专题新闻烂目(如:Search Engine NewsSearch Engine Update、搜索快报、搜索引擎业界动态等)的主要网站有:Search Engine Newshttp://www.searchengineguide.com/searchenginenews.html)、Search Engine Showdownhttp://www.searchengineshowdown.com/)、ResearchBuzzhttp://www.researchbuzz.com)、Search Engine Watch http://searchenginewatch.com/)、Pandia Search Engine Newshttp://www.pandia.com/sew/index.php)、中文搜索引擎指南网(http://www.sowang.com/)、搜索引擎直通车(http://www.se-express.com/)等,从中可以进行专题新闻的系统浏览和回溯查找;后者多以Blog为载体,信息源较为广泛,有的是搜索引擎的研制者专注于某一搜索引擎的Blog,更多的是搜索专家或搜索爱好者的个人Blog。受人关注此类Blog有:Google Bloghttp://www.google.com/googleblog/atom.xml)、Yahoo! Search bloghhttp://www.ysearchblog.com/index.xml msnsearch's WebLog  http://blogs.msdn.com/msnsearch/rss.aspx Ask Jeeves Bloghttp://blog.ask.com/index.rdf SEW Bloghttp://blog.searchenginewatch.com/blog/、搜索引擎研究http://www.wespoke.com/Google研究院Bloghttp://www.ooone.com/blog/等等。通常情况下,搜索引擎不会发布其测试功能和日常改进的官方信息,而有关专家的个人Blog则会对搜索引擎的细微变化有敏感的反映,利用Blog搜索引擎和RSS订阅可以及时获得搜索引擎的非官方动态信息。

我们已跨进信息社会的门槛,互联网已成为人类共享的信息平台,并正在影响和改变着我们的生活。然而,网海浩瀚资源丰富信息茫茫,从中获取我们所需要的特定的资源或信息,没有专门的检索工具是不可想象的。网络搜索与搜索引擎研究,对提高社会的网络应用水平,培养和强化信息意识,进而促进知识生产和知识创新,有着重要的意义和影响。“工欲善其事,必先利其器”,了解搜索引擎的功能、特点,探讨和研究各种网络资源的检索策略、方法和技巧,熟练掌握和使用搜索引擎,已成为现代人必不可少的基本技能。

                      2005年9月18日

- 作者: 邢志宇 2006年01月15日, 星期日 17:09  回复(0) |  引用(0) 加入博采

《实用网络搜索》目录

   

 

第一章        搜索入门

第一节       明确搜索意图

第二节       制定搜索策略

第三节       选择搜索工具

第四节       构建检索式

第五节       搜索结果评价

第二章        搜索引擎

第一节       常用搜索引擎

1、  网络搜索巨鳄——Google

2、  分类搜索引擎鼻祖——Yahoo!

3、  著名的多媒体搜索引擎——AltaVista

4、  最受欢迎的元搜索引擎——Dogpile

5、  最大的中文搜索引擎——百度

6、  第三代互动式搜索引擎——搜狗

7、  全球领先的中文搜索引擎——中国搜索

8、  雅虎的中国搜索门户—— 一搜

9、  中国的ODP——网易

10、              最大的FTP搜索引擎——天网千帆

第二节       元搜索引擎

一、              中文元搜索引擎

二、              英文元搜索引擎

第三节       专用搜索引擎

一、              多媒体搜索引擎

二、              新闻搜索引擎

三、              “看不见的网页”与数据库搜索引擎

四、              FTP搜索引擎

五、              购物搜索引擎

六、              少儿搜索引擎

七、              MP3搜索引擎

八、              歌词搜索引擎

九、              域名搜索引擎

十、              软件搜索引擎

十一、       论坛搜索引擎

十二、       博客搜索引擎

十三、       游戏搜索引擎

十四、       文学作品搜索引擎

十五、       答案搜索引擎和咨询服务系统

第三章        搜索技巧

1、  查找中文网络报刊资料

2、  企业情报调研中的搜索技巧

3、  图像搜索的途径与方法

4、  查找某一国家(地区)组织、机构的电邮与电话号码

5、  查找地方实用信息

6、  查找“海外客户资料”

7、  查找商品信息

8、  找网络书签或个人收藏夹

9、  查找歌曲

10、              查找歌词

11、              查找个人信息

12、              查找“明星”资料

13、              查找下载地址

14、              查找论文

15、              查找范文

16、              查找免费电子版图书

17、              查找解决问题的方法

18、              查找网站Logo

19、              查找英文缩写

20、              查找注册码

21、              查找论坛中的帖子

22、              查找Blog中的文章

23、              查找英文软件的中文使用说明

24、              查找免费电影

25、              查找网站地址和联系方式

26、              查找语词的最早出处

27、              查找同类资源

28、              查找数据库密码

29、              查找讲座与讲义

30、              查找免费代理服务器列表

31、              查找网站的flash首页和动态网页

32、              查找国外网站的中文网页和国内网站的英文网页

33、              查找中、英文课件

34、              查找英汉互译

35、              查找电话号码归属方位

36、              查找成语与成语反查

37、              查找试题与答案

38、              查找谜底、对联

39、              查找烹饪方法

40、              查找药品功效与使用方法

第四章        网络资源

第一节       网络资源调查

一、              关键词调查

二、              分类调查

三、              链接调查

第二节       常用学科资源

一、              哲学

二、              宗教

三、              社会科学(综合)

四、              政治学

五、              社会学与社会工作

六、              经济学

七、              教育

八、              图书馆学情报学

九、              语言学

十、              文学

十一、       艺术(综合)

十二、       美术

十三、       摄影

十四、       音乐

十五、       戏曲

十六、       历史

十七、       地理

十八、       自然科学(综合)

十九、       数学

二十、       物理

二十一、              化学

二十二、              天文学

二十三、              地球科学

二十四、              植物学

二十五、              动物学

二十六、              农业

二十七、              环境科学

第三节       实用主题资源

一、              马列理论与经典著作

二、              法律、法规条文

三、              网络搜索知识

四、              全球经济统计资料

五、              百科全书

六、              人物传记

七、              各国国歌

八、              天体和天文图像

九、              动植物标本图像

十、              各国邮票图案

十一、       各国钱币图案

十二、       旗帜图案

十三、       编织图案

十四、       各种声音样本

十五、       剪纸技法与剪纸作品

十六、       中国通史、断代史、史料

十七、       中国古典作品在线阅读

十八、       烹饪方法与食谱

十九、       各国、各类地图

二十、       网络汉语字典、词典

二十一、              体育运动记录

二十二、              英语学习

二十三、              寻医问药

二十四、              中、英文字体

附:第五章        搜索练习

第一节       中文搜索练习

    第二节  英文搜索练习

- 作者: 邢志宇 2006年01月15日, 星期日 17:03  回复(0) |  引用(0) 加入博采

《实用网络搜索》内容提要

内容提要

本书从实用的角度出发,阐述了网络搜索的基本理论和一般方法,分别详细和概要地介绍了10 种常用搜索引擎和300多种元搜索引擎与专用搜索引擎,例释了典型的搜索技巧,详述了主要和有代表性的学科与主题网络资源。

本书为作者长期从事虚拟参考咨询服务(VRS)和网络导航工作的经验总结和成果汇集,具有较强的实用性,既可作为学习网络搜索的实用教程,也可以参考工具书使用。适用于图书馆参考咨询人员、学术研究人员、大中专师生和广大的网络搜索爱好者。

- 作者: 邢志宇 2006年01月15日, 星期日 17:01  回复(0) |  引用(0) 加入博采

《实用网络搜索》后记

后记

本书的正式写作开始于200561日,但书中使用的一些素材较早地发表在“中文搜索引擎指南网”的专栏和《网海扁舟》博客之中,有关网站也多有转载。原许昌市图书馆馆长张献峰和网友StoneWang(王翀)在写作过程中提出过可贵的意见和思路,河南省图书馆学会秘书长、研究馆员宋学清老师和河南省图书馆馆长助理、研究馆员申少春老师对本书的出版给予了大力的支持,在此一并致以谢忱。

 

作者

                                                                                    20051028

- 作者: 邢志宇 2006年01月15日, 星期日 17:00  回复(0) |  引用(0) 加入博采

《IT时报》采访稿(2006年1月5日)

Google现在是一个全球公司,通过互联网它的触角伸到世界的各个角落,在不同国家它的不同搜索内容遭遇到不同的阻击。比如以色列对Google地图的反对,比如把图书馆藏书扫瞄上网引起的争议。

1、 在中国,Google目前的情况如何,其带来的冲击是否和它在其他地方一致?还是有其特殊性?

2、  作为一个独立的国家,应该如何应对Google对其本国带来的影响?

GOOGLE作为国际著名的搜索引擎,由于其自身的技术和强大的功能,受到包括中国在内的各国网民的青睐应该是理所当然和在情理之中的事情。人们总是推崇先进的技术,乐意使用便捷、高效的工具。20051227日由中国电子信息产业发展研究院主办、赛迪网和赛迪顾问承办的“第四届中国搜索年会”上,在15项搜索引擎年度大奖中,GOOGLE获得了“用户最高满意度搜索引擎奖”和“搜索引擎多元化发展奖”两项大奖。从中国互联网络信息中心(CNNIC)和国内知名互联网调查公司iResearch不同时期公布的数据可以看出,GOOGLE在中国大陆的市场占有率一直是比较稳定和趋前的。虽然百度的市场占有率增长的较快,但仍然不能代替GOOGLE在国内网民心中的位置。CNNIC在北京、上海、广州3地所做的《2005年中国搜索引擎市场调查报告》显示,GOOGLE在中国的高端人群用户数明显领先于百度、雅虎等其他搜索引擎。在被接受调查的高端用户中,GOOGLE占有59.6%的市场份额,而百度仅有26.0%

不可否认,GOOGLE给中国的互联网业,尤其是搜索引擎业带来了强大的震撼和冲击,国内的搜索引擎要么极力模仿GOOGLE,誓言“超越”,要么避其锋芒另辟溪径,利用门户或渠道优势培养自己的用户群。他们无一例外地把GOOGLE当作了假想敌、竞争对手,或者是一面镜子。在激烈的市场竞争中,GOOGLE推动了国内搜索引擎的发展。

GOOGLE作为在美国多元化意识形态下诞生的搜索引擎公司,其产品不可能完全符合我们社会主义国家意识形态的要求。应当看到,GOOGLE还是无意冒犯所在国家意志的——这是她在美国境外生存和发展的前提,例如,在其地图搜索中坚持把台湾列为中国的一个省。GOOGLE网站上总计有一万八千一百笔中国地图,无论是行政、地形、旅游乃至酒店地图索引,都把台湾作为中国的一个省。GOOGLE在国内受到责难最多恐怕要数其新闻搜索了。GOOGLE00499日推出新闻简体中文版后,927日在Google Blog上针对国内的质疑发表了题为“China, Google News and source inclusion”的官方解释,对其“希望提供尽可能广泛的新闻源”和“抛开政治不谈”的一贯原则作出了妥协,声称:Google新闻并不刊载新闻内容,而是链接到这些内容,然而如果链接的内容是由被政府封锁的新闻源发布的,该国的用户就无法看到被屏蔽的新闻源发布的新闻内容。搜索引擎毕竟只是一种网络检索工具,失去了“工具性”也就失去了存在的必要和价值。国家主流意识形态的控制和网络搜索工具的个性张显,在一元意识形态的国家可能是一对生与俱来的矛盾。相信,随着市场经济和民主进程的发展,主流意识形态对其他意识形态的态度将会更加宽容,“工具性”与“思想性”的冲突也会越来越小。作为一个主权国家,有权力和责任对网络和网络搜索工具进行监管,有效并令人尊敬的做法应当是“疏”而非“堵”。搜索引擎再如何技术先进功能强大,它毕竟是而且仅仅是一种工具,拿它来颠覆一个主权国家未免有些危言耸听。

(发表时题为《应对Google风暴,准备好了吗?》有删改)

- 作者: 邢志宇 2006年01月13日, 星期五 18:30  回复(1) |  引用(1) 加入博采