(中国电子商务研究中心讯)搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面:
一、提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
二、对检索结果进行处理
1、基于链接评价的搜索引擎
基于链接评价的搜索引擎的优秀代表是Google(http://www.google.com),它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。
2、基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。
3、去掉检索结果中附加的多余信息
有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。
三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性
1、垂直主题搜索引擎
网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。
2、非www信息的搜索
提供FTP等类信息的检索
3、多媒体搜索引擎
多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,《浅谈图片搜索引擎的实现》http://blog.minidx.com/2007/12/19/265.html中提出了具有跨时代意义设计思路。
四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果
1、纯净搜索引擎
这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。
2、元搜索引擎
现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。
元搜索引擎(metasearch enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick、搜客等。
3、集成搜索引擎
集成搜索引擎(All-in-One Search Page),亦称为“多引擎同步检索系统”(如百度http://www.baidu.com)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。
集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。
4、垂直搜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
五、搜索引擎的分类
网页音乐(翻唱MP3)影视(电影电视)视频播客软件BT下载硬件图片壁纸相册小说文学文档(论文述职报告思想汇报演讲稿入党申请书作文个人简历毕业论文法律论文经济论文教育论文会计论文计算机论文毕业论文集情书调查报告求职信商业计划书实习报告就职演说自荐信企划方案企业管理年终总结)新闻(资讯)百科(知识经验)教育人物学校专业论坛社区博客词典翻译地图动漫Flash游戏娱乐笑话汽车家电手机广告购物商业黄页房产招聘财经股票基金法律国学图书政府目录学术代码公交实用查询等几十个分类。
六、搜索引擎的最后一步
10年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。常常为了一个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找。曾几何时,互联网的普及与兴起,搜索引擎的出现,逐渐改变着我们的生活习惯和思维方式。很多问题“baidu一下,你就知道。”就像这里用的“曾几何时”这一词,中文不好的我只有模糊的理解,还以为有“曾经”的意思,想用为第一句。于是百度知道搜索了一下,出自宋"王安石《祭盛侍郎文》:“补官扬州,公得谢归。曾几何时,讣者来门。”才知是才过了不久的意思。
搜索引擎(search engine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。
事物的发展往往遵循着合久必分,分久必合的规律,每一次的合与分都是代表着更高级更先进。同样搜索引擎从最初的Archie可以用文件名查找整个互联网中FTP文件的系统,发展到Yahoo早期一种手工录入的分行业的目录检索。随着搜索技术的发展,元标记搜索、全文搜索重新又把整个互连网的信息整合起来提供给用户,目前的Baidu、Google提供的就是一种整个互联网的全文搜索,这种整合信息的搜索也称为水平搜索。这种水平全文搜索固然可以把网络中的所有相关信息提供给用,但这种“所有”不代表着是用户所需的“所有”,往往夹杂着许多垃圾信息。问题出现就伴随着去解决,如果平常使用搜索引擎比较全面,你会发现Baidu、Goolge都有了“更多”的选项,其中出现了大学搜索、新闻搜索、图书搜索、图片搜索等等这些专业化,行业化的搜索,也称为垂直搜索。当前垂直搜索正在逐渐走向丰富化、专业化、行业化,将越来越满足人们的搜索需求。比如很多人在搜索问题时会到百度知道里搜索,因为那里更有针对性;搜索天气会到天气搜索中等等。
那么搜索引擎的下一步发展是什么呢?让我们回想一下搜索引擎的定义:一个系统,能从大量信息中找到所需的信息,提供给用户。根据技术的不断发展和事物规律畅想一下,垂直搜索发展到一定程度会出现信息的单一专业化太强,整体信息综合化不好,而人们需要的不但要有专业信息,同样也要有整体联想信息。随着人工智能、神经网络、网格计算等搜索技术的发展,我们又将有一个能整合互联网信息,智能的提供用户确实所“需”的信息,而不简单只是所“要”的信息,因为很多时候搜索时,自己都不知道要什么。
再回的现在的搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。这个引擎提供给用户的最后一步是什么?是一条清晰的检索路径。好的,注意这是一条检索路径,在这条路径的上的检索和信息提取是什么呢,是我们的阅读和大脑的判断。也就是做搜索引擎的最后一步是我们的大脑。得到的这条路径清晰但也并不简短,需要我们进行快速的浏览,呵呵,绕来绕去,得出一个结论,快速阅读也是搜索引擎中的一部分。
随着搜索市场竞争的白热化,搜索引擎不仅开始深挖自己的战壕,还开始打起了口水战,而山寨搜索引擎在高举着“整合”的大旗,开始大摇大摆地进入这个本来只有巨头垄断的市场。国人充分发挥着其无比的想象力,准备让国内的互联网“步入搜索新时代。 |