网络搜索引擎原理研究(附答辩记录)
网络搜索引擎原理研究(附答辩记录)(含选题审批表,任务书,开题报告,毕业论文说明书17000字,答辩记录)
摘 要:本论文简单地介绍了搜索引擎的出现、发展及现状;主要研究了全文搜索、分类目录以及垂直搜索引擎的基本原理和实现技术。分析了搜索引擎的核心-网络蜘蛛的工作原理,解析了网络蜘蛛程序的构造以及程序实现的核心代码。通过网络用户对搜索引擎的要求越来越高,对搜索结果的要求越来越精细等现状的分析,预测了将来垂直搜索引擎有更大的发展空间。
关键字:搜索引擎;基本原理;搜索技术
Internet Search Engine Principle Research
Abstract:This paper simply introduces the search engine's emergence, development and the present situation; The main research a full text search, classification catalogues and vertical search engine, the basic principle and realization technology. Analysis of the search engine's core - web spiders principle of work, analyzes the structure of network spiders of program realization core code. Through the network users to the search engine's demand is higher and higher, on search results requirements increasingly delicate etc, predicted the analysis of the current situation of future vertical search engine has larger development space. [资料来源:http://www.doc163.com]
Keywords:Search engine; Basic principle; Search technology
搜索引擎的原理
本节主要讨论全文搜索引擎、分类目录搜索引擎以及垂直搜索引擎的原理。[20]
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
[来源:http://Doc163.com]
研究方案(研究目的、内容、方法、预期成果、条件保障等)
研究目的
了解网络搜索引擎的原理达到优化网络搜索引擎的目的
研究内容
(1) 搜索引擎的框架;
(2) 搜索引擎的工作流程;
(3) 搜索引擎各个组成部分的作用及关系;
(4) 搜索引擎的未来发展趋势。
研究方法
(1)讨论法:同老师和同学进行讨论。
(2)文献资料法:查阅国内外与网络搜索引擎相关资料和书籍。
(3)对比法:通过对比法来了解不同搜索方式的优缺点。
预期成果
撰写合格的论文。
条件保障
(1)图书馆和互联网有丰富的文献资料可阅读;
目 录
摘 要 1
关键字 1
1 前 言 2
2 搜索引擎的出现与发展 2
2.1搜索引擎的出现 2
2.2搜索引擎的发展 3
2.3搜索引擎的现状 4
2.3.1 我国搜索引擎的背景 5
2.3.2 搜索引擎的现状 5
2.4本文的研究内容 6
3 搜索引擎的原理 7
3.1 全文搜索引擎的原理概述 7 [来源:http://Doc163.com]
3.2分类目录搜索引擎的实现原理 8
3.2.1从互联网上抓取网页 8
3.2.2建立索引数据库 8
3.2.3在索引数据库中搜索 8
3.2.4对搜索结果进行处理排序 9
3.3垂直搜索引擎的工作原理 10
3.3.1垂直搜索引擎的基本原理 10
3.3.2垂直搜索引擎的技术原理 10
3.3.3垂直搜索技术框架 10
4 搜索引擎的核心---网络蜘蛛 11
4.1网络蜘蛛 11
4.1.1网络蜘蛛的介绍 11
4.1.2网络蜘蛛的工作原理 11
4.1.3用VB构造网络蜘蛛 13
4.2网络蜘蛛的结构分析 17
4.2.1如何解析HTML 17
4.2.2 Spider程序结构 18
4.2.3如何提高Spider程序性能 19
4.3网络蜘蛛的处理对象 19
4.4网络蜘蛛面临的难题 20
5 搜索引擎的主要技术 20 [来源:http://www.doc163.com]
5.1 搜索器、索引器、检索器及用户接口 20
5.1.1 搜索器 20
5.1.2.索引器 21
5.1.3 检索器 21
5.1.4 用户接口 21
5.2中文搜索引擎的中文分词技术 22
6 搜索引擎的系统构架 22
6.1搜索引擎的系统构架图 22
6.2搜索引擎系统构架 23
6.2.1 从互联网上抓取网页 23
6.2.2 建立索引数据库 23
6.2.3 在索引数据库中搜索 23
6.2.4 对搜索结果进行处理排序 23
7 结 论 24
参考文献 24
致 谢 25
[资料来源:http://doc163.com]