基于Web的中文信息过滤系统的研究与初步实现(附答辩)
基于Web的中文信息过滤系统的研究与初步实现(附答辩)(含选题审批表,任务书,开题报告,毕业论文说明书17000字,答辩记录)
摘 要:Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息、充斥网络等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。本文从过滤不良信息的实用技术角度出发,对从于Web文本内容的不良信息过滤系统进行了研究和设计。通过中文过滤系统,能够在网络上进行快捷而且有效的搜索,可以为用户节省许多的时间和精力,同时也能为整个网络减轻负担,提高搜索效率。
关键词:信息过滤;文本过滤;索引;搜索;分词
Design and Basic Implementation of Web-based Chinese Information Filtering System
Abstract:In recent years, the scale of Internet is increasing at a fastest speed. As we get useful information from Internet, we meet more and more problem: info overload,info lost,info porn,and info violence. To overcome these problems, the research of Information Filtering has drawn much attention. Chinese Text Filtering is a branch of Chinese Information Processing Research. It searches the useful info and eliminates the useless or irrelevant info in the dynamic data stream according to users’ request. [来源:http://Doc163.com]
In this thesis we designed a Content-based Chinese Test Filtering System. This system integrates the statistic approach with the text pattern matching approach. Chinese filtering system through the system on the network can be efficient and effective search, users can save a lot of time and effort , but also can red- uce the burden on the entries network to improve the search efficiency.
Keywords: Information Filtering; Text Filtering; Index; Search; Analyzer
研究方案(研究目的、内容、方法、预期成果、条件保障等)
研究目的
学习和掌握搜索引擎的原理,分析搜索的执行过程以及算法(如Luence),了解搜索引擎面临的问题和解决方式。
研究内容
(1)通过查阅资料,实践和分析来了解现存搜索引擎问题,解决的办法,发展的趋势。
(2)确定论文研究的技术支持;
(3)就Luence来分析现在的搜索引擎;
(4)总结优势,取长补短,分析下代搜索引擎的发展潜力和特点。
研究方法
(1)讨论法:同老师和同学进行讨论。
(2)文献资料法:就中文过滤系统的搜索引擎查阅国内外相关的相关资料和书籍。 [资料来源:Doc163.com]
(3)实践法:通过实践上网了解基于Web的中文过滤系统(搜索引擎)。
条件保障
(1)图书馆和互联网有丰富的文献资料可阅读;
(2)电脑能上网浏览和搜索。
[资料来源:Doc163.com]
目 录
摘 要 1
关键词 1
1 前言 2
2 信息过滤概述 2
2.1 信息过滤的概念与特点 2
2.2 信息过滤与信息检索的关系 3
[资料来源:https://www.doc163.com]
2.3 文本过滤结果的评价指标 4
3 文本信息过滤中的关键理论和技术 5
3.1 中文自动分词 5
3.2 中文分词的概述 5
3.3 中文分词算法的分类 6
3.3.1 基于词典的分词算法 6
3.3.2 无词典的分词算法 8
3.3.3 歧义切分字段的处理 9
3.3.4 文档的相关性 10
3.4 全文信息检索 12
3.4.1 全文检索的定义 12
3.4.2 数据的总体分类 13
3.4.3 全文数据的主要搜索方法 13
3.5 索引 14
4 系统总体设计 15
4.1 系统总体结构设计 15
4.2 系统设计涉及的主要方面 17
5 系统详细设计 18
5.1 前台设计 18
[资料来源:http://doc163.com]
5.1.1 Jsp技术 18
5.1.2 JQuery技术 19
5.2 后台设计 22
5.2.1 建立索引 23
5.2.2 搜索关键字 24
5.2.3 结果排序 26
5.2.4 过滤器 28
6 结论 29
参考文献 30
致 谢 31
上一篇:基于web大学资产管理信息系统的设计与实现(附答辩)