高效短语查询的索引结构(含外文出处)
资料介绍:
高效短语查询的索引结构(含外文出处)(中文3900字,英文pdf)
摘要
全文检索系统指利用查询词的组成和词序列从大量文本集中获取文档的系统。 现行系统的缺点是,字序查询也被称为短语查询,代价比较大,特别是当短语中包含常见的字词。另一个限制是不支持某些形式的查询,一个例子是短语补全,它能提供了一种特殊方式去定位信息。我们提出了一种新的索引结构,nextword索引,能解决以上的两个问题。通过实验我们证明了nextword索引可用于快速短语查询,并且能够完成短语补全。
1、简介
数字化文本集作为信息库和企业资产已变得越来越举足轻重。伴随当前快速增长的因特网搜索和文本数据库的使用,用户期望所有文档都在线存储并在对全文数据库查询系统进行简单的查询活就能看到结果。这些系统是建立在充分了解信息检索的原则的基础上——是简单高效的查询——也就是能够快速和高效的找到的文件——也就是说能够找到的文件满足用户信息需要[Salton,1989 ] 。然而,日益增长的存储信息的数量对检索系统产生不利的影响。显然,数量庞大的索引必须加以处理以以便对应一个查询。更恐怖的是,大量的信息(以及大量的垃圾信息)对应每个查询的响应,因此效力退化;响应用户指定的更加复杂的查询,将进一步增加成本。
[资料来源:https://www.doc163.com]
[资料来源:Doc163.com]
[资料来源:http://doc163.com]