基于LSTM网络的中文文本分词
资料介绍:
基于LSTM网络的中文文本分词(中文5300字,英文PDF)
摘要
目前大多数最先进的中文分词方法都是基于监督学习,其特点主要是从局部文本中提取出来的。这些方法不能利用对分词也至关重要的长距离信息。本文提出了一种新的基于神经网络的中文分词模型,该模型采用长短期记忆模型 (LSTM)在内存单元中保留先前的重要信息,避免了局部上下文窗口大小的限制。在 PKU 、MSRA 和 CTB6 基准数据集上的实验表明,我们的模型优于以前的神经网络模型以及其他最先进的方法。
[资料来源:http://www.doc163.com]
[来源:http://Doc163.com]