Open Nav

基于python爬虫的影评情感分析研究开题报告

论文(设计)题目    基于python爬虫的影评情感分析研究开题报告
选题的背景、意义及研究现状:
研究现状:
文本情感分析又称倾向性分析、情感挖掘,主观分析或评论挖掘,是对带有情感色彩的评论文本内容进行分析、处理、归纳和推理的过程,从而发现评论者对研究对象的态度和意见。评论文本信息表达了用户的各种感情色彩与情感倾向,比如喜、怒、哀、乐、赞成、反对、表扬、批评等。情感分析可应用于市场预测、舆情监测、竞争情报获取等多种研究。
情感分析的方法包括基于情感词典的方法,有监督的机器学习方法和无监督的机器学习方法。基于情感词典的情感分析方法就是通过构建一个包含各类情绪的情感词典,制定评价规则,对文本进行拆句、分析及匹配词典,通过分析文本中的正向情感词和负向情感词数目来计算情感值,从而得到每部电影正向、负向和中立情绪的比例,最后以情感值来作为文本评论数据情感倾向判断的依据。机器学习的方法需要的是大量人工标注的语料作为训练集,运用机器学习或算法等方式训练模型,得出模型后再用来分类判断新本文的情感倾向。

研究内容、研究方法与思路:
研究内容:
    利用Python爬虫来爬取豆瓣的影评,经过数据分词和词性标注,其中的词性标注要是弱标注。以HowNet和NTDSP为基础,PMI为技术来制作电影领域的情感词典,根据情感词典来找到情感词并标注它的位置,再向前查找否定词和程度副词,在计算情感值。通过支持向量机SVM来进行分类,以Accuracy来评价最终的分类效果。

[资料来源:www.doc163.com]

研究方法:
观察法:研究者根据一定的研究目的,研究提纲和观察表,用自己的感官和辅助工具去观察被研究对象,从而获得资料。
项目实验法:通过自主实验,完成对研究从理论到操作的转变,验证是否达到实验要求。
研究思路:
设计通过python爬虫与和自己构建的电影类的情感字典来分析影评。数据分析中要使用弱标注进行标注和结巴分词进行分词。其中情感词典的构建需知网的HowNet和台湾的NTDSP为基础,选取20个核心词汇用PMI来计算新词的情感倾向在求PMI值的和来确定是否为正面词汇,以此来构建情感词典。利用情感词典和找到情感词,否定词,程度副词计算出情感值。利用SVM进行分类计算出最优参数,再利用准确率召的形式回率来表现影评的情感,再用词云图和分析表来呈现所计算各种结果。

主要创新点:
1.    毕设中应用的情感词典是经过改进的电影类的情感词典,计算的结果更精确。
2.分析情感前标注时时词典与弱标注相结合。
具体各个环节进度安排如下:
2018年11月1日至11月21日:完成毕业设计选题;
2018年11月22日至12月12日:查阅搜集分析材料并完成毕业设计开题报告;
2018年12月13日至2019年3月15日:完成毕业设计以及毕业论文初稿;

[资料来源:https://www.doc163.com]


2019年3月16日至4月11日:完善毕业设计,完成论文修改稿;
2019年4月12日至4月19日:提交毕业设计、论文定稿和答辩相关资料;
2019年4月20日至4月26日:答辩。

准备情况(查阅文献资料及调研情况、实验仪器设备准备情况等):
1.开题所搜集和查阅的相关资料
[1]    马松岳,许鑫. .基于评论情感分析的用户在线评价研究——以豆瓣网电影为例 [J].图书情报研究.2016,5.
[2]    朱琳琳,徐建. 网络评论情感分析关键技术及应用研究[J].情报理论与实       践.2017,1.
[3]    李慧,柴亚青. 基于属性特征的评论文本情感极性量化分析[J].数据分析与知识发现.2017,1.
[4]    韦文娟,韩家新,夏海洋. 基于Python自然语言处理文本分类研究[J].2016,4.
[5]    郝媛媛,叶强,李一军. 基于影评数据在线评论有用性影响因素研究[J].管理科学学报,2010,13(08)
[6]    夏火松,李保国. 基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(02) [资料来源:Doc163.com]

  • 关于资料
    提供的资料属本站所有,真实可靠,确保下载的内容与网页资料介绍一致.
  • 如何下载
    提供下载链接或发送至您的邮箱,资料可重复发送,若未收到请联系客服.
  • 疑难帮助
    下载后提供一定的帮助,收到资料后若有疑难问题,可联系客服提供帮助.
  • 关于服务
    确保下载的资料和介绍一致,如核实与资料介绍不符,可申请售后.
  • 资料仅供参考和学习交流之用,请勿做其他非法用途,转载必究,如有侵犯您的权利或有损您的利益,请联系本站,经查实我们会立即进行修正! 版权所有,严禁转载
    doc163.com Copyright © 2012-2024 苏ICP备2021029856号-4