基于网络爬虫的搜索引擎设计
基于网络爬虫的搜索引擎设计(任务书,开题报告,论文11000字)
摘要
自20世纪90年代Web技术兴起以来,各种各样的网站层出不穷,逐渐丰富和改变了人们的生活。
新浪微博诞生于2009年,是国内一个基于用户关系的媒体平台。用户可以通过PC、手机或平板电脑等终端以文本、图片、视频等多种形式分享内容,实现实时的信息传播和交互。由于其功能强大且使用简易,现已成为国内最知名的社交网站之一。随着多年的发展,新浪微博有着数以亿计的注册用户和广泛的微博大V,因此如何有效地获取到用户的微博信息成了一个炙手可热的话题。
本文探究了以Python语言为基础的多种爬虫技术,实现了一个搜索微博用户信息的系统,目的是获取微博用户的相关信息,并具有保存到本地和数据可视化等功能。主要的开发工具是PyCharm和Chrome,运行环境是windows操作系统,Python版本为Python 3.6。
关键词:Web;新浪微博;网络爬虫;Python
Abstract
Since the rise of Web technology in the 1990s, a variety of websites have emerged, gradually enriching and changing people's lives.
Sina Weibo was born in 2009 and is a domestic media platform based on user relations. Users can share content in various forms such as text, pictures, and videos through terminals such as PCs, mobile phones, or tablets to realize real-time information dissemination and interaction. Due to its power and ease of use, it has become one of the most well-known social networking sites in the country. With years of development, Sina Weibo has hundreds of millions of registered users and a wide range of Weibo V, so how to effectively obtain the user's Weibo information has become a hot topic. [来源:http://Doc163.com]
This thesis explores a variety of crawler technologies based on the Python language, and implements a system for searching Weibo user information. The purpose is to obtain relevant information of Weibo users, and has functions such as saving to local and data visualization. The main development tools are PyCharm and Chrome, the operating environment is Windows, and the Python version is Python 3.6.
Key Words:Web; Sina Weibo; Web Spider; Python;
目录
第1章绪论 1
1.1背景 1
1.2国内外研究现状 1
1.3 研究目的及意义 2
1.4 各章节的安排及概述 2
第2章相关技术介绍 3
2.1 Python语言 3
2.1.2 Python语言的产生和发展 3
2.1.2 Python语言的特点 4
2.2 HTTP协议 5
2.2.1 HTTP简介 5
2.2.2 HTTP特点 5
2.3 Web页面的构成 5 [资料来源:http://www.doc163.com]
2.4 URL 6
第3章系统设计 8
3.1总体框架设计 8
3.2 数据库设计 9
第4章系统实现 11
4.1爬虫模块的实现 11
4.1.1 请求网页 11
4.1.2 解析网页 12
4.1.3 数据库操作 13
4.2 网页模块的实现 13
4.2.1 前端部分 14
4.2.2 后台部分 14
4.2.3 数据可视化部分 14
4.3 系统实现中的一些问题探讨 15
4.3.1 爬虫的效率 15
4.3.2 页面的反爬 15
4.3.3 JavaScript动态渲染的页面 16
4.3.4网络爬虫合法性的探讨 16
第5章系统测试及结果展示 17
5.1 正确结果页面 17
5.2 错误结果页面 19
5.3 保存页面 19
5.4 数据可视化页面 20 [资料来源:http://www.doc163.com]
第6章结论 21
6.1收获 21
6.2不足与展望 21
参考文献 22
致谢 23
[资料来源:www.doc163.com]