面向授权网站的网页爬虫开题报告
1. 研究目的与意义
2012年在第五届移动互联网博览会上,易观国际董事长兼首席执行官于扬首次提出了“互联网 ”理念。旨在能在互联网革新的驱动下,带动新型网络发展下经济以及社会的发展。
随着互联网 形态的不断发展,互联网技术的不断革新,在新形态的互联网络世界中,信息的获取与处理显得尤为重要。其中由大数据驱动的互联网 新模式的发展尤为突出。
对此,对于最基本的信息获取的手段却有待考虑。值得注意的是普通的人工信息搜集手段已经不能满足当下信息处理的需求。若对于资源丰富的网络世界,快速有效的获取有价值的资源,网络爬虫工具则让信息处理更加事半功倍。
2. 研究内容和预期目标
主要研究内容:
1. 网页内容基本的抓取能力,通过对涉及的网页url层层解析,抓取目标网页内容。
2. 利用oauth授权协议原理进行网站授权。
3. 研究的方法与步骤
1. 文献调查
对涉及到的重点技术,以及技术难点及时查阅图书馆资料以及网络资料,对资料进行分析、归纳,搞懂需要直接解决的难点,以及知识点的原理等知识。
2. 课题考察
4. 参考文献
[1] 用python写网络爬虫.(澳) richard lawson著,人民邮电出版社,2016
[2] 自己动手写网络爬虫.罗刚, 王振东编著,清华大学出版社,2010
[3] asp.net ajax在web开发中的应用[j].王时绘,陈志雄,朱荣钊.计算机与信息技术,2008(z1)
5. 计划与进度安排
1. 2022.1 ---- 2022.3 查阅资料,了解课题背景, 撰写开题报告
2. 2022.3 ---- 2022.4 根据课题要求,进行需求分析,熟悉开发工具
3. 2022.4 ---- 2022.4 根据分析结果,对网站进行概要设计
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
