基于网络爬虫的网络小说主题分析系统界面设计开题报告

 2023-02-05 11:02

1. 研究目的与意义

在互联网时代,电子书顺时而生,以低成本、携带方便、可携带量大等特点进入人们的日常生活,在很多方面替代了传统书籍。而电子书中的网络小说作为人们工作闲暇之余的一种消遣工具,近年来一直处于高速发展的状态。目前网络小说种类繁多,小说总量十分庞大,对于一个小说网站而言,小说书本数量一般从几千到几万甚至更多,而用户一般难以从大量的小说中挑选到自己喜欢的小说。大量信息被制造和传播,导致用户越来越难以及时并准确的从网络上获取而要的信息,提升了用户获取信息的成本,这种现象被称之为信息过载。

信息过载问题不仅降低了用户从互联网得到的受益程度,同时对于信息生产者而言也是一个巨大的挑战,如何让信息准确有效的展示给有特定需求的用户群体成为一个越来越重要的研究点。针对网络小说中信息过载问题,通过设计兼具搜索和推荐功能的系统界面解决相关问题。通过对小说进行分类,分榜单,用户可以根据类别或榜单寻找该类下的小说;设计搜索引擎依据用户的查询信息来返回包含相关内容的小说;通过分析物品信息、用户画像、用户历史行为等数据,从海量的数据信息中抽取出用户可能感兴趣的部分整合成推荐集合并呈现给用户。通过为用户提供功能齐全的个性化信息服务,从而不断维持用户对产品的依赖性。

2. 研究内容和预期目标

本课题主要研究内容是通过设计网络小说系统界面,使用网络爬虫技术抓取网络小说信息的数据采集系统。

首先,对目前各种网络爬虫技术进行深入的研究。了解各种类型爬虫的原理和具体实现过程,分析对比各种类型网络爬虫原理,以及优点缺点,并结合pyqt,nltk等关键技术。其次,结合网络小说网站特征,分析系统需求与架构设计,提出基于网络爬虫的网络小说系统界面设计的设计方案。针对特定网页特定业务,选择面向主题的爬虫技术,对系统各功能模块进行详细设计,最后测试系统运行,实现了网络小说系统设计的网络爬虫系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

网络爬虫作为搜索引擎的重要组成部分,已经发展了二十多年。1990年加拿大麦吉尔大学的三名学生发明了Arichic,可以说是现代网络搜索引擎的先驱;1993年春,麻省理工学院学生马休格雷开发出世界上第一个爬虫程序,命名为“互联网漫游者”,这是网络爬虫的雏形。而后,一些计算机工程师在漫游者的基础上做了改进,搜索引擎和网络爬虫即使得以进步和发展。1994年DcBra P等人提出了fish-scarch 算法,它主要指导爬虫,通过使用查询来爬行系统。2003年,学者Abitcboul 等人提出了一种基于在线页面中重要指数(OPIC)的抓取战略算法;2013年,YadavP等人提出了基于本体的内容聚焦爬行的智能爬行的新概念。2017年10月在罗马尼亚召开的第21届系统理论、控制和计算国际会议(ICSTCC)中,Catalin等人针对爬虫不断优化带来了一系列新的挑战,提出了适应各种入侵检测系统(IDS)方法和工具结合挖掘算法,识别可疑网络爬虫生成的潜在威胁。

在国内,自2003年以来,全国多个研究机构针对信息挖掘每年都召开了很多的小型或大型的研讨会。2007年,浙江大学的罗兵基于普通网络爬虫抓取内容少于页面呈现的内容的基础上,设计深层网络爬虫,它增加了JavaScript脚本解析,可疑解决了Ajax通过异步请求,并返回初始加载内容。2009年,中国科技大学的曾伟辉通过研究对象切片算法构建了一个程序层次模型,不过它不能全面实现Ajax动态采集。同年,国防科技大学的袁小节提出了多层网页关联聚焦爬行模型和易扩展向量模型,基于协议驱动和事件驱动的综合聚焦爬虫模型。2018年,吴林等人提出一种新的基于PagcRank算法,并在主题爬虫算法中引入语义相似聚合的,从而大大提高了主题爬虫的查全率。

4. 计划与进度安排

第一阶段:2022.10.14—2022.10.31确定选题第二阶段:2022.11.01—2022.11.29 撰写、提交、修改开题报告第三阶段:2022.11.30—2022.01.17撰写、提交论文初稿和中期检查表第四阶段:2022.01.18—2022.04.26 反复修改论文并提交修改稿(二稿、三稿)、提交外文文献及译稿第五阶段:2022.04.27—2022.05.03 重复率检查、提交论文定稿版第六阶段:2022.05.11—2022.06.14 参加论文答辩

5. 参考文献

[1] yadav p, kalra m m,yadav k p.enhancingthw performance of web focused crawler using ontology [j].international journalof computersamp;technology,2013,4(2b2):477-482

[2] p.gupta,k,johari,implementation of webcrawler.emerging trends in engineering and technology,2009,838-843

[3]李文辉. 基于网络爬虫互联网涉税信息采集系统设计与实现[d].电子科技大学,2018. [4]司同. 实时社交媒体分析系统的设计与实现[d].哈尔滨工业大学,2013. [5]方维. 中国文学网站网络小说盈利模式研究[d].上海社会科学院,2011.

[6]林钊生. 基于混合推荐算法的网络小说推荐系统设计与实现[d].华南理工大学,2017. [7]解蕾. 基于java的包装纸盒远程定制系统的设计开发[d].西安理工大学,2019. [8]徐坤. 基于wpf技术的ats仿真系统设计及实现[d].北京交通大学,2019. [9]韩逸. 基于增量式爬虫的搜索引擎系统的设计与实现[d].东北大学,2015. [10]黄丽,石松芳.基于用户关注度的个性化推荐系统研究[j].软件导刊,2018,17(05):90-92. [11]陈冬林,聂规划,刘平峰.基于知识网格的电子商务推荐系统设计[j].计算机应用研究,2006(12):307-309.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。