基于知网数据挖掘—Python爬虫

type

status

date

slug

summary

说明摘要

爬虫模块：使用BeautifulSoup，etree，requests，json和pandas扩展库对知网关键词搜索获取论文列表存入为csv文件。搜索关键词为“人工智能”和“大数据”，也可以输入其他关键词进行爬取。总共爬取255771篇论文。

数据处理：对爬去到的论文数据进行处理，1、是对重复项进筛选，并且把重复内容进行删除。2、是对关键词进行划分，关键词保留第一关键词。3、人工智能相关论文和大数据相关论文进行合并存为csv文件。如果需要存进MySQL也可以进行存储。

数据展示：1、总体情况的展示，分为研究层次、文献来源、论文类型、论文引用情况、总体趋势、学科分类和关键词分布7个图表展示形式。2、学术论文的展示，分为博士论文学校分布、硕士论文学校分布、学术论文总体情况、学科分布、学术论文总体趋势、主要关键词分布、博士论文导师学生发文和硕士论文导师学生发文情况8个图表形式。3、期刊的展示，分为期刊发文组织分布、研究热词分布、期刊学科分布和期刊关键词分布4个图表的形式。4、人工智能和大数据对比展示，分为大数据和人工智能历年来的发文情况、相关top论文列表、学科分类和发文类型4个图表的形式。

详细说明

爬虫模块

首先打开知网空间网页，url：https://search.cnki.com.cn/，转到开发者模式，用F12按钮或者按Ctrl+Shift+C打开开发者模式，之后搜索框输入关键词‘大数据’，点击文献类型，点击期刊，开发者模式点击‘网络监视器’，监视类型为‘XHR’，我们可以发现筛选器的文件类型是‘ArticleFilter’，点击POST地址为https://search.cnki.com.cn/api/FileterResultApi/ArticleFileter列表，在右侧中点击‘请求’，可查看POST数据字段，如下图所示。

用上述POST地址，我们可获取文献类型，学科分类和研究层次类型。

通过观察POST请求，为了获取文献类型JSON结果，只需要传入以下这几个字段，{'searchType': 'MulityTermsSearch', 'ParamIsNullOrEmpty': 'false','Islegal': 'false', 'KeyWd': '大数据', 'ExcludeField': 'Type'}，josn结果如下图所示，通过对json文件的处理获取文献类型的TypeCode,FilterName。

获取到上表中的TypeCode，作为学科分类的POST需求传入获取json结果。POST传输字段如下，

{'searchType': 'MulityTermsSearch', 'ParamIsNullOrEmpty': 'false','Islegal': 'false', 'KeyWd': '大数据', 'ExcludeField': "Subject", 'Type': 文献类型返回的TypeCode,'ArticleType': 文献类型返回的TypeCode}，获取结果如下。获取到的TypeCode传入到研究层次POST需求中。

研究层次的POST需求，

{'searchType': 'MulityTermsSearch', 'ParamIsNullOrEmpty': 'false','Islegal': 'false', 'KeyWd': keyword, 'ExcludeField': "Level", 'Type': 文献类型TypeCode,'ArticleType': 文献类型TypeCode, 'Subject': 学科分类TypeCode}。

上述3次操作是为了获取筛选文献类型、学科分类和研究层次3个的传输TypeCode，并且同时传入url为https://search.cnki.com.cn/Search/ListResult，POST请求为

{'searchType': 'MulityTermsSearch', 'ArticleType': itype['TypeCode'], 'ParamIsNullOrEmpty': 'false','Islegal': 'false', 'KeyWd': '大数据', 'Type': 文献类型TypeCode, 'Order': '1', 'Page': page, 'Subject': 学科分类TypeCode, 'Level': 研究层次TypeCode}，获取结果为文献类型，学科分类和研究层次3个筛选器都选中的论文列表。我们代码中的模拟如下图所示一致。

上述两个不同url获取结果用request.post()方法,传入所需url和data,data传入的是POST请求，返回text。代码如下。

解析网页：如下图所示选择需要爬取的内容，定位并检查元素，选择HTML代码右键复制xpath，通过etree获取对应的内容，以论文名称和论文url为例，对应的xpath代码需要处理成'//div[@class="lplist"]/div['+str(num)+']/p[1]/a[1]/@href'和'//div[@class="lplist"]/div['+str(num)+']/p[1]/a[1]/@title'，num是1-20的数字，是一个显示页面中论文的数量，依次递增去调用不同论文的论文url和论文名称。

上表就是每个字段的xpath处理后的地址，我们通过etree的xpath对这些地址解析获取需要的字段信息。其中Totur为导师名称，只在硕士论文和博士论文列表中有这个字段，所以其他类型论文中我们赋值’-‘，Organization和Public在不同论文类型中有不同的xpath地址，在爬取过程中进行处理。上述处理并获取html中我们想要内容的代码如下。