[Python] 基于selenium的中国知网爬虫



[Python] 基于selenium的中国知网爬虫

特别声明:本站资源分别为免费资源、查看密码或解压密码资源、三个级别VIP会员资源。本站所有发布的内容都是安全,请放心下载!本站不可能所有资源都可以商业用途,原创或部分除外!如:商业用途请联系原作者购买正版。与本站无关!若侵犯到您的权益,请联系本站删除,我们将及时处理!

分享

项目地址:

> https://github.com/stay-leave/CNKI-selenium-crawler

配置:

本项目使用selenium模块,浏览器使用的是火狐。

1.下载geckodriver,地址https://github.com/mozilla/geckodriver/releases

2.将适配的安装包放置在火狐浏览器的安装路径、Python的Stricpts文件夹

3.将火狐的安装路径添加到电脑环境变量的用户变量的path中。


功能:

1.社科基金项目数据爬取




2.论文的元数据爬取



由于我在学习中是将关键词按年份聚类的,所以没有对单个论文的关键词作分隔。都是一个基金的所有产出论文的,可以在源码中修改。





3.论文的参考和引证的期刊文献爬取

参考文献





引证文献



注意事项:

1.任意网络均适用,不需要购买知网。

2.可以按原始代码从社科基金项目开始直到产出论文的参考、引证文献的爬取。

3.爬取速度可以调节,修改程序里的t.sleep()中的数值即可,建议1到6之间,可以采用random随机。

4.论文元数据爬取需要严格按照三个程序的顺序,即题名等、被引数等、论文地址。

5.所有结果均以excel方式保存,注意看文件路径。本项目中基金号为主键。

6.仅作学习使用。

分享到:
打赏
未经允许不得转载:

作者: cj13888, 转载或复制请以 超链接形式 并注明出处 易启发资源网
原文地址: 《[Python] 基于selenium的中国知网爬虫》 发布于2022-1-3

评论


切换注册

登录

忘记密码?

您也可以使用第三方帐号快捷登录

切换登录

注册

[Python] 基于selenium的中国知网爬虫

长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏