博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy微信爬虫使用总结
阅读量:6345 次
发布时间:2019-06-22

本文共 1420 字,大约阅读时间需要 4 分钟。

scrapy+selenium+Chrome+微信公众号爬虫

概述

1、微信公众号爬虫思路:

参考:

2、scrapy框架图

scrapy整体框架图scrapy架构图

3、scrapy经典教程

参考:

4、其它

参考:

 

实践

1、环境的安装

  • selenium安装(pip install selenium)
  • chromedriver安装(注意与chrome版本兼容问题)
  • beautifulsoup4
  • scrapy
  • MongoDB、pymongo

MongoDB:

具体命令如下:

python连接MongoDB,需安装pip install mongoengine

启动:

sudo ./mongod --port 27017 dbpath "/software/mongodb-4.0.0/data/db"  --logpath "/software/mongodb-4.0.0/log/mongodb.log" --logappend   --replSet rs0

Windows下MongoDB数据导出:

mongodump --port 27017 -d wechat -o D:\MongoDB

Linux下MongoDB数据导入:

./mongorestore -h 127.0.0.1 --port 27017 -d wechat --drop /software/mongodb-4.0.0/wechat

 

数据导入时注意:

Do you run mongo in replica set, i.e., mongod --replSet rs0?

If yes, please remember to run in your mongo shell the command: rs.initiate()

 

 

参考:

 

2、cookie获取

selenium进行登录验证,保存cookies,为scrapy做准备。

参考:

3、爬虫

  1. cookies:scrapy spider初始化函数调用Chromedriver,并获取cookies
  2. 定位:spider初始化函数利用Chromedriver定位到需要抓取的页面
  3. 解析:parse函数处理Chromedriver自动定scrapy爬虫利用selenium实现用户登录和cookie传递位的页面信息,以及下一页URL
  4. 保存:scrapy配置MongoDB保存数据

参考:

4、django调用爬虫

5、django构建搜索引擎,搜索爬过的信息

参考:

 环境配置:

elasticsearch-rtf安装、pip install mongo-connector、pip install mongo-connector[elastic5]、pip install elastic2-doc-manager

MongoDB数据同步到elasticsearch:

mongo-connector -m localhost:27017 -t localhost:9200 -d elastic2_doc_manager

 

其它问题

1、selenium在新页面定位元素问题

参考:

2、

3、在管道中关闭爬虫

spider.crawler.engine.close_spider(spider, 'bandwidth_exceeded')

 

转载于:https://www.cnblogs.com/aoguren/p/9385340.html

你可能感兴趣的文章
Intel 被 ARM 逼急了
查看>>
testng + reportng 测试结果邮件发送
查看>>
神操作:如何将Vim变成一个R语言IDE
查看>>
百度亮相iDASH,推动隐私保护在人类基因组分析领域的应用
查看>>
民航局:春运期间10个大型机场将延长国内航班运行时间
查看>>
比特币暴涨拉升至1w美元以上,说比特币崩盘的专家要失望了
查看>>
Python「八宗罪」
查看>>
你的隐私还安全吗?社交网络中浏览历史的去匿名化
查看>>
NeurIPS 2018|如何用循环关系网络解决数独类关系推理任务?
查看>>
Windows 10 份额突破 40%,Windows 7 连跌四月终回升
查看>>
怎么把Maven项目转为动态Web项目?
查看>>
Arm发布Cortex-A76AE自动驾驶芯片架构,宣示车载系统市场主权
查看>>
FreeBSD ports中make可带有的参数(转)
查看>>
Hibernate入门教程
查看>>
Java支付宝扫码支付[新]
查看>>
SpringMVC 拦截器 筛选
查看>>
CronExpression介绍
查看>>
第十八章:MVVM(八)
查看>>
点击表头切换升降序排序方式
查看>>
第26天,Django之include本质
查看>>