首页 » Python » python基础知识:Scrapy

python基础知识:Scrapy

 

1、Scrapy是什么

Scrapy是python开发的一个快速web爬虫抓取框架,用于抓取web站点并从页面中提取结构化数据。Scrapy用途广泛,可用于数据挖掘、监测和自动化测试等。

我们在最终的爬虫项目,会利用Scrapy做一个SEO数据自动监控系统。当然用我们之前学习的爬虫知识也是可以做到的,但scrapy相对成熟、完善、强壮稳定,所以就选用scrapy来做SEO数据监控。

2、Scrapy安装

做好心理准备,scrapy的安装较麻烦,除了scrapy本身还需要众多依赖库,且需要python2.7版本,所以如果你python版本不是2.7,则需要先对python升级至2.7,在安装scrapy及依赖的库。

依赖库:
- lxml
- zope.interface
- Twisted
- pyOpenSSL
- pywin32
- Scrapy

具体的安装方法去google搜索,关键词:{系统及版本}安装scrapy,如:centos7 install scrapy

3、Scrapy入门

创建项目:scrapy startproject seo(seo为自定义的项目名称)

因为scrapy是一个框架,所以一个项目下会生成很多个文件,不会像我们之前学习的爬虫只有一个文件,scrapy项目每个文件都对应不同的功能,我们来看下scrapy的文件结构。

文件结构:

第一个SEO目录:是我们刚创建的项目总文件夹,下面存放这个项目所需要的所有文件
scrapy.cfg:是项目的配置文件,一般不需要修改
第二个SEO目录:存放该项目的python模块,scrapy默认设置该文件夹名与项目名一致。我们将对该文件夹下的python文件进行修改
items.py:定义需要抓取并需要后期处理的数据,提供一个类似dict的api接口。
setting.py:项目的设置文件,用于修改user-agent、设定爬虫间隔、抓取频率、代理及各种中间件等
pipeline.py:用于存放执行后期数据处理的功能,从而使数据的爬取和处理分开
spiders文件夹:用于存放爬虫文件,爬虫文件需要单独新建

middlewares.py:中间件文件,不在scrapy默认生成的项目文件之中,有需要的时候单独新建
更多知识可见:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

原文链接:python基础知识:Scrapy,转载请注明来源!

0