scrapy-环境安装+基本配置

警告
本文最后更新于 2020-11-23 17:19,文中内容可能已过时。

1.安装

1
pip install scrapy

2.创建项目

1
scrapy startproject 项目名称

例: scrapy startproject firstBlood

2.1目录结构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
firstBlood/
├── firstBlood
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders            # 爬虫文件存放目录
│       └── __init__.py
└── scrapy.cfg

3.生成爬虫文件

进入项目目录 cd firstBlood

1
scrapy genspider 爬虫名称 起始url

例: scrapy genspider first www.soulchild.cn

创建后的文件在firstBlood/spiders/first.py目录

4.运行爬虫

1
scrapy crawl 爬虫名称

例: scrapy crawl first

配置修改

settings.py

1
2
3
4
5
6

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'

ROBOTSTXT_OBEY = False

LOG_LEVEL = 'ERROR'
请我喝杯水
SoulChild 微信号 微信号
SoulChild 微信打赏 微信打赏
0%