scrapy-环境安装+基本配置

1.安装

pip install scrapy

2.创建项目

scrapy startproject 项目名称

例: scrapy startproject firstBlood

2.1目录结构

firstBlood/
├── firstBlood
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders            # 爬虫文件存放目录
│       └── __init__.py
└── scrapy.cfg

3.生成爬虫文件

进入项目目录 cd firstBlood

scrapy genspider 爬虫名称 起始url

例: scrapy genspider first www.soulchild.cn

创建后的文件在firstBlood/spiders/first.py目录

4.运行爬虫

scrapy crawl 爬虫名称

例: scrapy crawl first

配置修改

settings.py


USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'

ROBOTSTXT_OBEY = False

LOG_LEVEL = 'ERROR'

相关文章

此处评论已关闭