scrapy-环境安装+基本配置
1.安装
pip install scrapy
2.创建项目
scrapy startproject 项目名称
例:
scrapy startproject firstBlood
2.1目录结构
firstBlood/
├── firstBlood
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders # 爬虫文件存放目录
│ └── __init__.py
└── scrapy.cfg
3.生成爬虫文件
进入项目目录 cd firstBlood
scrapy genspider 爬虫名称 起始url
例:
scrapy genspider first www.soulchild.cn
创建后的文件在firstBlood/spiders/first.py
目录
4.运行爬虫
scrapy crawl 爬虫名称
例:
scrapy crawl first
配置修改
settings.py
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'
最后更新于 2020-11-23 09:19:16 并被添加「python 爬虫 scrapy」标签,已有 74 位童鞋阅读过。
本站使用「署名 4.0 国际」创作共享协议,可自由转载、引用,但需署名作者且注明文章出处
此处评论已关闭