NIUCLOUD是一款SaaS管理后台框架多应用插件+云编译。上千名开发者、服务商正在积极拥抱开发者生态。欢迎开发者们免费入驻。一起助力发展! 广告
## **创建项目** scrapy startproject project_name ---------- 创建爬虫模板 scrapy genspider douban movie.douban.com ----------------- 启动爬虫 scrapy crawl 爬虫名 输出日志 scrapy crawl douban_spider -s LOG_FILE=douban.log 把下面命令保存到文件,然后直接运行这文件 from scrapy import cmdline cmdline.execute('scrapy crawl douban_spider -s LOG_FILE=douban.log'.split()) split()去掉空字符,防止出错 ***** 命令行调试模式 scrapy shell 抓取的url ----------------- 保存数据 scrapy crawl douban_spider -o test.csv scrapy crawl douban_spider -o test.json --------------------- fetch命令主要用来显示爬虫爬取的过程 scrapy fetch http://mail.qq.com/ --------------------- scrapy resume crawl 帮你google了一下scrapy resume crawl,然后直接就定位到官方文档的任务暂停与重启了 就是加一个选项就OK scrapy crawl somespider -s JOBDIR=crawls/somespider-1