关于scrapy框架的学习

发布时间 2023-07-14 16:52:36作者: 我是一个邓疯子
最近打算参加一个爬虫比赛,特来研究爬虫,在掌握了爬虫的基本实现后,我们需要用一个更高效的方式来写爬虫

这个时候便用到了爬虫框架scrapy

scrapy是什么?

Scrapy是一个应用程序框架,用于对网站进行爬行和提取结构化数据,这些结构化数据可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。
尽管Scrapy最初是为 web scraping 它还可以用于使用API提取数据(例如 Amazon Associates Web Services )或者作为一个通用的网络爬虫。

在附上自己对scrapy几大组件的运行以及理解

接下来开始scrapy的教程

一.首先需要创建一个项目,选择要在其中存储代码并运行的目录
scrapy startproject gaokaoSpider(项目名,最好以目的+spider结尾)

注意:命令行要在这个带有scrapy.cfg的目录下运行命令行

二.创建爬虫
scrapy genspider gaokao(爬虫名字) gkcx.eol.cn(爬取数据的域名)
成功则会如下: