Web Scraper抓取分页列表及其二级页面内容

Kevin 杂记 1,728 次浏览 2条评论

Web Scraper是一个自动抓取网页内容的Chrome插件,通过简单图形化操作设置就能使用,不会编程也可以实现普通需求的网络爬虫。例如较为常见的使用场景,先获取网站的分页列表,然后再分别访问其中页面以获取特定内容,下面配合截图介绍该用途的具体设置方法。

Web Scraper 安装

Chrome应用商店下载地址。如果不能爬墙,可以用这个网站转换下载(注:新版Chrome已不能直接用拖拽方式安装,需要先将下载文件后缀改为zip,然后解压到文件夹。再打开Chrome扩展页面右上角开发者模式,点击加载已解压的扩展程序)。

安装后按F12键调出开发者工具,点击菜单栏里的 Web Scraper 选项卡,之后就在这里操作了。

Web Scraper 配置

1. 点击Create Sitemap新建项目,Sitemap name随意填个名称,Start URL输入要爬取的网页链接。

Create Sitemap 新建项目

设置名称和爬取网页链接

如果要爬多个网站分页,用 [XX-XX] 区分表示。例如要爬10个分页,链接格式如下:

http://example.com/page/[1-10]

2. 创建后点击Add new selector按钮开始设置选取规则。

Add new selector

通常只需设置Id、Type、Selector、Multiple这几个选项。

  • Id:选择器名称,随便取个;
  • Type:抓取内容的类型;
  • Selector:先点击Select,然后鼠标选择网页元素,选好后点击Done Selecting按钮;
  • Multiple:如果要选择全部相同元素,需勾选这个选项;

本文目的是抓取分页列表,然后再获取二级页面里的特定内容。所以第一步先选择网页列表区域。

获取分页列表区域

3. 创建获取列表内容的规则后,接着点击该规则,再点击Add new selector按钮继续创建其它规则。

点击创建的选择器

继续创建新的选择器

下一步创建选择页面内容链接的规则,类型选择Link。连续点击2个相同元素会自动选中所有相同元素。下图所示。

获取二级页面链接

4. 接着我们再点击创建好的规则,在里面继续新建一个选择元素,作用是要抓取二级页面里的哪些内容元素。

例如抓取二级页面里的下载链接。

获取二级页面内特定内容

5. 创建流程所需的所有规则后,点击Scrape按钮开始爬取内容,点击后有个间隔延迟时间,通常保持默认的就行。之后会自动打开一个浏览器小窗口刷新页面,任务完成后会自动关闭。

开始抓取网页内容

Web Scraper 数据

待自动抓取内容完成后,点击Export data as CSV按钮导出数据。

导出数据到CSV文件

之后就可以用Excel软件来查看所抓取的内容了。

查看抓取到的数据内容

结束语

以上就是用Web Scraper抓取多个网页内容的方法。虽然图片比较多,但实际设置是很简单的。首先明确抓取网页内容的过程步骤,然后按次序创建相应的选择规则即可。

上面方法适用于有各自分页链接的网页使用,如果是那种AJAX加载方式,Web Scraper也支持,具体可以看官方文档说明。

发表评论

电邮地址用于 Gravatar 头像显示,不会被公开可见。