Web Scraper抓取分页列表及其二级页面内容

Kevin 杂记 1,988 次浏览 14条评论

Web Scraper是一个自动抓取网页内容的Chrome插件,通过简单图形化操作设置就能使用,不会编程也可以实现普通需求的网络爬虫。例如较为常见的使用场景,先获取网站的分页列表,然后再分别访问其中页面以获取特定内容,下面配合截图介绍该用途的具体设置方法。

Web Scraper 安装

Chrome应用商店下载地址。如果不能爬墙,可以用这个网站转换下载(注:新版Chrome已不能直接用拖拽方式安装,需要先将下载文件后缀改为zip,然后解压到文件夹。再打开Chrome扩展页面右上角开发者模式,点击加载已解压的扩展程序)。

安装后按F12键调出开发者工具,点击菜单栏里的 Web Scraper 选项卡,之后就在这里操作了。

Web Scraper 配置

1. 点击Create Sitemap新建项目,Sitemap name随意填个名称,Start URL输入要爬取的网页链接。

Create Sitemap 新建项目

设置名称和爬取网页链接

如果要爬多个网站分页,用 [XX-XX] 区分表示。例如要爬10个分页,链接格式如下:

http://example.com/page/[1-10]

2. 创建后点击Add new selector按钮开始设置选取规则。

Add new selector

通常只需设置Id、Type、Selector、Multiple这几个选项。

  • Id:选择器名称,随便取个;
  • Type:抓取内容的类型;
  • Selector:先点击Select,然后鼠标选择网页元素,选好后点击Done Selecting按钮;
  • Multiple:如果要选择全部相同元素,需勾选这个选项;

本文目的是抓取分页列表,然后再获取二级页面里的特定内容。所以第一步先选择网页列表区域。

获取分页列表区域

3. 创建获取列表内容的规则后,接着点击该规则,再点击Add new selector按钮继续创建其它规则。

点击创建的选择器

继续创建新的选择器

下一步创建选择页面内容链接的规则,类型选择Link。连续点击2个相同元素会自动选中所有相同元素。下图所示。

获取二级页面链接

4. 接着我们再点击创建好的规则,在里面继续新建一个选择元素,作用是要抓取二级页面里的哪些内容元素。

例如抓取二级页面里的下载链接。

获取二级页面内特定内容

5. 创建流程所需的所有规则后,点击Scrape按钮开始爬取内容,点击后有个间隔延迟时间,通常保持默认的就行。之后会自动打开一个浏览器小窗口刷新页面,任务完成后会自动关闭。

开始抓取网页内容

Web Scraper 数据

待自动抓取内容完成后,点击Export data as CSV按钮导出数据。

导出数据到CSV文件

之后就可以用Excel软件来查看所抓取的内容了。

查看抓取到的数据内容

结束语

以上就是用Web Scraper抓取多个网页内容的方法。虽然图片比较多,但实际设置是很简单的。首先明确抓取网页内容的过程步骤,然后按次序创建相应的选择规则即可。

上面方法适用于有各自分页链接的网页使用,如果是那种AJAX加载方式,Web Scraper也支持,具体可以看官方文档说明。

评论列表

  1. #1

    is naltrexone dangerous for women https://naltrexoneonline.confrancisyalgomas.com/

  2. #2

    ivermectin stromectol 3 mg tablet https://ivermectin.mlsmalta.com/

  3. #3

    dapoxetine soft 60mg https://ddapoxetine.com/

  4. #4

    effects of alcohol and vidalista https://vidalista40mg.mlsmalta.com/

  5. #5

    tadalafil 20 mg reviews https://wisig.org/

  6. #6

    hydroxychloroquine sulfate 200mg https://hydroxychloroquinee.com/

  7. #7

    albuterol mdi https://amstyles.com/

  8. #8

    buy prescription medications online mexico https://edmeds.buszcentrum.com/

  9. #9

    does dapoxetine work for diabetics https://dapoxetine.confrancisyalgomas.com/

  10. #10

    hydroxychloroquine zinc dose covid https://hhydroxychloroquine.com/

  11. #11

    ivermectin tablets dosage https://ivermectin1st.com/

  12. #12

    what parasites does ivermectin kill in humans http://ivermmectin.co/

  13. #13

    hydroxychloroquine test results https://hydroxychloroquine.webbfenix.com/

  14. #14

    viagra without a doctor prescription http://viaaagra.com/

发表评论

电邮地址用于 Gravatar 头像显示,不会被公开可见。