爬虫助手WebScraper中文网

Web Scraper官方文档使用说明书中文版(第一部分)

[复制链接]
发表于 2021-12-3 22:07:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 webscraper 于 2021-12-3 22:20 编辑

这本文档就是一个说明书,在使用前必读,除非你对web scraper很熟悉。

一、安装



1、安装

你可以从 Web Scraper插件下载专区下载插件并安装,安装完成后需重启 Chrome 以确保扩展加载完成。如果你不愿重启 Chrome 亦可在安装后新建的标签页(tabs)中使用此扩展。



2、要求

此扩展要求 Chrome 版本号 31 及以上。无操作系统限制。【欲查看 Chrome 版本,可在浏览器地址栏中输入:chrome://settings/help,下图 Chrome 版本 63】

w1.jpg

二、开启 Web Scraper





Web Scraper 集成入 Chrome 开发者工具(Developer Tools)。图 1 展示了如何打开。你也可以使用以下快捷键(Shortcuts)打开 开发者工具。请在打开 开发者工具 后选中 Web Scraper 标签。

快捷键:

Windows,Linux:Crtl + Shift + I 或 F12,开启 开发者工具

Mac:Cmd + Opt + I,开启 开发者工具

w2.jpg

开启 Web Scraper

三、抓取网站





打开欲抓取网站。



1、建立 Sitemap



欲创建 Sitemap 首先需要指定起始 URL ,这个 URL 是抓取的起点。如果抓取始于多个位置,你也可以指定多个起始 URL。比如,你想要抓取多个搜索结果,就可以为每个搜索结果建立独立的起始 URL。

指定存在序列关系的多个 URL



如果某个网站的页面 URL 中存在数列, 使用指定序列比使用 Link 选择器的方式抓取网页更为合理。用指定序列 [1-100] 替代 URL 中页码部分。如页码部分有 0 作为占位符可使用 [001-100]。入页码有固定间隔可使用 [0-100:10]。

示例如下:

http://example.com/page/[1-3] 可抓取以下网页:

* http://example.com/page/1

* http://example.com/page/2

* http://example.com/page/3



http://example.com/page/[001-100] 可抓取以下网页:

* http://example.com/page/001

* http://example.com/page/002

* http://example.com/page/003



http://example.com/page/[0-100:10] 可抓取以下网页:

* http://example.com/page/0

* http://example.com/page/10

* http://example.com/page/20

创建选择器(Selector)



在创建 sitemap 后可为其添加选择器,在选择器面板可以添加新选择器、对原有选择器进行改进或浏览选择器树状结构。选择器能够以树状结构方式添加,Web Scraper 也按照此结构抓取网页。比如有一个新闻网站,你想抓取上面所有文章,这些文章都链接在网站首页。如下图示例网站:

w3.jpg

欲抓取此网站,你可以建立 Link 选择器提取首页所有文章链接。然后在添加一个 Text 选择器作为子选择器从上面的 Link 选择器指向的网页提取文章。下图展示了如何为此网站建立 sitemap:

w4.jpg

需注意,当创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。



更多关于选择器树状结构相关信息可在选择器文档中看到。你至少应当阅读以下核心选择器相关内容:

1、文本选择器(Text selector)

2、链接选择器(Link selector)

3、元素选择器(Element selector)

浏览选择器树状结构



在为 sitemap 建立好选择器后,你可以在 Selector graph panel 浏览选择器树状结构。下图展示了一个示例选择器图。

w5.jpg

抓取网站



在为 sitemap 建立选择器后可开始抓取网站。打开 Scrape 面板开始抓取。

w6.jpg

此时会打开一个网页窗口, scraper 会在其中加载网页并从中提取数据。在抓取完成后此窗口会关闭并弹出提示信息。你可以打开 Browse 面板查看抓取到的数据,并通过 Export data as CSV 面板将其导出。




Web Scraper中文网 - 用户指南

① 首先下载插件,可以参考《Web Scraper插件版本归档》。
② 安装插件,可以参考《如何在谷歌Chrome浏览器上安装Web Scraper插件》。
③ 插件的使用教程,参考《Web Scraper插件使用教程
※ 遇到问题,鼓励先自行解决或网友互助,在《Web Scraper插件网友互助》求助。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

QQ|Archiver|手机版|网站地图|爬虫助手WebScraper中文网 ( 渝ICP备18015624号-16 )

GMT+8, 2024-9-19 10:02 , Processed in 0.093064 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表