爬虫助手WebScraper中文网

Web Scraper 高级用法:批量抓取链接数据 翻页数据

[复制链接]
发表于 2021-12-14 23:50:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。

前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以预测他们的行为,达到我们的目的。

今天我们就找找豆瓣网站的规律,想办法抓取全部数据。今天的规律就从常常被人忽略的网址链接开始。

1.链接分析

我们先看看第一页的豆瓣网址链接:

https://movie.douban.com/top250?start=0&filter=

  • https://movie.douban.com 这个很明显就是个豆瓣的电影网址,没啥好说的
  • top250 这个一看就是网页的内容,豆瓣排名前 250 的电影,也没啥好说的
  • ? 后面有个 start=0&filter= ,根据英语提示来看,好像是说筛选(filter),从 0 开始(start)


w1.jpg

再看看第二页的网址链接,前面都一样,只有后面的参数变了,变成了 start=25,从 25 开始;

w2.jpg

我们再看看第三页的链接,参数变成了 start=50 ,从 50 开始;

w3.jpg

分析 3 个链接我们很容易得出规律:

start=0,表示从排名第 1 的电影算起,展示 1-25 的电影

start=25,表示从排名第 26 的电影算起,展示 26-50 的电影

start=50,表示从排名第 51 的电影算起,展示 51-75 的电影

…...

start=225,表示从排名第 226 的电影算起,展示 226-250 的电影


规律找到了就好办了,只要技术提供支持就行。随着深入学习,你会发现 Web Scraper 的操作并不是难点,最需要思考的其实还是这个找规律。



Web Scraper 控制链接参数翻页



Web Scraper 针对这种通过超链接数字分页获取分页数据的网页,提供了非常便捷的操作,那就是范围指定器。

比如说你想抓取的网页链接是这样的:

http://example.com/page/1
http://example.com/page/2
http://example.com/page/3


你就可以写成 http://example.com/page/[1-3],把链接改成这样,Web Scraper 就会自动抓取这三个网页的内容。

当然,你也可以写成 http://example.com/page/[1-100],这样就可以抓取前 100 个网页。

那么像我们之前分析的豆瓣网页呢?它不是从 1 到 100 递增的,而是 0 -> 25 -> 50 -> 75 这样每隔 25 跳的,这种怎么办?

http://example.com/page/0
http://example.com/page/25
http://example.com/page/50


其实也很简单,这种情况可以用 [0-100:25] 表示,每隔 25 是一个网页,100/25=4,爬取前 4 个网页,放在豆瓣电影的情景下,我们只要把链接改成下面的样子就行了;

https://movie.douban.com/top250?start=%5B0-225:25%5D&filter=

这样 Web Scraper 就会抓取 TOP250 的所有网页了。

抓取数据



解决了链接的问题,接下来就是如何在 Web Scraper 里修改链接了,很简单,就点击两下鼠标:

1.点击 Stiemaps,在新的面板里点击 ID 为 top250 的这列数据:

w4.jpg

2.进入新的面板后,找到 Stiemap top250 这个 Tab,点击,再点击下拉菜单里的 Edit metadata

w6.jpg

3.修改原来的网址,图中的红框是不同之处:

w7.jpg

修改好了超链接,我们重新抓取网页就好了。操作和上文一样,我这里就简单复述一下:

  • 点击 Sitemap top250 下拉菜单里的 Scrape 按钮
  • 新的操作面板的两个输入框都输入 2000
  • 点击 Start scraping 蓝色按钮开始抓取数据
  • 抓取结束后点击面板上的 refresh 蓝色按钮,检测我们抓取的数据


w8.jpg

我们这里先不管顺序问题,因为这个属于数据清洗的内容了,我们现在的专题是数据抓取。先把相关的知识点讲完,再攻克下一个知识点,才是更合理的学习方式。

这期讲了通过修改超链接的方式抓取了 250 个电影的名字。下一期我们说一些简单轻松的内容换换脑子,讲讲 Web Scraper 如何导入别人写好的爬虫文件,导出自己写好的爬虫软件。

参考阅读:《使用Web Scraper 插件抓取豆瓣高分电影

作者:卤蛋实验室


Web Scraper中文网 - 用户指南

① 首先下载插件,可以参考《Web Scraper插件版本归档》。
② 安装插件,可以参考《如何在谷歌Chrome浏览器上安装Web Scraper插件》。
③ 插件的使用教程,参考《Web Scraper插件使用教程
※ 遇到问题,鼓励先自行解决或网友互助,在《Web Scraper插件网友互助》求助。


回复

使用道具 举报

发表于 2023-10-19 11:30:33 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

QQ|Archiver|手机版|网站地图|爬虫助手WebScraper中文网 ( 渝ICP备18015624号-16 )

GMT+8, 2024-9-17 04:26 , Processed in 0.102775 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表