不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

| 阅读量 | 分类: 经验心得 | 作者: 读者投稿 | 时间：2018年02月01日 07:48

几乎每个人都有需要从网上批量获取信息的需求，比如需要批量采集网站上的邮箱、批量采集1688、58同城上的商家信息、联系方式，如果让你去学编程语言?我看很多人连软件都不会装，更何况一门完整的编程语言，还要学会更正网页知识;学习火车头软件?一是贵，二是操作非常麻烦。

今天就推荐一款Google研发的数据采集插件，这款插件可以自带cookies，自带反爬虫能力，非常容易上手，按照流程下来，基本上10分钟就能学会了。我平时也经常用它采集微博、知乎、豆瓣、58同城、大众点评、汽车之家等等网站的内容，非常方便。

Web scraper是google强大插件库中非常强大的一款数据采集插件，有强大的反爬虫能力，只需要在插件上简单地设置好，可以快速抓取知乎、简书、豆瓣、大众、58等大型、中型、小型的90%以上的网站，包括文字、图片、表格等内容，最后快速导出csv格式文件。Google官方对web scraper给出的说明是：

使用我们的扩展，您可以创建一个计划(sitemap)，一个web站点应该如何遍历，以及应该提取什么。使用这些sitemaps,Web刮刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导出为CSV。

本系列是关于web scraper的系类介绍，将会完整介绍流程介绍，用知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取，以及一些反爬虫技术等全部内容。

Ok，今天就介绍web scraper的安装以及完整的抓取流程。

一、web scraper的安装

Web scraper是google浏览器的拓展插件，只需要在google浏览器上安装就可以了，介绍2种安装方法：

1、打开google浏览器更多工具下的拓展程序——进入到chrome 网上应用点——搜索web scraper——然后点击安装就可以了，如下图所示。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第1张

但是以上的安装方法需要**到国外的网站上，所以需要用到**，如果有**的就可以用这种方法，如果没有就可以用下面的第二种方法：

2、通过链接：http://pan.baidu.com/s/1skXkVN3 密码：m672，下载web scraper安装程序。然后直接将安装程序拖入到chrome中的拓展程序就可以完成安装了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第2张

完整完后就马上可以使用了。

二、以知乎为例介绍web scraper完整抓取流程

1、打开目标网站，这里以采集知乎第一大v张佳玮的关注对象为例，需要爬取的是关注对象的知乎名字、回答数量、发表文章数量、关注着数量。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第3张

2、在网页上右击鼠标，选择检查选项，或者用快捷键 Ctrl + Shift + I / F12 都打开 Web Scraper。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第4张

3、打开后点击create sitemap选择create sitemap创建一个站点地图。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第5张

点击create sitemap后就得到如图页面，需要填写sitemap name，就是站点名字，这点可以随便写，自己看得懂就好;还需要填写start url，就是要抓取页面的链接。填写完就点击create sitemap，就完成创建站点地图了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第6张

具体如下图：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第7张

4、设置一级选择器：选定采集范围

接下来就是重中之重了。这里先介绍一下web scraper的抓取逻辑：需要设置一个一级选择器(selector)，设定需要抓取的范围;在一级选择器下建立一个二级选择器(selector)，设置需要抓取的元素和内容。

以抓取张佳玮关注对象为例，我们的范围就是张佳玮关注的对象，那就需要为这个范围创建一个选择器;而张佳玮关注的对象的粉丝数、文章数量等内容就是二级选择器的内容。具体步骤如下：

(1) Add new selector 创建一级选择器Selector：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第8张

点击后就可以得到下图页面，所需要抓取的内容就在这个页面设置。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第9张

id：就是对这个选择器命名，同理，自己看得懂就好，这里就叫jiawei-scrap。

Type：就是要抓取的内容的类型，比如元素element/文本text/链接link/图片image/动态加载内Element Scroll Down等，这里是多个元素就选择element。

Selector：指的就是选择所要抓取的内容，点击select就可以在页面上选择内容，这个部分在下面具体介绍。

勾选Multiple：勾选 Multiple 前面的小框，因为要选的是多个元素而不是单个元素，当勾选的时候，爬虫插件会识别页面下具有相同属性的内容;

(2)这一步就需要设置选择的内容了，点击select选项下的select 得到下图：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第10张

之后将鼠标移动到需要选择的内容上，这时候需要的内容就会变成绿色就表示选定了，这里需要提示一下，如果是所需要的内容是多元素的，就需要将元素都选择，例如下图所示，绿色就表示选择的内容在绿色范围内。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第11张

选择内容范围后，点击鼠标，选定的内容范围就会变成如下图的红色：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第12张

当一个内容变红后，我们就可以选择接下来的第二个内容，点击后，web scraper就会自动识别你所要的内容，具有相同元素的内容就都会变成红色的。如下图所示：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第13张

检查这个页面我们需要的内容全部变成红色之后，就可以点击 Done selecting选项了，就可以得到如下图所示：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第14张

点击save selector，保存设置。到这里后，一级选择器就创建完成了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第15张

5、设置二级选择器：选择需要采集的元素内容。

(1)点击下图中红框内容，就进入一级选择器jiawei-scrap下：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第16张

(2)点击add new selector创建二级选择器，来选择具体内容。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第17张

得到下图，这跟一级选择器的内容是相同的，但是设置是有区别的。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第18张

id：代表抓取的是哪个字段，可以取该字段的英文，比如要选「作者」，就写「writer」;

Type：这里选Text选项，因为要抓取的是文本内容;

Multiple：不要勾选 Multiple 前面的小框，因为在这里要抓取的是单个元素;

保留设置：其余未提及部分保留默认设置。

(3)点击select选项后，将鼠标移到具体的元素上，元素就会变成黄色，如下图所示：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第19张

在具体元素上点击后，元素就会变成红色的，就代表选定该内容了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第20张

(4)点击Done selecting后完成选择，再点击save selector后就可以完成关注对象知乎名字的选取了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第21张

重复以上操作，直到选完你想爬的字段。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第22张

(5)点击红框部分可以看到采集的内容。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第23张

Data preview可以看到采集内容，edit可以对设置的内容做修改。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第24张

6、爬取数据

(1)只需要设置完所有的 Selector，就可以开始爬数据了，点击 Scrape map，

选泽scrape;：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第25张

(2)点击后就会跳到时间设置页面，如下图，由于采集的数量不大，保存默认就可以，点击 start scraping，就会跳出一个窗口，就开始正式采集了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第26张

(3)稍等一会就可以得到采集效果，如下图：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第27张

(4)选择sitemap下的export data as csv选项就可以将采集的结果以表格的形式导出。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第28张

表格效果：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集豆瓣网免费资源 Google 经验心得第29张

以上就是以知乎为例介绍基本的采集步骤和设置，看着虽然细节繁多，但是仔细算下来真没多少步骤，基本上10分钟就能够完全掌握采集的流程;无论是什么类型的网站，设置的基本流程都是大致一样的，有兴趣可以认真深入研究。

作者：白面书生微信：zds369466004

相关阅读：
介绍一些数据收集的方法
由一张图想到的数据收集
如何进行网站分析?

顶: 7 踩: 0

来源：卢松松博客 QQ/微信：13340454 ，转载请注明出处！

本文地址：https://lusongsong.com/reed/9885.html

发表感想加入微信群

热门跟帖

龙华弱电工程

很实用的干货，等会试试。

评论来自电脑端时间:2018-03-01 14:50:10

顶: 3 踩: 0 回复

1楼夜晚小能手

感谢群主分享，我最近也在找类似软件，对比了下·楼主分享的方法不太适合小白。
我发现有款软件用鼠标，用鼠标点点就能采集数据了，比较适合我们这些小白，叫做旋风采集器

跟帖来自电脑端时间:2018-03-29 12:08:19

顶: 0 踩: 0 回复

2楼

dede织梦模板

我平时也经常用它采集微博、知乎、豆瓣、58同城、大众点评、汽车之家等等网站的内容，非常方便。

评论来自电脑端时间:2018-02-05 09:41:57

顶: 2 踩: 0 回复

3楼

江苏鹰衡地磅厂家

采集网页数据很简单，用滤遍网页源码就行，其实我平时经常用到，不限制网页。

评论来自电脑端时间:2018-02-05 09:40:57

顶: 4 踩: 0 回复

4楼

爱卡客乐享还呗

大数据第一步数据采集

评论来自电脑端时间:2018-02-04 22:17:49

顶: 2 踩: 0 回复

5楼

网站分类目录

关注着数量

评论来自电脑端时间:2018-02-03 13:04:50

顶: 2 踩: 0 回复

6楼

美缝剂

很好的工具

评论来自电脑端时间:2018-02-02 16:07:35

顶: 1 踩: 0 回复

7楼

孕妇

就只能采集第一页的数据吗?分页的数据采集不到,怎么切换到分页采集?

评论来自电脑端时间:2018-02-02 14:47:15

顶: 2 踩: 0 回复

8楼

高新技术企业认定

很实用的干货，等会试试。

评论来自电脑端时间:2018-02-02 10:03:39

顶: 2 踩: 0 回复

9楼

港灵科技

可以的，好玩

评论来自电脑端时间:2018-02-02 10:00:26

顶: 2 踩: 0 回复

10楼

凤凰单枞鸭屎香

多了解了个爬取工具，也算多份知识储备，谢谢

评论来自电脑端时间:2018-02-02 09:57:55

顶: 0 踩: 0 回复

11楼

松山油脂

得仔细研究下

评论来自电脑端时间:2018-02-02 09:39:44

顶: 0 踩: 0 回复

12楼

中医养生网

高科技，就是不一样！！！

评论来自电脑端时间:2018-02-02 09:13:30

顶: 4 踩: 0 回复

13楼

一个人的战争

无法添加啊

评论来自电脑端时间:2018-02-02 08:57:21

顶: 0 踩: 0 回复

14楼

素材火

不错，学到了

评论来自电脑端时间:2018-02-02 08:57:05

顶: 4 踩: 0 回复

15楼

131419

只能一页一页的采集，不能自动换下页，不方便

评论来自电脑端时间:2018-02-02 08:54:44

顶: 0 踩: 0 回复

16楼

丝印论坛

好东西！就要多看多学，技术的进步带来很多方便。

评论来自电脑端时间:2018-02-02 06:14:49

顶: 0 踩: 0 回复

17楼

2018风口项目

货很干很实用，收藏了~谢谢作者分享

评论来自电脑端时间:2018-02-02 00:45:18

顶: 0 踩: 0 回复

18楼

音乐培训

很不错的文章，支持你

评论来自电脑端时间:2018-02-01 23:47:21

顶: 0 踩: 0 回复

19楼

源码商城

不错，学习了

评论来自电脑端时间:2018-02-01 23:20:22

顶: 0 踩: 0 回复

20楼

淘宝内部优惠券

挺不错的样子，回去试试！

评论来自电脑端时间:2018-02-01 21:59:30

顶: 4 踩: 0 回复

21楼

武汉中央空调销售公司

值得学习下

评论来自电脑端时间:2018-02-01 21:05:48

顶: 0 踩: 0 回复

22楼

娱乐天地

收藏了、回头试试

评论来自电脑端时间:2018-02-01 20:49:26

顶: 0 踩: 0 回复

23楼

零投资网上赚钱

不错，支持了！感谢楼主

评论来自电脑端时间:2018-02-01 20:45:43

顶: 0 踩: 0 回复

24楼

厦门seo

厦门SEO来支持下！

评论来自电脑端时间:2018-02-01 20:27:50

顶: 0 踩: 0 回复

25楼

吾优券

谢谢了，这个好用

评论来自电脑端时间:2018-02-01 19:58:21

顶: 0 踩: 0 回复

26楼

百度贴吧推广技术

看看

评论来自电脑端时间:2018-02-01 19:49:18

顶: 0 踩: 0 回复

27楼

APP开发

很不错，先收藏

评论来自电脑端时间:2018-02-01 18:03:01

顶: 0 踩: 0 回复

28楼

中迅软件开发APP开发

好像挺不错的样子，回去试试！

评论来自电脑端时间:2018-02-01 18:02:00

顶: 0 踩: 0 回复

29楼

郑州名表回收行情

谢谢作者白面书生，有机会尝试下，网站一直原创，有点累，不过还会坚持的！

评论来自电脑端时间:2018-02-01 18:00:15

顶: 0 踩: 0 回复

30楼

房产抵押贷款

表示看不懂。

评论来自电脑端时间:2018-02-01 17:56:21

顶: 0 踩: 0 回复

31楼

重庆LED

谢谢分享！收藏了

评论来自电脑端时间:2018-02-01 17:38:32

顶: 0 踩: 0 回复

32楼

微信加粉

很不错的思路，关键还在于怎么去执行的，感谢松哥分享

评论来自电脑端时间:2018-02-01 17:09:10

顶: 0 踩: 0 回复

33楼

有奖之家

不错的教程，非常有用，感谢作者无私奉献。

评论来自电脑端时间:2018-02-01 16:58:08

顶: 0 踩: 0 回复

33楼松松小哥

教程下来是不是更复杂的呢

跟帖来自电脑端时间:2018-02-01 18:00:52

顶: 0 踩: 0 回复

34楼

网络赚钱项目

长见识了

评论来自电脑端时间:2018-02-01 16:54:56

顶: 0 踩: 0 回复

35楼

uc信息流开户

这个真不错哦，不过有些代码不懂，这一块是硬伤！

评论来自电脑端时间:2018-02-01 16:45:34

顶: 4 踩: 0 回复

36楼

灯芯绒

数据安全呢？？？？

评论来自电脑端时间:2018-02-01 16:43:57

顶: 2 踩: 0 回复

37楼

群团购接龙小程序

表示看不懂

评论来自电脑端时间:2018-02-01 16:41:36

顶: 0 踩: 0 回复

38楼

专栏知识分享

不明觉厉啊，站长应该很喜欢这款插件吧？

评论来自电脑端时间:2018-02-01 16:39:06

顶: 0 踩: 0 回复

38楼松松小哥

好不好用试试就知道

跟帖来自电脑端时间:2018-02-01 18:01:50

顶: 0 踩: 0 回复

39楼

美国服务器

功能很强大，描述的很详细，帮助很大，谢谢分享^_^

评论来自电脑端时间:2018-02-01 16:21:42

顶: 0 踩: 0 回复

40楼

用友软件

值得收藏。

评论来自电脑端时间:2018-02-01 16:07:28

顶: 0 踩: 0 回复

41楼

那么多赚钱项目还不如这100撸的开心

恩，方法思路不错，但是具体方法也不是唯一的，说不定bug已经被知乎修复了，但是采集的这些内容没有数据价值就当学个方法了

评论来自电脑端时间:2018-02-01 15:52:45

顶: 1 踩: 0 回复

42楼

甘味健康网

好像挺不错的样子，回去试试！

评论来自电脑端时间:2018-02-01 15:38:32

顶: 0 踩: 0 回复

43楼

棋牌分享网

我怎么发现谷歌网站打不开了

评论来自电脑端时间:2018-02-01 15:35:02

顶: 0 踩: 0 回复

43楼丝印论坛

这个公司的网站，我好多年都打不开，不知道他们怎么赚的钱？

跟帖来自电脑端时间:2018-02-02 06:18:00

顶: 0 踩: 0 回复

44楼

食品检验工

不错

评论来自电脑端时间:2018-02-01 15:33:25

顶: 0 踩: 0 回复

45楼

主机吧

刚试了下还不错

评论来自电脑端时间:2018-02-01 15:27:00

顶: 0 踩: 0 回复

46楼

电商一站通

已收藏，要去练练手啦。

评论来自电脑端时间:2018-02-01 14:32:46

顶: 0 踩: 0 回复

47楼

合肥装修公司

学习了可惜GG不在国内

评论来自电脑端时间:2018-02-01 13:54:22

顶: 0 踩: 0 回复

48楼

大发迹手赚网

感谢分享，收藏了

评论来自电脑端时间:2018-02-01 13:37:31

顶: 0 踩: 0 回复

49楼

搜程网快排精灵

这个好多工具都可以傻瓜式的操作

评论来自电脑端时间:2018-02-01 13:13:06

顶: 0 踩: 0 回复

50楼

传奇今生红樱桃唇膏买一送一

这个小插件非常不错，简单易用，应用得到效果非常好

评论来自电脑端时间:2018-02-01 12:55:43

顶: 0 踩: 0 回复

51楼

微信公众号WiFi吸粉

谷歌还是厉害啊

评论来自电脑端时间:2018-02-01 12:26:21

顶: 0 踩: 0 回复

52楼

云飞挖矿虚拟币赚钱

学习了，还得操作一番才能熟练

评论来自电脑端时间:2018-02-01 12:05:56

顶: 0 踩: 0 回复

53楼

油茶籽油

有点厉害可以试试

评论来自电脑端时间:2018-02-01 11:50:20

顶: 0 踩: 0 回复

54楼

网络接入及安装服务

这款软件不错有没有中文版的

评论来自电脑端时间:2018-02-01 11:48:12

顶: 0 踩: 0 回复

55楼

李向宇博客

采集下来不知道有没有效果，有没有能变现

评论来自电脑端时间:2018-02-01 11:46:58

顶: 0 踩: 0 回复

56楼

香港银河集团

很有用的功能，学习了

评论来自电脑端时间:2018-02-01 11:25:35

顶: 0 踩: 0 回复

57楼

飞鸟慕鱼博客

学习了，很好的文章，一会试一下

评论来自电脑端时间:2018-02-01 11:06:20

顶: 0 踩: 0 回复

58楼

名表回收

很详细的步骤啊，谢谢分享了

评论来自电脑端时间:2018-02-01 11:02:15

顶: 0 踩: 0 回复

59楼

冷趣网冷知识

厉害了我的google，最近在学习python，期望以后能学到爬虫这块。

评论来自电脑端时间:2018-02-01 10:59:56

顶: 0 踩: 0 回复

60楼

李向宇博客

我只想知道，怎么上的外网？我也想啊。。。有的VP#，收费的，用一段时间就不能用了！想找个稳定的VP#。收费的也行。

评论来自电脑端时间:2018-02-01 10:55:11

顶: 0 踩: 0 回复

61楼

靠谱学生兼职网

这个技巧非常有用，原来它真有这么方便啊。

评论来自电脑端时间:2018-02-01 10:44:07

顶: 0 踩: 0 回复

62楼

网络整合营销

厉害，使用成功，但是如果是那种需要点开阅读更多的这种信息流列表怎么爬

评论来自电脑端时间:2018-02-01 10:25:52

顶: 4 踩: 0 回复

63楼

淘宝优惠券

写的很详细，很实用！！！多谢分享！！！

评论来自电脑端时间:2018-02-01 10:25:22

顶: 4 踩: 0 回复

64楼

烘干机

数据分析对于现在的商业来说越来越重要了

评论来自电脑端时间:2018-02-01 10:05:11

顶: 0 踩: 0 回复

65楼

点睛阁珠宝

看到代码头都大

评论来自电脑端时间:2018-02-01 09:54:27

顶: 0 踩: 0 回复

66楼

日本地铁

收藏了，谢谢分享哈！

评论来自电脑端时间:2018-02-01 09:21:38

顶: 0 踩: 0 回复

67楼

我的Excel表格下雪了

占一个沙发

评论来自电脑端时间:2018-02-01 09:16:36

顶: 0 踩: 0 回复

卢松松博客

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

| 阅读量 | 分类: 经验心得 | 作者: 读者投稿 | 时间：2018年02月01日 07:48

发表感想加入微信群

document.write('<a href="https://console.songsongyun.com/login/?back_url='+encodeURI(window.location.href)+'" target="_blank"><i class="fa fa-sign-in"></i> 点此登录松松云平台免费<i class="fa fa-address-card-o"></i>认证</a>');

龙华弱电工程

dede织梦模板

江苏鹰衡地磅厂家

爱卡客乐享还呗

网站分类目录

美缝剂

孕妇

高新技术企业认定

港灵科技

凤凰单枞鸭屎香

松山油脂

中医养生网

一个人的战争

素材火

131419

丝印论坛

2018风口项目

音乐培训

源码商城

淘宝内部优惠券

武汉中央空调销售公司

娱乐天地

零投资网上赚钱

厦门seo

吾优券

百度贴吧推广技术

APP开发

中迅软件开发APP开发

郑州名表回收行情

房产抵押贷款

重庆LED

微信加粉

有奖之家

网络赚钱项目

uc信息流开户

灯芯绒

群团购接龙小程序

专栏知识分享

美国服务器

用友软件

那么多赚钱项目还不如这100撸的开心

甘味健康网

棋牌分享网

食品检验工

主机吧

电商一站通

合肥装修公司

大发迹手赚网

搜程网快排精灵

传奇今生红樱桃唇膏买一送一

微信公众号WiFi吸粉

云飞挖矿虚拟币赚钱

油茶籽油

网络接入及安装服务

李向宇博客

香港银河集团

飞鸟慕鱼博客

名表回收

冷趣网冷知识

李向宇博客

靠谱学生兼职网

网络整合营销

淘宝优惠券

烘干机

点睛阁珠宝

日本地铁

我的Excel表格下雪了

相关文章阅读更多：Google 免费资源 豆瓣网

作者介绍

相关文章阅读更多：Google 免费资源豆瓣网