爬虫小器合集 | 不见面编程也能爬数据。爬虫实战01:用Excel爬取全国空气质量数据。

但初学者学习Python还是需要一两个月时间的,用Excel爬取全国空气质量数据

当前底主流爬虫手段是为此Python编程,Python的强毋庸置疑,但新家学习Python还是要一两单月时之。有无来部分还简单的爬取数据方式也?答案是有,DataCastle为您准备了如下小器,对于每个微器而唯有待花费十几分钟时间,跟着自己的手续走相同合就是好掌握它啦~


一、Microsoft Excel

图片 1

率先让大家一个用Excel爬取多少的措施,这里用的Microsoft Excel
2013版,下面手把手开始教学~


(1)新建Excel,打开她,如下图所示

作者:猿教授

(2)点击“数据”——“自网站”

提起爬取数据,我们一般想到的凡编程,其实不然,有些时候Excel就得,不过Excel对网站的数产生求,对,必须是Table结构!

(3)在弹出的对话框中输入目标网址,这里因全国实时空气质量网站否条例,点击转到,再导入

此次实战课题:用Excel爬取全国空气质量数据

挑选导入位置,确定

1. 找到数据输入

如图1,在Excel中各个选择菜单「数据」「获取标数据」「自网站」,弹出「新建Web查询」页面。

图片 2

祈求1 数据自网站

如图2,新建Web查询页面相当给一个Excel内嵌的浏览器。

图片 3

图2 Excel内嵌浏览器


(4)结果如果下图所展示,怎么样,是匪是怪赞赏?

2. 加载目标页面

拷贝站点地址http://www.86pm25.com/paiming.htm内嵌浏览器「地址栏」,点击「转到」,等待页面加载。

顾地址栏下方的提拔:单击(C)→,然后单击“导入”(C)

如图3,加载成功后,页面及每个表底左上角都发出一个艳情箭头,鼠标悬停在箭头上方,提示单击可选定此表

图片 4

希冀3 载入目标页


(5)如果只要实时更新数据,可以在“数据”——“全部翻新”——“连接性”中展开安装,输入更新频率即可

3. 导入目标数据

如图4,找到《全国空气质量实时排名》表,点击表左上角黄色箭头选中。

入选后黄色箭头→变成蓝色对钩
✔,整个表格呈现浅蓝色背景填充,此时点击「导入」,可能出弹窗提示,也恐怕无,确定后数已以Excel表格中了。

图片 5

祈求4 选中目标数据表

圈吧,用Excel爬取多少是免使编程有意趣,但是绝对十足直接了当、高效实用。


二、Google Sheet

4. 作业

与了实战,自己练习爬取以下数据:

  • 天下500强公司排行榜
  • 中国大学排行榜
  • 列车时刻表

恭贺您!获得一致桩元技能!!!

用Google
Sheet爬取多少前,要确保三碰:使用Chrome浏览器、拥有Google账号、电脑早已翻墙。如果当时三个规格抱有了的话,下面我们即便开吧~

(1)打开Google
Sheet网站:

(2)在首页上点击“转至Google表格”,然后登录自己的账号,可以望如下界面,再点击“+”创建新的表

新建的表格如下:

(3)打开要爬取的对象网站,一个全国实时空气质量网站
,目标网站上的报表结构要下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是设爬取数据的对象网站,“查询”中输入“list”或“table”,这个在数量的切实可行组织类型,“索引”填阿拉伯数字,从1起来,对诺在网站受定义的哪一样客报表或列表

对咱们只要爬取的网站,我们当Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后即爬得多少啦

(5)将爬取好之报表存到地头

凡是无是感到超级简单?

三、you-get

当即是一个程序员基于python
3开发之品种,已经在github上面开源,支持64只网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的若可知体悟的网站都产生!
还有一个伪科技之地方,即使是名单上未曾底网站,当您输入链接,程序也会见怀疑你想只要下充斥什么,然后帮你下载。当然you-get要于python3条件下进展设置,用pip安装好后,在巅峰输入“you
get+你想生充斥资源的链接”就可以齐正在藏资源了。

此间吃一个you-get的华语使用说明,按照说明上描绘的依步骤操作就可以啦。

未完待续……以后DataCastle还见面持续上部分简便好用之爬虫小器的,记得支持一下啊~