地图可视化离不开数据的支撑,很多人苦于无法获取数据或者不知道怎么获取数据,可能很多人听说过“爬虫”,也听说过通过Python来“写爬虫”,毕竟这是获取网页数据的主要手段之一。但是对于很多不熟悉Python语言的人来说,“写爬虫”的技术难度高,学习过程耗时。今天,我们将介绍一个数据采集软件——火车采集器,并提供一个简要使用教程,使您无需编写代码就可以爬取网页数据。
在开始收集数据前,我们需进去火车采集器官网,下载软件并安装。
爬取网页数据的步骤:
1.打开火车采集器。
2.新建分组:菜单栏“开始”,点击新建分组,输入采集网站名称为分组名称,(通常在“采网址”和“采内容”选项下打勾)。
3.新建任务:选择新建的分组,点击“新建任务”或者鼠标右键选择“新建任务”,进入到新建页面。任务规则名为采集的对象名。新建任务界面中,包含四个步骤:网址采集规则、内容采集规则、内容发布规则和其他设置。
4.添加网址
第一步:网址采集规则
查看需爬取网址的特点,选择起始网址的添加方式(普通网址、批量网址、文本导入和数据库导入)。点击起始网址任务条中的“向导编辑”,在网址格式中添加地址,确定即可。本例选取北京市安居客小区网址为例,经观察测试可知,网页的网址出现规律,选择批量网址。
回到“网址采集规则”页面,设置起始网址就是内容页网址,并给“任务规则名”命名。网页https://bj.fang.anjuke.com/loupan/all/p2/。
第二步:内容采集规则
打开北京安居客网址,F12或(Fn+F12),点击鼠标选取方式。通过鼠标依次点小区名称、小区地址以及当月价格等网页中所需要的信息对应的位置,获取相关代码,鼠标右键,复制选择。
根据这些HTML内容和自己需要的内容,在标签列表中,点击操作任务栏中的“添加”来增加新的标签,或者点击已有的标签,进行修改。在标签编辑栏中,标签提取方式有前后截取、正则提取、正文提取等方式。数据处理对话框中,文件下载中的数据支持图片、flash等文件。
*号为所需要采集的参数。
输入网页网址,测试结果。
测试结果无误后,选择数据保存。注意:保存文件时,模板设置一定要与收集的数据字段一致。
运行。
结果查看。
火车采集器不仅仅可以采集网页数据,还可以基于API进行数据采集。大家不妨操作试试,定会有不一样的收获(杨慧测试、撰写)。
- 赞助本站
- 微信扫一扫
-
- 加入Q群
- QQ扫一扫
-
评论