本文最后更新于 1266 天前,其中的信息可能已经有所发展或是发生改变。
因为最近自己练手一个项目,需要用到全国省份市区数据,但是呢网上很多都不全或者需要收费才行。
于是就找到了民政局的网站,民政局的全国省份市区数据会定期更新,如果这个都不全那么还有那全对不对,所以就爬取民政局省市区数据,用于地市下拉框三级联动~确保数据的完整性.
url:http://www.mca.gov.cn/article/sj/xzqh/1980/
爬取地址如下:
http://www.mca.gov.cn/article/sj/xzqh/2020/20201201.html
开始
由于爬取原理很简单,就是解析HTML元素,然后获取到相应的属性值保存下来就好了。
本次是使用Java进行开发,所以选用Jsoup
来完成这个工作。
源码具体放在这里:https://gitee.com/guoliangjun17/java-spider-data/tree/master/area
进入爬取地址进行Html分析
通过进行html分析,发现每一行数据都是存储在一个<tr>
标签下。我们需要的是行政区域代码 和单位(地市)名称
存储在第二和第三个<td>
内 。与此同时还要很多空白<td>
标签,在编写代码是需要将其过滤掉。具体逻辑如下:
Area实体类
AreaService服务类
最终效果如下:
最后,这次的爬虫获取省市区数据还是比较简单,只有简单的几行代码。毕竟民政局的网站也没啥反扒的策略,所以很轻松的就拿到了数据。