招聘爬取中国土地交易网土地出让数据【原来找的老哥爬不了,重新找人】

林民币
280阅读16评论4 个月前

1.爬取对象

土地供应(链接如下)栏目下除了供地计划以外7个栏目的所有数据

http://www.landchina.com/default.aspx?tabid=263&wmguid=75c72564-ffd9-426a-954b-8ac2df0903b7&p=

2.数据量

栏目 数量/页

出让公告(2011年后) 14675

出让公告(2011年前) 3904

地块公示 36989

结果公告 85248

市场交易

土地转让 27544

土地出租 468

土地抵押 13419

房地产大企业购地情况 49

房地产大地块出让情况 10

合计 182306

按照每页30条计算,总数据量为182306*30= 5469180条

3.爬取过程

(1)点击每页下的标题,下探到内容页,内容也只需爬取表格。爬取完一个栏目后,爬取另一个栏目。

(2)所有数据爬取玩以后,按照地块的位置,如上图中的“宗地坐落”,调用高德地图或百度地图API,批量拾取经纬度。

(3)数据存储格式;CSV

(4)爬取时间:7-14天

(5)费用:5000,本人有长期数据爬取需求,希望长期合作

(6)支付方式:先试爬2010年的,并匹配上坐标,如果可行,按照40%、30%、30%的工作进度支付。

4.需要解决的难点

(1)每个栏目只显示200页,需要解决200页以后的问题。所以需要试爬2010年的,检验承接人是否具备这个能力;

(2)需要调用匹配百度/高德地图API批量拾取坐标

(3)政府网站,网页慢,爬取速度慢,需要多机器同时爬,还不能把网站弄崩溃

招聘类型:
外包零活
专业领域:
其它
工作方式:
同城驻场全职坐班线上兼职远程工作
需消耗电量 5
加载中…
精选评论
4 个月前夏芸

本来也想拿node玩下爬虫,看来还是有赚钱机会的。

4 个月前Yunior

有意思

4 个月前前端小哥哥

爬过淮安房产的数据,看每天的成交和成交趋势,挺有意思
平均130+的交易数量。疫情后这个数量,到底啥原因呢。。。。
只能说有钱人真多。。。

楼主对技术有具体要求吗?我当时是用的node 写的,如果写你这个node或者python?

发了邮件,麻烦看到回复一下哦~

4 个月前Rwing

经纬度如何匹配?

少量的话可以用百度地图的坐标拾取系统,如果多的话就要调用百度地图的API了

4 个月前KyleYoung

爬这些东西不违法吗

4 个月前牧羊人

说到点子上了,万一被请去喝茶了呢 ?

4 个月前猓子

本来想用node 小试试

4 个月前刘咄咄

二级页面需要下钻么?

需要的,页面只显示200页,需要爬所有页面

4 个月前亮锅

发了邮件,麻烦看到回复一下哦~

谢谢老哥,不过我已经找到人了

这个搞不好的话,会违法吧

4 个月前明明如月

爬虫玩的好,_______吃的早,23333

3 个月前hello~man

可以啊,联系我把,我是nodejs 爬虫高手 这些 我 擅长

2 个月前凌尘

我这边也有方案,不用传统的爬虫方式