1.爬取对象
土地供应(链接如下)栏目下除了供地计划以外7个栏目的所有数据
http://www.landchina.com/default.aspx?tabid=263&wmguid=75c72564-ffd9-426a-954b-8ac2df0903b7&p=
2.数据量
栏目 数量/页
出让公告(2011年后) 14675
出让公告(2011年前) 3904
地块公示 36989
结果公告 85248
市场交易
土地转让 27544
土地出租 468
土地抵押 13419
房地产大企业购地情况 49
房地产大地块出让情况 10
合计 182306
按照每页30条计算,总数据量为182306*30= 5469180条
3.爬取过程
(1)点击每页下的标题,下探到内容页,内容也只需爬取表格。爬取完一个栏目后,爬取另一个栏目。
(2)所有数据爬取玩以后,按照地块的位置,如上图中的“宗地坐落”,调用高德地图或百度地图API,批量拾取经纬度。
(3)数据存储格式;CSV
(4)爬取时间:7-14天
(5)费用:5000,本人有长期数据爬取需求,希望长期合作
(6)支付方式:先试爬2010年的,并匹配上坐标,如果可行,按照40%、30%、30%的工作进度支付。
4.需要解决的难点
(1)每个栏目只显示200页,需要解决200页以后的问题。所以需要试爬2010年的,检验承接人是否具备这个能力;
(2)需要调用匹配百度/高德地图API批量拾取坐标
(3)政府网站,网页慢,爬取速度慢,需要多机器同时爬,还不能把网站弄崩溃
招聘类型:
外包零活
专业领域:
其它
工作方式:
线上兼职同城驻场全职坐班远程工作
本来也想拿node玩下爬虫,看来还是有赚钱机会的。
有意思
爬过淮安房产的数据,看每天的成交和成交趋势,挺有意思
平均130+的交易数量。疫情后这个数量,到底啥原因呢。。。。
只能说有钱人真多。。。
楼主对技术有具体要求吗?我当时是用的node 写的,如果写你这个node或者python?
发了邮件,麻烦看到回复一下哦~
经纬度如何匹配?
少量的话可以用百度地图的坐标拾取系统,如果多的话就要调用百度地图的API了
爬这些东西不违法吗
说到点子上了,万一被请去喝茶了呢 ?
本来想用node 小试试
二级页面需要下钻么?
需要的,页面只显示200页,需要爬所有页面
发了邮件,麻烦看到回复一下哦~
谢谢老哥,不过我已经找到人了
这个搞不好的话,会违法吧
爬虫玩的好,_______吃的早,23333
可以啊,联系我把,我是nodejs 爬虫高手 这些 我 擅长
我这边也有方案,不用传统的爬虫方式