简介:
本项目为政企舆情大数据服务平台,主要面向政府(事业单位)和企业,为其提供媒体大数据监测、分析和挖掘。
需求描述:
1、根据关键字进行内容爬取、解析、过滤,清洗、消重、结构化处理等工作。
关键字构成:主关键字、子关键字、排除关键字。
关键字数量:总数为500个。
2、设计和开发分布式爬虫和调度系统,负责爬虫核心算法和调度策略优化。
现有配置: 5台 uCloud 服务器负责前端,1台阿里云服务器负责存储。
目标数据源:
1、微信
2、搜孤
3、百度贴吧
4、新华社 http://xinhuanet.com/
已完成或进行中:
阳光理政
长城网
领导留言板
川报观察
河东信息港
问政河北
以上为项目第一阶段需要爬取的网站。
第二阶段主要针对 APP端 和 视频类。
合作方式:
前期可按单项目结算,结算平台为开源众包,中长期可加入项目组,入职后按月工资结算
成员:
现项目已有三名成员,一名前端,两名后端
管理方式:
使用 Coding 管理项目进度, Github 托管代码
开发总周期: 12个月以上
招聘类型:
组队合伙
专业领域:
开发
工作方式:
线上兼职远程工作
城市:
北京其他
你好,请问下爬取的数据需要如何给到?还是有特定的格式?
输入: 主关键字 + 子关键字
输出:
数据格式:暂时以 JSON 为主
同级目录创建一个文件夹 然后按执行时间分到子文件夹里 创建相应的json文件即可
正在研究通讯协议这块,期望可以长期合作
必须是python爬虫吗?有爬虫框架,有服务器,只是非python语言,是否考虑?
暂不考虑哈
了解,可以考虑的时候随时联系哈
https://blog.csdn.net/supperling/article/details/107710798 ,我的博客关于PYTHON网络爬虫,有兴趣加入