招聘【长期合作】【远程办公】 python 高级爬虫开发

V蛋
270阅读6评论13 天前

简介:
本项目为政企舆情大数据服务平台,主要面向政府(事业单位)和企业,为其提供媒体大数据监测、分析和挖掘。

需求描述:

1、根据关键字进行内容爬取、解析、过滤,清洗、消重、结构化处理等工作。
关键字构成:主关键字、子关键字、排除关键字。
关键字数量:总数为500个。

2、设计和开发分布式爬虫和调度系统,负责爬虫核心算法和调度策略优化。
现有配置: 5台 uCloud 服务器负责前端,1台阿里云服务器负责存储。

目标数据源:
1、微信
2、搜孤
3、百度贴吧
4、新华社 http://xinhuanet.com/

已完成或进行中:
阳光理政
长城网
领导留言板
川报观察
河东信息港
问政河北

以上为项目第一阶段需要爬取的网站。

第二阶段主要针对 APP端 和 视频类。

合作方式:
前期可按单项目结算,结算平台为开源众包,中长期可加入项目组,入职后按月工资结算

成员:
现项目已有三名成员,一名前端,两名后端

管理方式:
使用 Coding 管理项目进度, Github 托管代码

开发总周期: 12个月以上

招聘类型:
组队合伙
专业领域:
开发
工作方式:
线上兼职远程工作
城市:
北京其他
需消耗电量 5
加载中…
精选评论
12 天前周想想

你好,请问下爬取的数据需要如何给到?还是有特定的格式?

输入: 主关键字 + 子关键字

输出:

  • 标题
  • 内容
  • 平台创建时间
  • 作者id
  • 作者
  • 文章id
  • 文章url
  • 来源
  • 来源关键词

数据格式:暂时以 JSON 为主

同级目录创建一个文件夹 然后按执行时间分到子文件夹里 创建相应的json文件即可

12 天前兹奥

正在研究通讯协议这块,期望可以长期合作

11 天前金木歌

必须是python爬虫吗?有爬虫框架,有服务器,只是非python语言,是否考虑?

暂不考虑哈

10 天前金木歌

了解,可以考虑的时候随时联系哈