社区帖子招聘【已招到】 python 高级爬虫开发

V蛋317阅读7评论超过 5 年前

简介：
本项目为政企舆情大数据服务平台，主要面向政府（事业单位）和企业，为其提供媒体大数据监测、分析和挖掘。

需求描述：

1、根据关键字进行内容爬取、解析、过滤，清洗、消重、结构化处理等工作。
关键字构成：主关键字、子关键字、排除关键字。
关键字数量：总数为500个。

2、设计和开发分布式爬虫和调度系统，负责爬虫核心算法和调度策略优化。
现有配置： 5台 uCloud 服务器负责前端，1台阿里云服务器负责存储。

目标数据源：
1、微信
2、搜孤
3、百度贴吧
4、新华社 http://xinhuanet.com/

已完成或进行中：
~~阳光理政~~
~~长城网~~
~~领导留言板~~
~~川报观察~~
~~河东信息港~~
~~问政河北~~

以上为项目第一阶段需要爬取的网站。

第二阶段主要针对 APP端和视频类。

合作方式：
前期可按单项目结算，结算平台为开源众包，中长期可加入项目组，入职后按月工资结算

成员：
现项目已有三名成员，一名前端，两名后端

管理方式：
使用 Coding 管理项目进度， Github 托管代码

开发总周期： 12个月以上

最后修改于超过 5 年前

招聘类型:

职业:

工作方式:

线上兼职全职远程

城市:

需消耗电量 5

顶

踩

收藏

举报

V蛋

创建于2020年09月06日

加载中…

精选评论

2

超过 5 年前开发者金木歌

必须是python爬虫吗？有爬虫框架，有服务器，只是非python语言，是否考虑？

最后修改于超过 5 年前

电一下举报

超过 5 年前

V蛋（作者）

回复

开发者金木歌

暂不考虑哈

电一下举报

超过 5 年前

开发者金木歌

回复

V蛋（作者）

了解，可以考虑的时候随时联系哈

电一下举报

0

超过 5 年前兹奥

正在研究通讯协议这块，期望可以长期合作

电一下举报

0

超过 5 年前周想想

你好，请问下爬取的数据需要如何给到？还是有特定的格式？

电一下举报

1

超过 5 年前 V蛋（作者）

输入：主关键字 + 子关键字

输出：

标题
内容
平台创建时间
作者id
作者
文章id
文章url
来源
来源关键词

数据格式：暂时以 JSON 为主

同级目录创建一个文件夹然后按执行时间分到子文件夹里创建相应的json文件即可

最后修改于超过 5 年前

电一下举报

0

超过 5 年前 FFly

https://blog.csdn.net/supperling/article/details/107710798 ，我的博客关于PYTHON网络爬虫，有兴趣加入

电一下举报

版块详情

社区帖子招聘

25k 帖子

190k 评论

2k 关注

非主流的工作机会在这里更受欢迎～

版主

共建者

将近 6 年前

远程全职推荐

推荐帖子

【转需】【限大连】【工作时间地点灵活】（对日）创业项目PHP开发PL/PG招聘

招聘远程前端开发兼职

想做一个小程序，市场上的类似的很多，但是我们有渠道，合适来看【已寻到】

OpenClaw火了，全网都在养龙虾，我们在招养龙虾的人，招AI研究员、Agent开发工程师和AI产品经理

【远程/兼职】AI 知识库项目 (ChatWiki) 招聘后端开发（Go + Python）

下载App

公众号

扫码下载应用

下载APP以便及时收到回复或进展