这是我独立开发的第三个产品,里边倾注我的心血。独立开发要选定一个方向,快速试水,如果方向不对,及时收手,及时止损。telegram的内容搜索,市面上有很多成熟产品,别人吃肉,我也想喝口汤。下面分享下技术栈:
1,爬取用的python,对定向群消息进行爬取。我使用的是tdlib开源库。
2,爬取完,对数据进行清洗分类。大致分为群组,频道,视频,音频,图片和信息。将爬取的数据写入elasticsearch。使用计划任务定时写入
3, 搜索,直接用elasticsearch就可以了。它支持单一类型搜索,也能聚合搜索。聚合搜索一页显示20条数据,还要翻页的话,要保存每种子类型数据的当前索引。
4,数据展示,telegram的api支持自定义控件,用起来基本跟html差异不大。
5,架构,直接nginx负载转发请求到服务端,在发起elasticsearch获取结果就可以了。
有需要定制开发的老板可以联系,并且必须做以下保证。爬虫爬取的内容均来自telegram群组,请勿用于非法用途,禁止给国内用户服务。
你这图片公然宣传情色,这图片都能过审,电鸭也是要走不远了
说人话,哪里宣传?又是哪里脏了您的眼,我给你眼睛打码可以吗
孕妇制服熟女。。。
其实外网的事还是外网说好,完全两个世界。
嗯,还是你看的仔细。 红小将至尊宝有毒
以为你专门打码了。下次你自己闭上你的眼睛吧。你有毒,红小将
重新二次打码,为红小将上了专用码。自带红小将属性的请闭眼,天黑了。