博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
水木清华社区招聘信息定时抓取
阅读量:6934 次
发布时间:2019-06-27

本文共 463 字,大约阅读时间需要 1 分钟。

水木上有非常活跃的招聘者在公布招聘信息,可是水木的速度却非常慢。于是试着将其抓取下来,这样子浏览的速度就快了非常多。并且将其部署在SAE上面。可以仅仅查看须要的信息。减少了本地流量耗费,在新浪云平台上启用了两个JVM,云豆预计可以用的。

在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告。最后才是内容!

分析了它的返回数据的构成之后,就能够利用Jsoup去请求了。取回来的数据直接进行抽取和过滤,留下须要的数据。然后存到数据库中去。最后再显示到页面上来。

整个过程大概就是如此。

同一时候认为要是手动去抓取的话。就太没有意思了,于是设置了定时器,能够定时地去抓取数据并保存。每个小时抓取一次。这样算是差点儿相同能追上论坛的更新了吧,(突然想到还能够晚上的时间段歇息,减少消耗)。

突然想到,能够加个功能。每一篇招聘信息中差点儿都会有邮箱地址,能够解析出来,准备好一个简历模板,自己主动批量发简历!

之后可能会加入别的站点的数据。

界面简单微笑

可能会有非常多bug敲打

详细能够移步: ,

完整代码放在 :。

你可能感兴趣的文章
.NET 调用c++库注意事项
查看>>
重磅发布: 阿里云WAF日志实时分析上线 (含视频)
查看>>
深度|10分钟读懂阿里巴巴高级专家在Flutter Live2018的分享
查看>>
大规模深度学习预测场景下 codegen 的思考与应用
查看>>
spring框架使用Quartz执行定时任务实例详解
查看>>
全链路跟踪系统设计与实践(转载)
查看>>
支付接口教程,详解支付宝接口(二)
查看>>
SourceTree 教程文档(了解界面)
查看>>
wpf 依赖属性和附加属性
查看>>
rocketMq-producer介绍
查看>>
谨慎的Waymo CEO:未来几十年,自动驾驶无法做到无处不在
查看>>
Django搭建个人博客(二)
查看>>
SSM+maven实现答题管理系统(二)
查看>>
玩转报表排名
查看>>
SQL Server 默认跟踪(Default Trace)
查看>>
[剑指offer] 字符流中第一个不重复的字符
查看>>
平面上给定n条线段,找出一个点,使这个点到这n条线段的距离和最小。
查看>>
Source Insight 3.X 标签插件v1.0发布
查看>>
百度AI生态方法论升级,AI开放平台深入7大细分领域
查看>>
Linux下配置Golang开发环境
查看>>