一些感想
firewang, 23 October 2019
又有一段时间没有更新了,诸多原因吧。
最近发生了一些事情,有一些感想吧,对于各个方面而言。
- 数据获得的慢与快
今天工作中遇到一个取日志的需求,需要应对2个月期间每天的日志,大概是100多个log文件,内部有提供下载工具,方式是一个一个下载,下载过程中会被锁定,无法批量下载,也无法做其他操作。于是,这花费了我2个小时(无奈脸)。
还有一部分数据在阿里云上,也是2个月期间的日志,差不多接近200个,通过阿里云提供的接口,我直接用python脚本(之前写的)写完下载、预处理、存储,我全程只需要花1秒钟运行一下脚本。
但是另一方面,对于数据获得所加的限制,增加了获取时间,而且对于多方使用同一数据的情况,就可能会产生多次这种限制导致的时间消耗。
然后,今天回家改良了一下昨天写的爬静态图片网站的爬虫代码,加入了多线程,速度提升好几倍。
另外,不希望对已经爬取的页面或者文件重复爬取,导致网络资源浪费和时间成本增加,于是又加入了与本地文件的比对,比对确认之后再下载。
- 数据的安全性
当然,可以认为对于数据获取的限制,可能是出于数据安全上的考虑。
比如,爬虫之前碰到2次网络问题导致的程序结束,于是在最初的版本之上,加了伪装头,socket超时。
- 数据处理
因为爬虫增加多线程之后,速度提升过于明显,就又想起来之前想要对使用pandas进行数据处理的几个脚本提速的种种尝试都未有明显结果的遗憾。或许去深入挖掘下多线程会有改进吧,拭目以待。
- 数据展示
前段时间还有一个有所成果的内容是对 github pages 的多个网站模板进行了尝试性的改造与改进,这也是突然去写了个网站爬虫的一部分原因(对于前端页面有了一些新的认识)。当然,去尝试这些,还有一个重要原因——当前公众号无法留言,而发布到网站之后,可以留言,并且可以多端访问,格式显示(排版)会更加舒服,也更加方便大家参与进来。同时,不同的内容,也可以使用不同的网站主题,可以更加贴切地去展示相应的内容。
总的来说,just do it.