技巧积累

本文记录个人平时工作中一些浅显的见识,学到了新的技巧,关于编程的一些思考,持续更新。虽然现在还是一颗幼苗,但它会不断成长。

做事情,技巧是一方面,主要还是贵在坚持。

(1107)

1. 爬虫时,去重问题需要随时记得

2. 正则的效率问题。

  正则其内部也是一种循环,你给的越精确,循环越少,效率越快。给的范围越大,循环越多,效率越慢。

3. 程序优化:

  1. 尽量简洁

  2. 重复代码用函数或类进行封装

4. 工作中,不要跟领导或同事讲,数据可能差不多,程序应该没问题。程序有没有问题,跑完再说,有问题及时改,没问题更好。

(1108)

5. 保持头脑清醒。

6. 不使用selenium

(1116)

7. 相同的功能,不同的代码效率真是个问题。

8. 汉字表达法。。。将要实现的功能逻辑,用文字表示出来,然后一步一步用代码构造出整块内容,逻辑清晰,方便编写。而且写完了代码,注释也有了。初级时可以试试。

(1119)

9. 代理IP是真好用

(1120)

10. 代理IP不是万能的。。。打脸了

11. 公司不养闲人。

(1123)

12. requests库timeout参数问题,timeout最好自己设定。

  python的requests库是没有默认请求超时时间的,有一次。。哈哈,自己的坑自己填吧。总之最好显示设定超时时间,防止意外发生。源码部分,自己去找也可以,有空我会找出来贴在这里。

(1127)

13. 写程序要进步。

(1211)

14. 有问题,一定要解决,加班也要解决,不能跳过去,也不能拖着

15. 建数据库,索引很重要啊。。以前真是傻逼。。索引

 

转眼2019年了。。。

0106:

16. 最近爬虫所遇到的问题,除验证码外,大都最终指向同一个问题,js。

0124

17. 关于函数封装这一部分,感觉以前做的不好。因为我总是用返回值的形式,将上一个函数,直接连接到下一个函数。个人认为比较好的做法是,一个功能封装成一个函数,用到哪个功能,就调用哪个函数。

 

0504:

18. 也许这是这篇博客更新的最后一段话。数据抓取终究不是长久之计,做爬虫工程师以来,数据的抓取难度越来越大,数据加密方式越来越严密,验证码的处理,十有八九都用上了第三方平台。当然我们也可以使用第三方验证码处理平台,但是依赖于别人的处理方式极为被动。所以,要想寻求更长远的发展,一定要做好打算,爬虫工程师的下一步是。。。

 

posted @ 2018-11-07 17:27  正态分个布  阅读(405)  评论(0编辑  收藏  举报