Fork me on GitHub

20230103_每日学习记录

20230103

  1. 做多线程爬虫,需要有些对抗反扒机制的措施. 有些时候直接写多线程,比如python的multiprocessing,会发现抓不下来东西.这也可能是我的爬虫没写好.但是就是发现同样的代码,不使用多线程就可以抓下来.使用多线程就啥也抓不下来.
    这次写爬虫发现了一个取巧的办法,就是反扒机制还是很简单的代理+header,然后不使用多线程,就正常写request代码就行.最重要的是使用下面的命令:

    这些代码就实现了多线程,并且在一些网站中使用,效果非常好.速度很快,并且不会被封.这种写法需要你的脚本抓取是随机的,也就是抓取的列表的顺序打乱一下,这样每一个线程都是在抓不同的信息.

    nohup是linux中用于在系统后台不挂断地运行命令,退出终端不会影响程序的运行。

    &是在后台执行命令,退出终端不会影响程序的运行

    我也不知道为啥要一起,明明是一样的功能......

    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    nohup python 爬虫脚本名称  &
    
  2. linux命令

    只显示文件夹 ls -l | grep ^d

    只显示文件 ls -l | grep ^-

posted @ 2023-01-04 22:18  Mo槑  阅读(18)  评论(0编辑  收藏  举报