20230103_每日学习记录
20230103
-
做多线程爬虫,需要有些对抗反扒机制的措施. 有些时候直接写多线程,比如python的multiprocessing,会发现抓不下来东西.这也可能是我的爬虫没写好.但是就是发现同样的代码,不使用多线程就可以抓下来.使用多线程就啥也抓不下来.
这次写爬虫发现了一个取巧的办法,就是反扒机制还是很简单的代理+header,然后不使用多线程,就正常写request代码就行.最重要的是使用下面的命令:这些代码就实现了多线程,并且在一些网站中使用,效果非常好.速度很快,并且不会被封.这种写法需要你的脚本抓取是随机的,也就是抓取的列表的顺序打乱一下,这样每一个线程都是在抓不同的信息.
nohup是linux中用于在系统后台不挂断地运行命令,退出终端不会影响程序的运行。
&是在后台执行命令,退出终端不会影响程序的运行
我也不知道为啥要一起,明明是一样的功能......
nohup python 爬虫脚本名称 & nohup python 爬虫脚本名称 & nohup python 爬虫脚本名称 & nohup python 爬虫脚本名称 & nohup python 爬虫脚本名称 &
-
linux命令
只显示文件夹 ls -l | grep ^d
只显示文件 ls -l | grep ^-