摘要:
最棒的方法就是挂个vpn了,又能匿名,又能FQ。 另外还可以去代理服务器网站获取一些高匿名的IP,免费的速度不太行。。。 网络代理设置中自动设置代理或者手动设置代理。 以手动设置为例,打开使用代理服务器,把获取的IP及其端口填上,保存之后,如果网站提供的这个IP没有问题, 那么就应该能够实现匿名IP 阅读全文
摘要:
string::npos的定义: 表示size_t的最大值(Maximum value for size_t) C++中并没有拆分字符串函数,但是在刷题时经常遇到要拆分字符串的情况, 故编写一个自定义的split函数。 r:egmkang 参考http://blog.csdn.net/devil_p 阅读全文
摘要:
cin与cout慢是有原因的,默认的时候cin与stdin总是保持同步,同时cout和stdout也一样,两者混用不会输出顺序错乱。 对两者的兼容性导致cin有许多额外的开销。 禁用这个特性的语句是 std::ios::sync_with_stdio(false); 取消同步后会提速很多,但是仍然比 阅读全文
摘要:
unique函数是#include<algorithm.h>中的去重函数,值得注意的是unique函数只是去除相邻的重复字符。 所以在使用之前应该使用sort函数排序一下。 去重之后也只是将去掉的重复字符放到串尾。 所以还需要erase一下串尾的应该去掉的无用字符,unique函数返回值为无用字符的 阅读全文
摘要:
不常git不是一个好习惯。一旦git就会发现一堆错误,当着急分享代码给小伙伴的时候,这就情况不妙了,所以贴一些我遇到的错误。 当利用git bash向已存在的库中上传新代码时 执行 git push origin master报错:To http://git.XXX.com/XXX/xxx ! [r 阅读全文
摘要:
额,在另一个爬虫里又遇到了悲剧,emmmmmmmmm. 1400 960 一番观察之后 我终于找到了错误的根源 原来不同的URL不同的标签所对应的页面信息竟然相同。 终于明白了 出现这种情况的原因就是这两个地方没有相应的条件的信息,于是就提供了云南省的信息。 阅读全文
摘要:
还是第一次出现这个问题。 使用last命令 有可能是网络ip地址变化导致xshell自动断开连接,修改本机ip为固定地址即可。 还可能是本机网络dns变化导致xshell自动断开连接,修改ssh配置文件将其中“UseDNS yes”去掉注释并改成no即可,过程如下。 重启系统即可。 参考 http: 阅读全文
摘要:
由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧! 20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛, 这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。 阅读全文
摘要:
编码问题一直不怎么讨人喜欢,处理文本时经常遇到各种编码问题,这不,今天又遇见一个。 知道了'\xa0'是什么,问题就不难解决了。 去掉了这个字符,按理说没什么问题了。 如果还不行,那么查看一下要读取的文件的编码,一般来讲,他是一个UTF-8编码的,那么把他改成ansi编码的,按正常方法读取即可。 . 阅读全文
摘要:
服务器在网页上不能唤出多个终端,这个时候后台运行就很有必要了。 最简单的只要在命令后加一个&符就行了 例如: python test.py & 另外还可以使用nohup命令。 参见 https://www.cnblogs.com/master-pokemon/p/5790783.html https 阅读全文