Fork me on GitHub

网络资源汇总

一、乱七八糟


 

1、在线运行代码网站

可运行 php  python C# java C shell 等等语言在线环境

http://www.shucunwang.com/RunCode/c/ 2016-11-02

 


二、科学上网方式

1、google 代理网址,提供一些上googel搜索的网址

 http://coderschool.cn/1853.html 2017-04-12

2、获取host

 https://www.netsh.org/ 2017-04-12

3、获取代理

      http://www.xicidaili.com/ 2017-06-01


三、java

1、Sonar

它是一个开源平台,用于管理Java源代码的质量。Sonar 是一个用于代码质量管理的开放平台。通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具。与持续集成工具(例如 Hudson/Jenkins 等)不同,Sonar 并不是简单地把不同的代码检查工具结果(例如 FindBugs,PMD 等)直接显示在 Web 页面上,而是通过不同的插件对这些结果进行再加工处理,通过量化的方式度量代码质量的变化,从而可以方便地对不同规模和种类的工程进行代码质量管理。

https://my.oschina.net/u/2988360/blog/876334


 

四、爬虫

1、JS相关

    调浏览器有很多方法,selenium,phantomjs,casperjs,ghost,webkit,scrapyjs,splash。一些细节如关掉CSS渲染,图片加载等。只有scrapyjs是完全异步的,相对是速度最快的,scrapyjs将webkit的事件循环和twisted的事件循环合在一起了。其他的方案要么阻塞,要么用多进程。简单的js需求(对效率要求不高)随意选,最优方案是scrapyjs+定制webkit(去掉不需要的功能)。调浏览器开页面是比较耗资源的(主要是cpu)。https://my.oschina.net/u/1024140/blog/188154------使用python,scrapy写(定制)爬虫的经验

2、使用Tesseract识别弱验证码

     http://ae.yyuap.com/pages/viewpage.action?pageId=920457------文档

3、python框架Scrapy

      精通Python网络爬虫 核心技术、框架与项目实战 ,韦玮 书籍-----------看过,一般。scrapy github账号的各类repo(https://github.com/scrapinghub)有很多好东西,可实现分布式爬虫。

     scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。github地址:https://github.com/darkrho/scrapy-redis

 

posted @ 2016-11-02 11:22  辉大  阅读(428)  评论(0编辑  收藏  举报