网络资源汇总

一、乱七八糟

1、在线运行代码网站

可运行 php python C# java C shell 等等语言在线环境

http://www.shucunwang.com/RunCode/c/ 2016-11-02

二、科学上网方式

1、google 代理网址，提供一些上googel搜索的网址

http://coderschool.cn/1853.html 2017-04-12

2、获取host

https://www.netsh.org/ 2017-04-12

3、获取代理

http://www.xicidaili.com/ 2017-06-01

三、java

1、Sonar

它是一个开源平台，用于管理Java源代码的质量。Sonar 是一个用于代码质量管理的开放平台。通过插件机制，Sonar 可以集成不同的测试工具，代码分析工具，以及持续集成工具。与持续集成工具（例如 Hudson/Jenkins 等）不同，Sonar 并不是简单地把不同的代码检查工具结果（例如 FindBugs，PMD 等）直接显示在 Web 页面上，而是通过不同的插件对这些结果进行再加工处理，通过量化的方式度量代码质量的变化，从而可以方便地对不同规模和种类的工程进行代码质量管理。

https://my.oschina.net/u/2988360/blog/876334

四、爬虫

1、JS相关

调浏览器有很多方法，selenium，phantomjs，casperjs，ghost，webkit，scrapyjs，splash。一些细节如关掉CSS渲染，图片加载等。只有scrapyjs是完全异步的，相对是速度最快的，scrapyjs将webkit的事件循环和twisted的事件循环合在一起了。其他的方案要么阻塞，要么用多进程。简单的js需求（对效率要求不高）随意选，最优方案是scrapyjs+定制webkit（去掉不需要的功能）。调浏览器开页面是比较耗资源的（主要是cpu）。https://my.oschina.net/u/1024140/blog/188154------使用python，scrapy写（定制）爬虫的经验

2、使用Tesseract识别弱验证码

http://ae.yyuap.com/pages/viewpage.action?pageId=920457------文档

3、python框架Scrapy

精通Python网络爬虫核心技术、框架与项目实战 ,韦玮书籍-----------看过，一般。scrapy github账号的各类repo(https://github.com/scrapinghub)有很多好东西，可实现分布式爬虫。

scrapy-redis：一个三方的基于redis的分布式爬虫框架，配合scrapy使用，让爬虫具有了分布式爬取的功能。github地址：https://github.com/darkrho/scrapy-redis

posted @ 2016-11-02 11:22 辉大阅读(428) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

夜空中最亮的星