07 2017 档案

摘要:开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 阅读全文
posted @ 2017-07-31 17:01 Faron 阅读(360) 评论(0) 推荐(0) 编辑
摘要:HtmlUnit测试工具的推出,创意非常好。是一款给java开发用的browser。说它是browser,其实它是对html建模并且提供API来访问页面,点击链接等等的java类库。 这样的测试工具有这样几个优点: 运行起来没有界面,速度非常快。 由于是java类库,有无限扩展的可能,可以构造各种功 阅读全文
posted @ 2017-07-30 11:56 Faron 阅读(752) 评论(1) 推荐(0) 编辑
摘要:最近在用Jsoup抓取某网站数据,可有些页面是ajax请求动态生成的,去群里问了一下,大神说模拟ajax请求即可。去网上搜索了一下,发现了这篇文章,拿过来先用着试试。 转帖如下: 网上关于网络爬虫实现方式有很多种,但是很多都不支持Ajax,李兄说:模拟才是王道。确实,如果能够模拟一个没有界面的浏览器 阅读全文
posted @ 2017-07-30 11:51 Faron 阅读(2748) 评论(0) 推荐(0) 编辑
摘要:一、关于UTF-8 UTF-8 Unicode Transformation Format-8bit。是用以解决国际上字符的一种多字节编码。 它对英文使用8位(即一个字节) ,中文使用24位(三个字节)来编码。 UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。 UTF-8编码的文字 阅读全文
posted @ 2017-07-28 20:33 Faron 阅读(17420) 评论(1) 推荐(1) 编辑
摘要:IDE环境中,可以直接用exec-maven-plugin插件来运行java application,类似下面这样: 18行,改成自己的Main-Class类,然后用mvn exec:exec来运行,但是部署到生产环境中时,服务器上通常并不具备maven环境,只能用 java -jar xxx.ja 阅读全文
posted @ 2017-07-28 09:54 Faron 阅读(862) 评论(0) 推荐(0) 编辑
摘要:RT 背景:一个网站的登录部分用到了selenium,但是在多次登录之后,发现进程里残留了很多的chromedriver.exe进程。项目打成jar包之后放到另外的机器上跑,发现不久之后就开始卡顿,甚至于弹不出浏览器的窗口,所以怀疑是不是因为chromedriver.exe残留进程太多导致的。而且由 阅读全文
posted @ 2017-07-28 09:34 Faron 阅读(1842) 评论(0) 推荐(0) 编辑
摘要:如果我们的电脑有多个程序在同时进行,肯定会出现竞争得到一定数据资源的情况,而此时资源如果不够用便会进入等待的状态。果所申请的资源被其他等待进程占有,那么该等待进程有可能永远处于等待状态而无法改变该状态,这便是所谓的系统进程死锁。那么,有什么办法能让系统进程不死锁吗? 其实,想要系统不死锁的根本办法便 阅读全文
posted @ 2017-07-28 09:28 Faron 阅读(383) 评论(0) 推荐(0) 编辑
摘要:有时候由于病毒或其他原因,启动了一系列的进程,并且有时杀了这个,又多了那个。使用命令taskkill可将这些进程一下子全部杀光: C:\Users\NR>taskkill /F /im frontpg.exe成功: 已终止进程 "FRONTPG.EXE",其 PID 为 3732。成功: 已终止进程 阅读全文
posted @ 2017-07-28 09:28 Faron 阅读(7417) 评论(0) 推荐(0) 编辑
摘要:详细错误信息: Caused by: com.MySQL.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected establishment of connection, message fro 阅读全文
posted @ 2017-07-27 18:55 Faron 阅读(1875) 评论(0) 推荐(0) 编辑
摘要:webmagic 是一个很好并且很简单的爬虫框架,其教程网址:http://my.oschina.net/flashsword/blog/180623 webmagic参考了scrapy的模块划分,分为Spider(整个爬虫的调度框架)、Downloader(页面下载)、PageProcessor( 阅读全文
posted @ 2017-07-25 14:49 Faron 阅读(2109) 评论(0) 推荐(0) 编辑
摘要:用IntelliJ 15打开一个以前的工程,发现代码出现很多关于@Override的错误,编辑器提示:“@Override is not allowed when implementing interface method”,怎么会这样子?看来@Override是个有故事的家伙,呵呵! 先来上张图吧 阅读全文
posted @ 2017-07-25 14:47 Faron 阅读(1203) 评论(0) 推荐(0) 编辑
摘要:本文章来给大家提供三种在mysql中避免重复插入记录方法,主要是讲到了ignore,Replace,ON DUPLICATE KEY UPDATE三种方法,有需要的朋友可以参考一下 方案一:使用ignore关键字 如果是用主键primary或者唯一索引unique区分了记录的唯一性,避免重复插入记录 阅读全文
posted @ 2017-07-25 13:37 Faron 阅读(9176) 评论(0) 推荐(0) 编辑
摘要:前言,在我们的业务逻辑中,很有可能会遇到这样的情况。 1.我要更新一条记录的值。 2.但是我不确定这条记录存不存在??? 3.那如果存在?我就更新,如果不存在,我就插入! 那么如果这样,一般情况下,我就要发出三条sql,第一条sql查询这条记录,然后用程序判断,如果存在,则更新,如果不存在,则插入。 阅读全文
posted @ 2017-07-25 13:08 Faron 阅读(5071) 评论(0) 推荐(0) 编辑
摘要:In case if you face this problem, one of the possible solutions that will work for you is to make sure that your pom.xml file is up to date and you use right version of webdriver and selenium java bi... 阅读全文
posted @ 2017-07-23 02:03 Faron 阅读(1430) 评论(0) 推荐(0) 编辑
摘要:1 Selenium可支持的【真实】浏览器驱动: PC端驱动:firefox、safari、ie、chrome、opera driver 移动端驱动: Windows Phone、Selendroid、ios-driver、Appium 支持iphone、ipad、android、FirefoxOS 阅读全文
posted @ 2017-07-22 23:30 Faron 阅读(1643) 评论(0) 推荐(0) 编辑
摘要:BLOB类型的字段用于存储二进制数据 MySQL中,BLOB是个类型系列,包括:TinyBlob、Blob、MediumBlob、LongBlob,这几个类型之间的唯一区别是在存储文件的最大大小上不同。 MySQL的四种BLOB类型类型 大小(单位:字节)TinyBlob 最大 255Blob 最大 阅读全文
posted @ 2017-07-22 15:39 Faron 阅读(5398) 评论(0) 推荐(0) 编辑
摘要:这些概念不针对某个特定的编程语言。 view层:结合control层,显示前台页面。 control层:业务模块流程控制,调用service层接口。 service层:业务操作实现类,调用dao层接口。 dao层:数据业务处理,持久化操作 model层:pojo,OR maping,持久层 借别人一 阅读全文
posted @ 2017-07-21 19:40 Faron 阅读(3090) 评论(0) 推荐(0) 编辑
摘要:Java中String new和直接赋值的区别 对于字符串:其对象的引用都是存储在栈中的,如果是编译期已经创建好(直接用双引号定义的)的就存储在常量池中,如果是运行期(new出来的)才能确定的就存储在堆中。对于equals相等的字符串,在常量池中永远只有一份,在堆中有多份。 例如: String s 阅读全文
posted @ 2017-07-21 19:09 Faron 阅读(3169) 评论(1) 推荐(0) 编辑
摘要:在 chrome://help/ 查看浏览器版本号 看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望对大家有用: 附: 所有chromedriver均可在下面链接中下载到: http://chromedriver.storage.googleapi 阅读全文
posted @ 2017-07-20 12:49 Faron 阅读(444) 评论(0) 推荐(0) 编辑
摘要:原文:http://my.oschina.net/flashsword/blog/147334?p=1 一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。 但是有些页面是通过js以 阅读全文
posted @ 2017-07-20 12:47 Faron 阅读(2427) 评论(0) 推荐(0) 编辑
摘要:When adding the module to an existing module that already has a POM, it is necessary to manually specify that the new module will be in a different di 阅读全文
posted @ 2017-07-19 14:54 Faron 阅读(5054) 评论(1) 推荐(0) 编辑
摘要:下载地址:请点击链接前往百度云下载:https://pan.baidu.com/s/1miyYjig 安装方法:http://www.cnblogs.com/printN/p/7201773.html Postman介绍 Postman是google开发的一款功能强大的网页调试与发送网页HTTP请求 阅读全文
posted @ 2017-07-18 18:17 Faron 阅读(3093) 评论(0) 推荐(0) 编辑
摘要:某些用户在Chrome插件网下载了Chrome插件后,不知道怎么才能把它安装到Chrome浏览器中,用户可以根据本站提供的教程:怎么在谷歌浏览器中安装.crx扩展名的离线Chrome插件?把下载后的扩展名为crx的Chrome插件安装到谷歌浏览器中。 但是,由于一些特殊原因,极个别Chrome插件在 阅读全文
posted @ 2017-07-18 17:40 Faron 阅读(1092) 评论(0) 推荐(0) 编辑
摘要:最近对数据库比较感兴趣,于是就去研究了下部分相关热门的数据库。 MySQL 关系型数据库。 在不同的引擎上有不同 的存储方式。 查询语句是使用传统的sql语句,拥有较为成熟的体系,成熟度很高。 开源数据库的份额在不断增加,mysql的份额页在持续增长。 缺点就是在海量数据处理的时候效率会显著变慢。 阅读全文
posted @ 2017-07-18 12:51 Faron 阅读(74332) 评论(0) 推荐(3) 编辑
摘要:方法1:1、创建一个临时表,选取需要的数据。2、清空原表。3、临时表数据导入到原表。4、删除临时表。mysql> select * from student;+ + +| ID | NAME |+ + +| 11 | aa || 12 | aa || 13 | bb || 14 | bb || 15 阅读全文
posted @ 2017-07-17 10:26 Faron 阅读(502) 评论(0) 推荐(0) 编辑
摘要:前段时间,接手一个项目使用的是原始的jdbc作为数据库的访问,发布到服务器上在运行了一段时间之后总是会出现无法访问的情况,登录到服务器,查看tomcat日志发现总是报如下的错误。 显示当前正在执行的MySql连接 通过这两个数据的对比,发现MySql的连接数居然满了,于是修改了MySql的最大连接数 阅读全文
posted @ 2017-07-15 16:35 Faron 阅读(435) 评论(0) 推荐(0) 编辑
摘要:Incorrect string value: '\xE7\xA8\x8B\xE5\xBA\x8F...' for column 'course' at row 1 出现这个错误的原因是,数据库的编码格式为latin1 而我要将utf8的中文插入到数据库中。 一开始修改 修改数据库的编码 [sql] 阅读全文
posted @ 2017-07-15 16:28 Faron 阅读(2141) 评论(0) 推荐(0) 编辑
摘要:Q: Data truncation: Out of range value for column 'Quality' at row 1 com.mysql.jdbc.MysqlDataTruncation: Data truncation: Out of range value for colum 阅读全文
posted @ 2017-07-14 11:45 Faron 阅读(2502) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示