03 2016 档案

摘要:方法一:进去ubuntu系统后,终端下输入如下命令:sudo update-grub,输入命令后,会提示寻找win7,ubuntu系统。并自动建立引导详情链接:http://zhidao.baidu.com/question/1946152197930835548.html方法二:安装完重启后会发现 阅读全文
posted @ 2016-03-29 10:45 morein2008 阅读(724) 评论(0) 推荐(0) 编辑
摘要:当需要从网页上获取信息时,需要解析html页面。筛选指定标签,并获取其值是必不可少的操作,解析html页面这方面的利器,Python有BeautifulSoup,Java一直没有好的工具,之前的HtmlParser非常难用,虽能解析,但不能过滤,只能从头到尾地遍历各个节点,非常不便,而Jsoup是甚 阅读全文
posted @ 2016-03-28 17:45 morein2008 阅读(1894) 评论(0) 推荐(0) 编辑
摘要:url含有中文,进行编码: 引自: http://blog.csdn.net/xyw_blog/article/details/40187913 http://www.coder4.com/archives/4382 阅读全文
posted @ 2016-03-25 10:32 morein2008 阅读(984) 评论(0) 推荐(0) 编辑
摘要:如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法, 1)用字符串查找方法,然后切分字符串(或切片操作),如str.index(patternStr)或str.find(patternStr),这种方法 阅读全文
posted @ 2016-03-23 16:23 morein2008 阅读(34313) 评论(0) 推荐(2) 编辑
摘要:利用MBRFix删除ubuntu的开机引导界面,恢复成win7引导之后,为win7添加ubuntu的启动引导项: 直接利用EasyBCD添加一个Grub2的引导项即可 参考:http://mathisonqin.github.io/learning/ubuntu-boot.html 阅读全文
posted @ 2016-03-22 21:19 morein2008 阅读(471) 评论(0) 推荐(0) 编辑
摘要:按照教程 http://teliute.org/linux/Ubsetup/jichu3/jichu3.html 安装64位ubuntu的时候,因为64位版本的iso安装包里没有vmlinuz文件,而只有vmlinuz.efi, 之前网上的错误做法: 需要到ubuntu官网下载,下载链接为: htt 阅读全文
posted @ 2016-03-22 20:16 morein2008 阅读(186) 评论(0) 推荐(0) 编辑
摘要:电脑原来是win7系统,后来通过硬盘安装了Ubuntu,同时把Ubuntu设置成了开机引导项(开机时选择操作系统的界面成了紫色背景白色字体的界面),ubuntu引导开机的缺点是将来要卸载Ubuntu时,会进入不了win7。 如何换成原来的黑底白色字体的win7引导?解决方法: 下载MBRFix,把m 阅读全文
posted @ 2016-03-22 14:41 morein2008 阅读(747) 评论(0) 推荐(0) 编辑
摘要:今天遇到一个正则表达式 regex = '<div class="div_result[\s\S]+?>([\s\S]+)</div>'我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串,但结果只获取了<div></div>之间 阅读全文
posted @ 2016-03-21 21:16 morein2008 阅读(678) 评论(0) 推荐(0) 编辑
摘要:encode是指将unicode字符编码成其他字符集的字符,如utf-8,ascii等; 而decode是指将其他字符编码,如utf-8转换成unicode编码。 encode是指将人类用的语言(字符串)编码为机器能识别的语言(字节码),decode反之。 【简单来说编码就是把人类通用的语言符号翻译 阅读全文
posted @ 2016-03-18 18:08 morein2008 阅读(584) 评论(0) 推荐(0) 编辑
摘要:如何安装Java,如果出于编程的需要安装Java,需要安装的是JDK,而不仅仅是JRE,下面说说如何在Ubuntu下如何安装JDK:只有两步,1.下载并解压,2.配置环境变量1.下载并解压:下载地址:http://www.oracle.com/technetwork/java/javase/down 阅读全文
posted @ 2016-03-18 17:54 morein2008 阅读(921) 评论(0) 推荐(0) 编辑
摘要:sed的使用方法为: 使用单个模式替换:sed 's/pattern/replacement/flags' filename,例如echo 'abc' | sed 's/a/A/'-->Abc 使用多个模式同时替换:sed 's/pattern1/replacement1/;s/pattern2/r 阅读全文
posted @ 2016-03-16 20:27 morein2008 阅读(20993) 评论(0) 推荐(0) 编辑
摘要:shell实现trim函数效果去除字符串两侧的空格,以下三个命令等价,都能实现 sed 's/^\s*//' totrim.txt |sed 's/\s*$//'>trimed.txt sed 's/^\s*//;s/\s*$//' totrim.txt>trimed.txt sed -e 's/^\s*//' -e 's/\s*$//' totrim.txt>trimed.txt 主要就是利用正则表达式,^\s*表示字符串前面的零个或多个空格,\s*$表示字符串后面的零个或多个空格。 阅读全文
posted @ 2016-03-15 20:04 morein2008 阅读(9219) 评论(0) 推荐(0) 编辑
摘要:对于txt文本类数据,优先采用shell脚本,实在不行才用Python,Java,MySQL 1) Shell命令行或脚本的处理速度极快,比Java快得多。 2) Shell代码量少,几个命令就能完成Python几十行、Java上百行代码的工作,例如 $ cut -f 2 data.txt | so 阅读全文
posted @ 2016-03-15 18:33 morein2008 阅读(657) 评论(0) 推荐(0) 编辑
摘要:当只有一个匹配条件时:egrep pattern file等价于grep -E pattern file 例如: 当多个匹配条件时,只能用egrep -e pattern1 -e pattern2 -e pattern3... filename,而不能用grep -e pattern1 -e pat 阅读全文
posted @ 2016-03-15 18:11 morein2008 阅读(210) 评论(0) 推荐(0) 编辑
摘要:对于千万行级别的数据,处理起来非常麻烦,例如有一个文件a.txt,大小超过2GB,共2000多万行,每行是一个新闻的相关信息,其中有一列为新闻标题,字符串型,新闻标题较长,现需要对新闻标题进行聚类,将类似标题的新闻归为一类,并将其中代表性的标题作为这一组新闻的标题。 例如"海量数据处理经验交流会今天 阅读全文
posted @ 2016-03-09 13:07 morein2008 阅读(592) 评论(0) 推荐(0) 编辑
摘要:基本方法: String filePath="D:\\test\\abc.txt"; BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath))); String data = 阅读全文
posted @ 2016-03-08 11:16 morein2008 阅读(195) 评论(0) 推荐(0) 编辑
摘要:有时候读取同一个url,服务器可能会返回不同的response,并不是爬虫程序代码的问题,而是服务器的问题,初次试验request时,最好把response文本保存在一个txt文件当中,以便后续的比对。得到response文本之后就可以利用正则表达式或通过查找字符串来获取信息了。 只做get请求时,requests.get(url)和urllib.open(url).read()效果是相同的。 要熟练使用requests库或urllib2库,做get,post请求数据,设置参数,获取head及body。(待续) 阅读全文
posted @ 2016-03-07 19:39 morein2008 阅读(177) 评论(0) 推荐(0) 编辑
摘要:Java字符串的split方法可以分割字符串,但和其他语言不太一样,split方法的参数不是单个字符,而是正则表达式,如果输入了竖线(|)这样的字符作为分割字符串,会出现意想不到的结果, 如, String str="中国|广东|深圳"; String[]location=str.split("|" 阅读全文
posted @ 2016-03-07 16:44 morein2008 阅读(210) 评论(0) 推荐(0) 编辑
摘要:String emailRegex = "^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$"; Pattern pat = Pattern.compile(emailRegex); Boolean matchFlag = pat.matcher 阅读全文
posted @ 2016-03-03 20:10 morein2008 阅读(146) 评论(0) 推荐(0) 编辑
摘要:1 package javatest; 2 3 import java.io.File; 4 import java.util.ArrayList; 5 import java.util.regex.Pattern; 6 7 class FileUtils 8 { 9 public static v 阅读全文
posted @ 2016-03-03 19:53 morein2008 阅读(647) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示