摘要:
前言: 从事网络爬虫三年有余,近期工作稍微有所调整 ,开始倾向于数据分析。之前零零散散的做过些简要的分析【电商数据分析,社交媒体状态分析】。而至于数据分析也算新手,没有系统的学过 。 计划这个方式掌控学习: 为生产环境快速实现case【code by python】--> 补充理论知识【书,下列有书... 阅读全文
摘要:
如何使用vi文本编辑器vi由比尔·乔伊(Bill Joy)撰写,所有UNIX like均默认安装此文本编辑器。详细简介请点击维基中文。1.首先复制一个文件到/tmp目录(本例中为复制根目录下install.log文件)做为示例文本。2.输入“cd /tmp”切换到/tmp目录,并输入“vi inst... 阅读全文
摘要:
经常写爬虫的童鞋,难免要处理含有中文的url,大部分时间,都知道url_encode,各个语言也都有支持,今天简单整理下原理,供大家科普1、特征: 如果URL中含有非ASCII字符的话, 浏览器会对URL进行URL_ENCODE, 然后发送给服务器. URL_ENCODE的过程就是把URL作为字符... 阅读全文
摘要:
01-.tar格式解包:[*******]$ tar xvf FileName.tar打包:[*******]$ tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)02-.gz格式解压1:[*******]$ gunzip FileName.gz解压2:[***... 阅读全文
摘要:
mysql 8小时问题的解决方法转发: 别看是英文 ,写的很好 ,才转Use Hibernate + MYSQL database development, link timeout problem:com.mysql.jdbc.CommunicationsException: The last p... 阅读全文
摘要:
{"time":"2015.08.14 21:45:13","total":999224516}{"time":"2015.08.14 21:45:24","total":999225424}{"time":"2015.08.14 21:45:34","total":999226141}{"time... 阅读全文
摘要:
主要处理 嵌套 div,正则无法很好的处理清洗 比如文本: 想要移除 class =quizPutTag 的div ,内部可能嵌套的还有未知层级的div【前提是html文本段是闭合标签的】这是testtestH2C2O4•2H2O△.CO↑+CO2↑+3H2O↑保留的实现codeload(''.$... 阅读全文
摘要:
1:简化步奏 调整 :vimrc的脚本配置 编辑~/.vimrc文件,(没有的话新建个)加上如下几行:set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936 set termencoding=utf-8 set encoding=utf-82... 阅读全文
摘要:
在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random... 阅读全文
摘要:
while [ 1 ]do length=`redis-cli -h *.*.*.* -p 8000 llen eq` while [ $length -gt 1 ] do echo "length[${length}], sleep 3600 s" sleep 3600 length=`re... 阅读全文