08 2016 档案
爬虫:爬取海词的翻译内容
摘要:在爬取海词的时候遇到了一个问题,在异步加载的时候,需要一个t值,但是这个t值是js加载出来的,直接拼接的,我们无法从网页中得到; 当在搜索框输入单词的时候:你在干嘛 替换下图中的page的值就能达到翻页的目的: 那么当前的目的就是要能够找到这段js代码,同时获取对应输入的t的值,来重新组合url 真 阅读全文
posted @ 2016-08-29 11:37 细雨微光 阅读(1050) 评论(0) 推荐(0) 编辑
python(23)re函数:compile、match、search、findall
摘要:正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表 阅读全文
posted @ 2016-08-18 19:32 细雨微光 阅读(2536) 评论(1) 推荐(0) 编辑
python(22)总结下最近遇到的编码问题
摘要:最近爬取,或者解析网页是总是遇到编码问题(我的版本:python2.7) 一、常见异常:UnicodeEncodeError: 'ascii' codec can't encode character u'\xb4' in position 0: ordinal not in range(128) 阅读全文
posted @ 2016-08-17 15:18 细雨微光 阅读(457) 评论(0) 推荐(0) 编辑
什么是词干化处理
摘要:词干化处理: 在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。 对于切词得到的英文单词要进行词干化处理,主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5] 阅读全文
posted @ 2016-08-11 14:55 细雨微光 阅读(2462) 评论(0) 推荐(0) 编辑
python(21)实现多进程(1)
摘要:参考链接:http://www.cnblogs.com/kaituorensheng/p/4445418.html python多进程:multiprocessing python中的多线程其实并不是真正的多线程,如果想要充分使用多核cpu的资源,在python中大部分情况下还是多进程。Python 阅读全文
posted @ 2016-08-11 10:57 细雨微光 阅读(575) 评论(0) 推荐(0) 编辑
Linux命令(20)linux服务器之间复制文件和目录
摘要:linux的scp命令: scp就是secure copy的简写,用于在linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器. 有时我们需要获得远程服务器上的某个文件,该服务器既没有配置ftp服务器,也没有做共享,无法通过常规途径获得文件时,只需要通过简单 阅读全文
posted @ 2016-08-10 14:47 细雨微光 阅读(15754) 评论(0) 推荐(0) 编辑
Linux命令(20)查看当前网速
摘要:Linux查看网络即时网速 sar -n DEV 1 100 1代表一秒统计并显示一次 100代表统计一百次 还可以使用ntop工具 sar -n DEV 1 100 1代表一秒统计并显示一次 100代表统计一百次 还可以使用ntop工具 阅读全文
posted @ 2016-08-05 09:57 细雨微光 阅读(26643) 评论(0) 推荐(0) 编辑
pycharm 格式化代码
摘要:有时候将空格键和tab键混用,在windows上没什么事情,但是如果移动到linux就会有问题,所以我们在移动到linux上之前要先格式化一下代码: ctrl+alt+L可以格式化,但是和锁屏快捷键冲突。 也可以,先选中代码,使用快捷键 ctrl+alt+i 。 阅读全文
posted @ 2016-08-04 20:58 细雨微光 阅读(19192) 评论(2) 推荐(0) 编辑


点击右上角即可分享
微信分享提示