07 2017 档案

摘要:Flow and Execution: 函数可以调用另一个函数,在函数执行到一半的时候,程序跳转去执行另一个函数, 同时,还要运行当前的函数, python 可以清晰定位,当一个函数执行完毕,程序跳回到调用它的地方,继续往下执行,直到结束。 顺着执行流程(flow and execution)阅读程 阅读全文
posted @ 2017-07-31 18:38 vivi~ 阅读(90) 评论(0) 推荐(0) 编辑
摘要:上次没精力时候,看了下python自动化运维,给print加了颜色,新鲜哒 今天来写写文件对比 step1:引入difflib库(无需安装,python自带) step2:将文件内容按行分割,splitlines() step3: 用difflib.Differ()类的compare() 方法比对2 阅读全文
posted @ 2017-07-31 15:27 vivi~ 阅读(1023) 评论(0) 推荐(0) 编辑
摘要:先写下来,以免后续忘记,有很多都是之前用过的, 依旧忘!!! 嘤嘤嘤 用0 或者 -- 或者任意你喜欢的东东替换掉nan,这个float类型的nan真的是好讨厌 直接去掉nan 也可以写成 data_file.loc[2:12,'T2'] 阅读全文
posted @ 2017-07-26 14:24 vivi~ 阅读(278) 评论(0) 推荐(0) 编辑
摘要:要用pprint.pprint() 阅读全文
posted @ 2017-07-15 16:37 vivi~ 阅读(249) 评论(0) 推荐(0) 编辑
摘要:版本优化 标签(空格分隔): 测试 需求经手人太多,直接提bug,开发不乐意,跟Leader确认不靠谱,跟PM确认,不熟悉流程,跟第三方PM确认靠谱了,结果被开发三言两语,变成了不改bug 而改需求 ————多沟通,除此之外,别无他法 目标对象包括素材、文字、图片、背景,不一样的场景,包含的目标对象 阅读全文
posted @ 2017-07-14 17:37 vivi~ 阅读(165) 评论(0) 推荐(0) 编辑
摘要:需求:爬取豆瓣小组所有话题(话题title,内容,作者,发布时间),及回复(最佳回复,普通回复,回复_回复,翻页回复,0回复) 解决:1. 先爬取小组下,所有的主题链接,通过定位nextpage翻页获取总过700+条话题; 2. 访问700+ 链接,在内页+start=0中,获取话题相关的四部分(话 阅读全文
posted @ 2017-07-12 16:59 vivi~ 阅读(777) 评论(2) 推荐(0) 编辑
摘要:之前settings.py 中下图是注释掉的,: 现在把它放开,赋值3(意思是3秒) 现在700多个话题的豆瓣小组,可以顺利爬下 比较懒,感觉代理池会不会很复杂呀,什么的。 不过,设置了爬取的时间间隔,确实慢了很多。 代理池还是要用起来 阅读全文
posted @ 2017-07-12 16:32 vivi~ 阅读(1342) 评论(0) 推荐(0) 编辑
摘要:for x in topic_replay:# 去掉在x左右的空白,\t,\n和\r字符. x1 = x.strip(' \t\n\r') if x1 !='': topic_replay_end.append(x1) # 先将文章中的\r 都去掉,有些单独的'\r' 就变成了空的列表元素:'',再用if 来判断下就好了 artical... 阅读全文
posted @ 2017-07-09 17:19 vivi~ 阅读(3010) 评论(0) 推荐(0) 编辑
摘要:需求:获得如下li.clearfix 下的所有text,并且按顺序输出 1. x.css('div.reply-doc h4 a::text').extract(); 2. x.css('div.reply-doc h4::text').extract(); 3. x.css('div.reply- 阅读全文
posted @ 2017-07-09 17:13 vivi~ 阅读(1185) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示