摘要:
本次学习重点: 1、使用urllib的request进行网页请求,获取当前url整版网页内容 2、对于多级抓取,先想好抓取思路,再动手 3、BeautifulSoup获取html网页中的指定内容 4、使用多线程,加快抓取速度 本次抓取不涉及反爬虫知识。 本章学习内容: 1、最简单的request请求 阅读全文
摘要:
中文在编程中真实后娘养的,各种坑爹,python3下中文乱码这个问题抓破了头皮,头疼。看了alex的文章,才有种恍然大悟的感觉(链接在底部)。 一句话,就是转换成unicode,压缩前是什么编码,使用什么编码encode再decode回来 先看测试代码: 真实文件名 废话不多说了,直接上最后成功代码 阅读全文
摘要:
好几天没写博客了,在win10下写了几天python,然后下了pycharm使用,发现还可以,但是太笨重了,切回了mac,然后装了pycharm社区版本。 但是这个使用太别扭了,没有myeclipse的alt+上箭头、ctrl+d快速删除等快捷键。 在网上搜索了半天,都没人说到重点,彻底秉承了os到 阅读全文
摘要:
读取txt,无需引入任何包: user_info.txt www.126.com,user1,pwd1mail.163.com,user2,pwd2mail.qq.com,user3,pwd3 读取csv,引入csv(使用wps或office创建excel另存为csv,不能擅自改后缀): 读取XML 阅读全文
摘要:
学习python下使用selenium2自动测试第6天,参数化编程这节课花了两天时间。 本次编程主要时间是花在熟悉python上 知识点or坑点: 1、读取txt、xml、csv等文件存储的账号、密码 txt文件格式,逗号分割(也可使用其他符号): www.126.com,user1,pwd1 ww 阅读全文
摘要:
今天是学习selenium2第四天。总结下今天的学习成果,自动登录网易邮箱并写信发送邮件。 知识点or坑点: 1、模块化编写测试模块(类似java里的抽象方法,js的函数编写) from 包名 import 类 调用def定义的方法 2、xpath怎么获取包含部分文本的标签 3、无法用id、name 阅读全文
摘要:
今天是学习selenium的第三天,今天的主题是自动登录126邮箱。 今天总结碰到的坑有三个: 1、frame内元素抓取,使用driver.switch_to.frame(frameId)方法切换锁定frame 2、等待页面渲染完毕定位输入,chrome下使用sleep(秒)等待 3、 driver 阅读全文