斧不止三板

2019年4月25日

python 使用selenium模块爬取同一个url下不同页的内容(浏览器模拟人工翻页)

摘要: 页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页 目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www.gx211.com/collegemanage/search.aspx?id=1&xxcity=1 阅读全文

posted @ 2019-04-25 19:28 斧不止三板 阅读(6368) 评论(0) 推荐(0) 编辑

python 提取字符串中的指定字符 正则表达式

摘要: 例1: 字符串: '湖南省长沙市岳麓区麓山南路麓山门' 提取:湖南,长沙 在不用正则表达式的情况下: 输出结果: 例二: 从一段文字中提取指定两段字符中间的字符 字符串 = ‘’师资力量学校现有教职工近4000余人,其中专任教师1800余人,教授、副教授1100余人,中国科学院院士3名,中国工程院院 阅读全文

posted @ 2019-04-25 18:33 斧不止三板 阅读(60974) 评论(3) 推荐(0) 编辑

python简单爬虫 用beautifulsoup爬取百度百科词条

摘要: 目标:爬取“湖南大学”百科词条并处理数据 需要获取的数据: 源代码: 库:由于百度有反爬机制,所以使用urllib.request库获取网页;BeautifulSoup 代码: 运行结果: 阅读全文

posted @ 2019-04-25 17:30 斧不止三板 阅读(1725) 评论(0) 推荐(0) 编辑

python简单爬虫 使用pandas解析表格,不规则表格

摘要: url = http://www.hnu.edu.cn/xyxk/xkzy/zylb.htm 部分表格如图: 部分html代码: 用pandas解析表格,代码如下: 运行结果如下(部分): 非常简洁高效! 阅读全文

posted @ 2019-04-25 16:11 斧不止三板 阅读(3937) 评论(0) 推荐(0) 编辑

python简单爬虫 用lxml解析页面中的表格

摘要: 目标:爬取湖南大学2018年在各省的录取分数线,存储在txt文件中 部分表格如图: 部分html代码: 代码: 注:原本数据字典是这样写的: 输出结果有很多‘\xa0’,其实就是空格,源网页中就字段里就存在很多空格: plus:解析表格有更好的方法,比如pandas,一步到位!非常方便。 详情请看我 阅读全文

posted @ 2019-04-25 15:51 斧不止三板 阅读(7567) 评论(0) 推荐(0) 编辑

python简单爬虫 用lxml库解析数据

摘要: 目标:爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片: 使用工具: Python3.7 火狐浏览器 PyCharm 步骤: 1.打开浏览器的开发者工具查看页面元素 2.html代码如下: 3.打开PyCha 阅读全文

posted @ 2019-04-25 15:13 斧不止三板 阅读(950) 评论(0) 推荐(0) 编辑

2019年4月20日

安装selenium,驱动geckodriver,及出现的问题

摘要: cmd输入安装selenium指令: 1.报错 Could not find a version that satisfies the requirement selenium (from versions: )No matching distribution found for selenium 阅读全文

posted @ 2019-04-20 11:39 斧不止三板 阅读(2660) 评论(0) 推荐(0) 编辑

2018年12月28日

使用机房的网线 连接到自己的电脑 解决Internet没有访问权限问题

摘要: 在机房把机子上的网线拔了,插在自己的笔记本上。发现并不能用,能识别Internet,但是没有访问权限。 解决办法: 去查看机房的机子的IP地址和DNS地址,就是那根网线原本连接的那台机。(网线先别拔出) 打开方式: 打开控制面板->查看网络状态和任务 红框位置有当前连接的网络(状态应该是连接但不能使 阅读全文

posted @ 2018-12-28 09:38 斧不止三板 阅读(1124) 评论(0) 推荐(0) 编辑

Android Stdio 无法打开模拟器

摘要: 安装好了各种版本的AVD,有个版本4.1,API版本16,219MB的模拟器是可以打开的,但是基本不能用,只能看到首界面,跳转什么的完全不行。 除此之外其它高版本的模拟器都不能用(API版本>20)。 我找了相关资料,发现是因为没有安装 Emulator Accelerator(HAXM insta 阅读全文

posted @ 2018-12-28 09:13 斧不止三板 阅读(256) 评论(0) 推荐(0) 编辑

Android stdio 报错 error invoking main method

摘要: 打开Android stdio失败 报错:error invoking main method 想想前一天做了什么事?? 昨天把企图把Android Stdio文件包移盘,但是中途截止了,也就是说移动了一部分,剩下一部分还在原来盘里,但是昨天程序一直在运行状态,没有关闭,所以当天没有出问题。 等到第 阅读全文

posted @ 2018-12-28 08:58 斧不止三板 阅读(1513) 评论(0) 推荐(0) 编辑

导航