摘要:
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明。 python-docx官方文档地址 使用python新建一个word文档,操作就像文档里介绍的那样: 读取和编辑一个已有的word文档,只需在一开始添加上文件路径就行了,如下: 如果是想读取其中的图片或是更 阅读全文
摘要:
我们这里已经获取到了某单位签到卡机导出的数据和单位人员通讯录。 其中签到机导出数据格式为.txt,内容如下图: 其中有价值的信息就数每行的time,id,name了,所以第一步要做的就是从文本中提取出所有time,id,name的数据。而需要从文本中筛选需要的信息,最好的办法自然是使用正则表达式。 阅读全文
只有注册用户登录后才能阅读该文。 阅读全文
摘要:
使用python读取MS-SQL中的数据,这里使用到模板pymssql。 因为不是python自带的模板,所以首先需要使用pip安装,对应命令:pip install pymssql 建立main.py文件,输入代码如下: 通过循环命令,逐条显示获取到的结果。 点击运行,执行该程序,能够正常返回SQ 阅读全文
摘要:
抓取静态网站的数据,只是根据需要组合出合适的url列表,之后编写方法spider获取指定url上的数据就可以了。但如果网站是动态的,例如在这个站点“http://www.zgyyjgw.com/front/cn/hospitalPrice”,从源代码中我们可以看出,该站点使用的是javascript 阅读全文
摘要:
因为之前的爬虫存在着各种不足,在此我们进行一些必要的扩展和改进。 一、加入代理服务器 首先,编写另外一个爬虫搜集网上的免费代理服务器 编写代理服务器数据爬虫程序”getproxy2.py”,代码如下: 1 from bs4 import BeautifulSoup 2 import urllib2 阅读全文
摘要:
检索百张的页面,爬虫运行下来往往在一小时以内,时间上还是可以接受的。但当整理后的URL数量过多的时候,就只能考虑采取多线程分步爬取了。Python里控制多线程只需要用到模板threading,而且只需要用到其中的Thread。 简单的使用方法如下: 可以看到五个线程同步运行,因sleep设置的时间相 阅读全文
摘要:
在对比医院业务数据中的各类药品价格的时候,面对着成千上百种的药品。因而想到使用爬虫来自动获取网上的药品价格,保存下来导入数据库中就可以方便地比较院方的药品采购价格了。 通过百度搜索“药品价格查询”,在众多的网站中,这里选择了药价查询网(http://www.china-yao.com/),主要是因为 阅读全文