python爬虫:读取PDF

摘要: 下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF。 pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfminer/pdfminer-20140328.tar.gz 阅读全文
posted @ 2016-06-08 11:11 miranda_tang 阅读(6153) 评论(0) 推荐(0) 编辑

安装pywin32

摘要: 1.下载pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/ 2.安装: 安装过程中报错:Python version 2.7 required, which was not found in the registry 解决方 阅读全文
posted @ 2016-06-07 17:01 miranda_tang 阅读(1810) 评论(0) 推荐(0) 编辑

python 编码问题解决方案

摘要: 1.UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 解决方案: import sysreload(sys)sys.setdefaultencoding( 阅读全文
posted @ 2016-06-07 11:20 miranda_tang 阅读(1314) 评论(0) 推荐(0) 编辑

python3爬虫:下载网易云音乐排行榜

摘要: #!/usr/bin/python3# -*- encoding:utf-8 -*-# 网易云音乐批量下载import requestsimport urllib# 榜单歌曲批量下载# r = requests.get('http://music.163.com/api/playlist/detai 阅读全文
posted @ 2016-06-07 11:08 miranda_tang 阅读(3313) 评论(0) 推荐(0) 编辑

python爬虫:爬取易迅网价格信息,并写入Mysql数据库

摘要: 本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html 阅读全文
posted @ 2016-06-07 11:00 miranda_tang 阅读(2376) 评论(0) 推荐(1) 编辑

R 连接DB2数据库,并制作词图

摘要: #写在前面的话:此教程主要是用R连接了DB2数据库,并进行文本分析,制作了词图 #教程为markdown编写 title: "网站留言分析"output: html_document ```{r setup, include=FALSE}knitr::opts_chunk$set(echo=FALS 阅读全文
posted @ 2016-06-06 13:21 miranda_tang 阅读(517) 评论(0) 推荐(0) 编辑

python 连接mysql数据库

摘要: 一。Windows下 1.下载mysqldb 下载地址:https://sourceforge.net/projects/mysql-python/?source=typ_redirect 2.安装 安装时有一步是选择python的安装位置,因为我的python安装在d盘,但是默认为安装在c盘的,所 阅读全文
posted @ 2016-06-03 16:59 miranda_tang 阅读(929) 评论(0) 推荐(0) 编辑

python爬虫:爬取凤凰指数

摘要: 在知乎上看到的这个问题,讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面,在其他项目中用循环一般可以搞定,可是这个,第一页和第二第三页的表格是不同的,所以要重新写规则,我懒,写了第一页后,就不想在写第二第三页了; 2.乱码问题,我用request爬取,遇到了乱码,后来强制改为utf-8解决了; 代 阅读全文
posted @ 2016-05-20 13:39 miranda_tang 阅读(5104) 评论(0) 推荐(1) 编辑

将mysql默认编码改为UTF8

摘要: windows: a. WIN+R net stop mysql 关闭mysql服务 b. 复制my-dafault.ini,重命名为my.ini,进入里面 UBUNTU: ** sudo vim /etc/mysql/my.cnf **进入 执行以下操作: 1、在[client]字段里加入defa 阅读全文
posted @ 2016-05-19 13:58 miranda_tang 阅读(6987) 评论(0) 推荐(1) 编辑

DB2 char长度问题

摘要: 问题:发现用char转换了后的值长度都变为了11,更长的变为了254 解决: char是定长,它会用空格给你补足固定的长度 如果要得到它的精确长度,要加个trim 当然,个人觉得用to_char就更好了,不用那么麻烦,就是比较占空间 参考:https://www.ibm.com/support/kn 阅读全文
posted @ 2016-05-19 13:56 miranda_tang 阅读(1545) 评论(0) 推荐(0) 编辑