随笔分类 -  Python

摘要:本文总结下Python中如何操作Neo4j数据库,用到py2neo包,Pip install 一下。 1 连接neo4j数据库:跟其它数据库一样,操作前必须输入用户名和密码及地址连接一下。 2 清空数据库:删除图数据库里的一切点和边。 3 创建结点:label标记一簇结点,方便以后的结点查找操作,{ 阅读全文
posted @ 2016-06-01 16:29 rongyux 阅读(9295) 评论(1) 推荐(0) 编辑
摘要:本文介绍下pdf页面的爬取,需要借助pdfminer模块 demo一般流程: 1)设置url 2)requests模块获取url 3)写入.pdf文件 4)使用pdfminer模块(API可以查看本人的另一篇 http://www.cnblogs.com/rongyux/p/5445723.html 阅读全文
posted @ 2016-05-20 23:59 rongyux 阅读(1462) 评论(0) 推荐(0) 编辑
摘要:保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。 demo 一般流程: 1)包含selenium 模块 2)设置采用火狐浏览器(chrome也可以) 3)get方式打开(为了保密,ur 阅读全文
posted @ 2016-05-20 23:36 rongyux 阅读(1132) 评论(0) 推荐(0) 编辑
摘要:爬取html页面,有时需要设置参数post方式请求,生成json,保存文件中。 1)引入模块 2)设置参数 3)post请求 4)设置编码 5)BeautifulSoup解析request请求 6)find_all筛选 7)css选择select beautifulsoap的API请查看 https 阅读全文
posted @ 2016-05-20 23:18 rongyux 阅读(1381) 评论(0) 推荐(0) 编辑
摘要:前言:最近公司要求编写一个爬虫,需要完善后续金融项目的数据,由于工作隐私,就不付被爬的网址url了,下面总结下spider的工作原理。 语言:python;工具:jupyter; 概要:说到爬虫spider,就不得不提html页面的解析,说到html页面的解析就不得不提beautifulsoap模块 阅读全文
posted @ 2016-05-16 20:17 rongyux 阅读(1525) 评论(0) 推荐(0) 编辑
摘要:安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段,有的加密成pdf格式的文件,下载后需要解析,使用pdfminer工具。 先介绍一下什么是pdfminer 下面是官方一段英文介绍: PDFMiner is a tool for extracting informat 阅读全文
posted @ 2016-04-29 11:36 rongyux 阅读(4259) 评论(0) 推荐(0) 编辑
摘要:最近一直在学习python,学习完了基本语法就练习了一个爬虫demo,下面总结下。 主要逻辑是 1)初始化url管理器,也就是将rooturl加入到url管理器中 2)在url管理器中得到新的new_url 3)根据新new_url得到它的内容html_cont (工具 urllib.request 阅读全文
posted @ 2016-03-31 20:39 rongyux 阅读(940) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示