Python - 随笔分类 - rongyux

Neo4j:图数据库GraphDB(四)Python中的操作

摘要：本文总结下Python中如何操作Neo4j数据库，用到py2neo包，Pip install 一下。 1 连接neo4j数据库：跟其它数据库一样，操作前必须输入用户名和密码及地址连接一下。 2 清空数据库：删除图数据库里的一切点和边。 3 创建结点：label标记一簇结点，方便以后的结点查找操作，{ 阅读全文

posted @ 2016-06-01 16:29 rongyux 阅读(9295) 评论(1) 推荐(0) 编辑

爬虫4：pdf页面+pdfminer模块+demo

摘要：本文介绍下pdf页面的爬取，需要借助pdfminer模块 demo一般流程： 1）设置url 2)requests模块获取url 3）写入.pdf文件 4)使用pdfminer模块(API可以查看本人的另一篇 http://www.cnblogs.com/rongyux/p/5445723.html 阅读全文

posted @ 2016-05-20 23:59 rongyux 阅读(1462) 评论(0) 推荐(0) 编辑

爬虫3：html页面+webdriver模块+demo

摘要：保密性好的网站，不能使用request请求页面信息，这样可以使用webdriver模块先开启一个浏览器，然后爬去信息，甚至还可以click等操作对页面操作，再爬取。 demo 一般流程： 1）包含selenium 模块 2）设置采用火狐浏览器（chrome也可以） 3）get方式打开（为了保密，ur 阅读全文

posted @ 2016-05-20 23:36 rongyux 阅读(1132) 评论(0) 推荐(0) 编辑

爬虫2：html页面+beautifulsoap模块+post方式+demo

摘要：爬取html页面，有时需要设置参数post方式请求，生成json，保存文件中。 1）引入模块 2）设置参数 3）post请求 4）设置编码 5）BeautifulSoup解析request请求 6）find_all筛选 7）css选择select beautifulsoap的API请查看 https 阅读全文

posted @ 2016-05-20 23:18 rongyux 阅读(1381) 评论(0) 推荐(0) 编辑

爬虫1：html页面+beautifulsoap模块+get方式+demo

摘要：前言：最近公司要求编写一个爬虫，需要完善后续金融项目的数据，由于工作隐私，就不付被爬的网址url了，下面总结下spider的工作原理。语言：python；工具：jupyter；概要：说到爬虫spider，就不得不提html页面的解析，说到html页面的解析就不得不提beautifulsoap模块阅读全文

posted @ 2016-05-16 20:17 rongyux 阅读(1525) 评论(0) 推荐(0) 编辑

pdfminer API介绍：pdf网页爬虫

摘要：安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段，有的加密成pdf格式的文件，下载后需要解析，使用pdfminer工具。先介绍一下什么是pdfminer 下面是官方一段英文介绍： PDFMiner is a tool for extracting informat 阅读全文

posted @ 2016-04-29 11:36 rongyux 阅读(4259) 评论(0) 推荐(0) 编辑

Python：的web爬虫实现及原理(BeautifulSoup工具)

摘要：最近一直在学习python，学习完了基本语法就练习了一个爬虫demo，下面总结下。主要逻辑是 1）初始化url管理器，也就是将rooturl加入到url管理器中 2）在url管理器中得到新的new_url 3）根据新new_url得到它的内容html_cont (工具 urllib.request 阅读全文

posted @ 2016-03-31 20:39 rongyux 阅读(940) 评论(2) 推荐(0) 编辑

rongyux

随笔分类 - Python

公告