随笔分类 - Python
摘要:本文总结下Python中如何操作Neo4j数据库,用到py2neo包,Pip install 一下。 1 连接neo4j数据库:跟其它数据库一样,操作前必须输入用户名和密码及地址连接一下。 2 清空数据库:删除图数据库里的一切点和边。 3 创建结点:label标记一簇结点,方便以后的结点查找操作,{
阅读全文
摘要:本文介绍下pdf页面的爬取,需要借助pdfminer模块 demo一般流程: 1)设置url 2)requests模块获取url 3)写入.pdf文件 4)使用pdfminer模块(API可以查看本人的另一篇 http://www.cnblogs.com/rongyux/p/5445723.html
阅读全文
摘要:保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。 demo 一般流程: 1)包含selenium 模块 2)设置采用火狐浏览器(chrome也可以) 3)get方式打开(为了保密,ur
阅读全文
摘要:爬取html页面,有时需要设置参数post方式请求,生成json,保存文件中。 1)引入模块 2)设置参数 3)post请求 4)设置编码 5)BeautifulSoup解析request请求 6)find_all筛选 7)css选择select beautifulsoap的API请查看 https
阅读全文
摘要:前言:最近公司要求编写一个爬虫,需要完善后续金融项目的数据,由于工作隐私,就不付被爬的网址url了,下面总结下spider的工作原理。 语言:python;工具:jupyter; 概要:说到爬虫spider,就不得不提html页面的解析,说到html页面的解析就不得不提beautifulsoap模块
阅读全文
摘要:安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段,有的加密成pdf格式的文件,下载后需要解析,使用pdfminer工具。 先介绍一下什么是pdfminer 下面是官方一段英文介绍: PDFMiner is a tool for extracting informat
阅读全文
摘要:最近一直在学习python,学习完了基本语法就练习了一个爬虫demo,下面总结下。 主要逻辑是 1)初始化url管理器,也就是将rooturl加入到url管理器中 2)在url管理器中得到新的new_url 3)根据新new_url得到它的内容html_cont (工具 urllib.request
阅读全文