2015 年 12月 18 日随笔档案 - Eastmount

2015年12月18日

[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

摘要：最近在使用Python爬取网页内容时，总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等，此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍，主要先介绍Phantomjs安装过程及常见用法，参考官方文档，包括：网页截图、页面加载、代码运算、DOM操作、网络请求及响应等，希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 04:00 Eastmount 阅读(2010) 评论(0) 推荐(0) 编辑

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

摘要：最近准备深入学习Python相关的爬虫知识了，如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话；那么动态生成的信息页面，如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门，后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:56 Eastmount 阅读(3056) 评论(0) 推荐(0) 编辑

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

摘要：该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用，并附有详细的注释，参考官方文档，希望对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:54 Eastmount 阅读(3839) 评论(0) 推荐(0) 编辑

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

摘要：前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱，同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档，希望该篇基础性文章对你有所帮助，如果有错误或不足之处，请海涵~ 阅读全文

posted @ 2015-12-18 03:52 Eastmount 阅读(3968) 评论(1) 推荐(0) 编辑

[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

摘要：前面几篇文章介绍了Selenium、PhantomJS的基础知识及安装过程，这篇文章是一篇应用。通过Selenium调用Phantomjs获取CSDN下载资源的信息，最重要的是动态获取资源的评论，它是通过JavaScript动态加载的，故通过Phantomjs模拟浏览器加载获取。希望该篇基础性文章对你有所帮助，如果有错误或不足之处，请海涵~ 阅读全文

posted @ 2015-12-18 03:47 Eastmount 阅读(2473) 评论(0) 推荐(0) 编辑

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

摘要：前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:44 Eastmount 阅读(617) 评论(0) 推荐(0) 编辑

[Python] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

摘要：最近研究搜索引擎、知识图谱和Python爬虫比较多，中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数，但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。纪伯伦曾说过：“你无法同时拥有青春和关于青春的知识；因为青春忙于生计，没有余暇去求知；而知识忙于寻求自我，无法享受生活。”同样现在找工作的我，无法在拥有扎实基础知识的同时又兼顾深度的项目理解，但我更倾向于分享知识，因为它就是寻求自我，就是阅读全文

posted @ 2015-12-18 03:42 Eastmount 阅读(9824) 评论(0) 推荐(1) 编辑

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

摘要：我自认为这是自己写过博客中一篇比较优秀的文章，同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章，你能学到以下几点： 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作，里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然，最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之，希望文章对你有所帮助。如果作者又不足阅读全文

posted @ 2015-12-18 03:35 Eastmount 阅读(2906) 评论(1) 推荐(0) 编辑

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

摘要：作为一名从小就看篮球的球迷，会经常逛虎扑篮球及湿乎乎等论坛，在论坛里面会存在很多精美图片，包括NBA球队、CBA明星、花边新闻、球鞋美女等等，如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧！所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。最后希望读到此文的朋友，能收获一些东西，谢谢~ 阅读全文

posted @ 2015-12-18 03:29 Eastmount 阅读(2055) 评论(0) 推荐(0) 编辑

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

摘要：前面介绍了很多Selenium基于自动测试的Python爬虫程序，主要利用它的xpath语句，通过分析网页DOM树结构进行爬取内容，同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是，更为广泛使用的Python爬虫框架是——Scrapy爬虫。这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章。包括安装过程及入门的爬取腾讯招聘信息流程及结果，希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:23 Eastmount 阅读(2160) 评论(0) 推荐(0) 编辑

Python简单实现基于VSM的余弦相似度计算

摘要：在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等，都涉及到了向量空间模型（Vector Space Model，简称VSM）和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识，然后引用阮一峰大神的例子进行解释，最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。基本步骤：1.分别统计两个文档的关键词 2.两篇文章的关键词合并成一个集合...希望文章对你有所帮助~ 阅读全文

posted @ 2015-12-18 03:11 Eastmount 阅读(8315) 评论(0) 推荐(0) 编辑

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

摘要：本文主要是自己的在线代码笔记，在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧！虽然文章内容很简单，但是对于初学者或者刚接触爬虫的同学来说，还是有一定帮助的。阅读全文

posted @ 2015-12-18 03:00 Eastmount 阅读(6470) 评论(4) 推荐(0) 编辑

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

摘要：本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto（谷歌镜像）等图片时，出现"无法打开图片或已损坏"的问题，作者对它进行简单的探讨。同时，作者将进一步帮你巩固Selenium自动化操作和urllib库等知识，感谢朋友"露为霜"的帮助！希望以后能实现强大的图片爬虫代码~ 一.引入Selenium自动爬取百度图片二.简单分析原因及巩固知识三.解决方法阅读全文

posted @ 2015-12-18 02:49 Eastmount 阅读(21233) 评论(0) 推荐(1) 编辑

[python] 使用Jieba工具中文分词及文本聚类概念

摘要：这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工具进行中文分词，最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词三. 基于VSM的文本聚类算法不论如何，希望文章对你有所帮助，如果文章中有错误或不足之处，还请海涵！写文不易，且看且分析~ 阅读全文

posted @ 2015-12-18 02:30 Eastmount 阅读(55839) 评论(0) 推荐(3) 编辑

Eastmount

公告