摘要: 首先介绍今天的主角! interpreter:Selenium app:PhantomJS 既然是interpreter,Selenium是可以按照我第一篇博客的做法下载的。PhantomJS呢,可以直接通过我给的链接里面进行下载。当两个都安装完毕,就能正式地开始进行数据抓取了。当然例子就是我的博客 阅读全文
posted @ 2017-07-09 18:31 liyang1020 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 我在Windows7系统安装了虚拟机,通过虚拟机安装了Ubuntu13.04,我设置的主机与虚拟机的连接方式是桥接,安装好后,发现虚拟机ping不通主机,但是主机可以ping通虚拟机。 我的操作是:关闭防火墙,发现虚拟机可以ping通主机了。说明是Windows7防火墙阻止了。 现在存在的问题是:如 阅读全文
posted @ 2017-06-08 15:30 liyang1020 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 在安装Spark之前,我们需要在自己的系统当中先安装上jdk和scala 可以去相应的官网上下载: JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html scala:http:/ 阅读全文
posted @ 2017-06-06 10:28 liyang1020 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 做个小练习,抓取的是电影天堂里面最新电影的页面。链接地址:http://www.dytt8.net/html/gndy/dyzz/index.html 首先我们需要获取里面电影详情的网页地址: 抓取详情页中的电影数据 执行抓取 阅读全文
posted @ 2017-04-17 00:38 liyang1020 阅读(3517) 评论(0) 推荐(0) 编辑
摘要: 用python按照教程尝试做一下数据分析,小试牛刀一下~~ 数据导入和可视化 通常,数据分析的第一步由获取数据和导入数据到我们的工作环境组成。我们可以使用以下的Python代码简单的下载数据: import urllib2 url = 'http://aima.cs.berkeley.edu/dat 阅读全文
posted @ 2017-03-13 00:51 liyang1020 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 接到个任务,要写一个脚本收集msi安装文件在windows下面的安装信息。 第一步:读取注册表识别出存在的msi。 由于msi在windows下面都是有一套统一的安装规则,我们可以识别HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersi 阅读全文
posted @ 2017-03-03 00:23 liyang1020 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 接到一个很有意思的任务,给了我一串内存数据的文档,要把它转为看得懂的明文。 我们可以借助hex工具查看这些字符的16进制。 int在内存里面是占4个字节,例如图中的0x64代表右边的字符d。 所以我们现在需要四个四个分组处理,总共有len(file)/4组,每一组对应着file里面字符的位置为[4* 阅读全文
posted @ 2017-02-11 23:45 liyang1020 阅读(1158) 评论(0) 推荐(0) 编辑
摘要: 以前没有写博客和用github的习惯,以后要养成写博客记录自己学到的知识技能~~~ 阅读全文
posted @ 2016-12-17 14:40 liyang1020 阅读(124) 评论(0) 推荐(0) 编辑