摘要: 这次记录的scrapy-splash的安装和使用基本上是两种情况:一是win10比较新的版本+docker for windows;二是win10家庭版,win7(理论上win8也是)+docker toolbox 首先是win10比较新的版本+docker for windows: 前面基本是一键 阅读全文
posted @ 2018-10-03 09:42 029黄甲栋 阅读(4333) 评论(0) 推荐(0) 编辑
摘要: 1、简单的在pipelines.py上添加如下代码: 问题:需要删除到爬取数据的第一个元组,解决方法是使用if语句去除第一个元组(其中的美元符号需要除去,其中的一些数据类型如下)如下: 3、保存数据到数据库却不能使得数据重复,解决方法如下: 4、创建一个与spiders的同级的文件夹db,在其下创建 阅读全文
posted @ 2018-09-27 09:26 029黄甲栋 阅读(1604) 评论(0) 推荐(0) 编辑
摘要: 练习代码如下: 主函数: setting.py: items.py: start.py: pipelines.py: 阅读全文
posted @ 2018-09-18 19:44 029黄甲栋 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 首先,先去https://www.lfd.uci.edu/~gohlke/pythonlibs/#twsited这个网址下载安装twisted的whl文件。 阅读全文
posted @ 2018-09-13 10:38 029黄甲栋 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 1、问题1: 解决办法:首先,这是因为控制类UserController缺少了一部分代码,这段代码的主要作用是用ApplicationContext 去定位classpath:applicationContext.xml文件,然后获取其中的bean UserService,UserDAO等等。代码如 阅读全文
posted @ 2018-09-11 14:18 029黄甲栋 阅读(857) 评论(0) 推荐(0) 编辑
摘要: 1、安装PIL window键+r打开cmd,在cmd输入:pip install PIL 错误提示: Could not find a version that satisfies the requirement PIL (from versions: ) No matching distribu 阅读全文
posted @ 2018-09-04 14:07 029黄甲栋 阅读(1874) 评论(0) 推荐(0) 编辑
摘要: 分享: 1、火狐浏览器使用时会发生找不到element这类的事件,所以需要做好三件事:其一,打开一个新的界面时,需要time.sleep(5)作为短暂的停歇;其二,需要查清所定位的element所在的iframe,需要用一些语句切换iframe;其三,注意写对定位方法。 阅读全文
posted @ 2018-08-31 16:18 029黄甲栋 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: 1、在PyCharm中添加selenium: 在命令行中运行 在PyCharm中settings->Project untitled->Project Interperter,绿色加号添加selenium。 如果安装selenium失败,则修改python中的helpers文件夹下的packging 阅读全文
posted @ 2018-08-30 15:22 029黄甲栋 阅读(7614) 评论(0) 推荐(0) 编辑
摘要: 首先,先安装好idea和svn,idea的安装教程百度上有很多,就不写了。 svn的安装: 1、安装Setup-Subversion-1.8.9-1.msi,然后在你选定的盘中新建SVNrepository文件夹,在其目录下在创建one文件夹; 2、通过命令行床架多仓库: 3、打开one文件夹下的c 阅读全文
posted @ 2018-06-10 16:41 029黄甲栋 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 先启动Hadoop。 jps查看各个服务已启动 把本地文件上传到hdfs文件系统 建个表text 把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计 使用select命令查 阅读全文
posted @ 2018-05-19 17:53 029黄甲栋 阅读(190) 评论(0) 推荐(0) 编辑