摘要: jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,simila... 阅读全文
posted @ 2018-05-16 20:57 HeCCXX 阅读(1618) 评论(0) 推荐(1) 编辑
摘要: 在单机模式的基础上,完成伪分布部署!单机模式安装Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读... 阅读全文
posted @ 2018-05-11 21:37 HeCCXX 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 关于hadoop及相关模块的安装,自己下载模块安装的话较为麻烦,有配置、版本对应的些许问题,使用cloudera集成好的平台也不错,但如果跑的任务多的话,机器配置要好一点,模糊的记得是最低需要8G内存?下面先记录... 阅读全文
posted @ 2018-05-11 00:07 HeCCXX 阅读(104) 评论(0) 推荐(0) 编辑
摘要: pandas用于处理.csv excel html 文本等文件。在数据分析方面起到很大的作用。pandas.Series(数据,index=[]) 索引数据,默认格式数字按序增加,可以自己... 阅读全文
posted @ 2018-05-01 15:35 HeCCXX 阅读(988) 评论(0) 推荐(0) 编辑
摘要: 这里使用到MySQL,对小白还算挺友好的。当然还有其他数据库 redis、mongodb(非关系数据库) influxdb (时序数据库)一般用作监控框架,单机版免费,了解一下?废话少说,开始正题.1、先创建sc... 阅读全文
posted @ 2018-04-30 15:14 HeCCXX 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 在这用到pymysql为例,其他的可作为参考。一、关于(1054, "Unknown column 'xxxxxxx' in 'field list'")如果你写的是下面这样的话,以后记住别这样写了:add_pr... 阅读全文
posted @ 2018-04-30 14:29 HeCCXX 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 完成之前的登录,查票(城市编号转换之后),重头戏也是最复杂的环节来了,要完成下单,需要经过下列一系列验证,且均要通过验证,由此可见12306的反爬机制做的还是相当出色的。1、检查用户是否保持登录成功 ht... 阅读全文
posted @ 2018-04-27 16:38 HeCCXX 阅读(265) 评论(1) 推荐(1) 编辑
摘要: 我们去买车票不可能输入城市的英文代码,我们都是输入城市的中文名称,然后直接查询,下单。所以我们需要将输入的中文名称转为服务器认识的英文编码。https://kyfw.12306.cn/otn/leftTicket... 阅读全文
posted @ 2018-04-27 15:26 HeCCXX 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 记之前的学习,再过一阵子估计忘了。。。查票不需要登录,但是支付是需要登录的,所以人为操作的话,一般是选择查票->预定->下单(下单时需要登录,出现变态二维码验证)。而我们使用爬虫可以先登录,然后一直保持登录状态,... 阅读全文
posted @ 2018-04-27 15:04 HeCCXX 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 依次执行下列:1、安装wheelpip install wheel 2、安装lxml 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip inst... 阅读全文
posted @ 2018-04-25 21:22 HeCCXX 阅读(100) 评论(0) 推荐(0) 编辑