摘要:
jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,simila... 阅读全文
摘要:
在单机模式的基础上,完成伪分布部署!单机模式安装Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读... 阅读全文
摘要:
关于hadoop及相关模块的安装,自己下载模块安装的话较为麻烦,有配置、版本对应的些许问题,使用cloudera集成好的平台也不错,但如果跑的任务多的话,机器配置要好一点,模糊的记得是最低需要8G内存?下面先记录... 阅读全文
摘要:
pandas用于处理.csv excel html 文本等文件。在数据分析方面起到很大的作用。pandas.Series(数据,index=[]) 索引数据,默认格式数字按序增加,可以自己... 阅读全文
摘要:
这里使用到MySQL,对小白还算挺友好的。当然还有其他数据库 redis、mongodb(非关系数据库) influxdb (时序数据库)一般用作监控框架,单机版免费,了解一下?废话少说,开始正题.1、先创建sc... 阅读全文
摘要:
在这用到pymysql为例,其他的可作为参考。一、关于(1054, "Unknown column 'xxxxxxx' in 'field list'")如果你写的是下面这样的话,以后记住别这样写了:add_pr... 阅读全文
摘要:
完成之前的登录,查票(城市编号转换之后),重头戏也是最复杂的环节来了,要完成下单,需要经过下列一系列验证,且均要通过验证,由此可见12306的反爬机制做的还是相当出色的。1、检查用户是否保持登录成功 ht... 阅读全文
摘要:
我们去买车票不可能输入城市的英文代码,我们都是输入城市的中文名称,然后直接查询,下单。所以我们需要将输入的中文名称转为服务器认识的英文编码。https://kyfw.12306.cn/otn/leftTicket... 阅读全文
摘要:
记之前的学习,再过一阵子估计忘了。。。查票不需要登录,但是支付是需要登录的,所以人为操作的话,一般是选择查票->预定->下单(下单时需要登录,出现变态二维码验证)。而我们使用爬虫可以先登录,然后一直保持登录状态,... 阅读全文
摘要:
依次执行下列:1、安装wheelpip install wheel 2、安装lxml 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip inst... 阅读全文