09 2021 档案

摘要:前言 需要先安装hdfs库,pip install hdfs 一些报错 如果使用client.list()能显示目录下所有文件,但是不能读取文件的话需要在系统的host文件中配置主机与ip的映射 注意连接时是需要填完整的网址,不能只填IP,http://ip:端口 连接 首先导入,有三种连接方式fr 阅读全文
posted @ 2021-09-26 21:36 耿集 阅读(701) 评论(0) 推荐(0)
摘要:1、当重复加载某一个方法或者类的时候,多次使用from加载并不会导致多次加载,当加载过的方法会直接跳过重复加载的步骤,所以千万不要方法重名,重名了就加载不到了 2、在python中,源文件是utf-8编码,但字符串是unicode编码,当需要转字符集的时候可以使用:"".encode("utf-8" 阅读全文
posted @ 2021-09-25 15:52 耿集 阅读(147) 评论(0) 推荐(0)
摘要:前言 这里只针对flask中的sqlalchemy来进行介绍,但也会介绍一些flask操作 单独使用sqlalchemy的时候是并不需要传入app对象的 sqlalchemy的思想是把表当作一个类,把表中的数据当作一个对象来处理,也就是说当针对某一条数据来进行操作的时候 是先实例这一条数据再进行更改 阅读全文
posted @ 2021-09-24 22:00 耿集 阅读(166) 评论(0) 推荐(0)
摘要:爬取网站之前 1、我需要爬取哪些信息,数据是否可以通过预设的几个网站来获取,需要发现那些我不知道的网站吗 2、当爬虫爬取到某个网站时,是跳转到新网站还是留在当前网站深入抓取内容 3、有没有我不需要爬取的网站信息,比如英文网站 4、如果我的网络爬虫引起了某个网站管理员的怀疑,我如何避免承担法律责任? 阅读全文
posted @ 2021-09-24 15:45 耿集 阅读(80) 评论(0) 推荐(0)
摘要:概述 一个python的绘图库 导入from matplotlib import pyplot as plt 折线图 只需要传入一个一维数组即可,x轴自动从0开始递增 plt.plot(x) 柱状图 && 条形图 必须传入两个值,x轴在前,y轴在后 plt.bar(x, y) 条形图就是把柱状图的方 阅读全文
posted @ 2021-09-24 11:13 耿集 阅读(240) 评论(0) 推荐(0)
摘要:细节与技巧 把设定好的option放入div容器当中,这个div容器需要设定宽高 瀑布图本质上也是柱状图,原理是通过设置stack堆叠来完成的,设置堆叠之后把不用的数据隐藏再调整显示信息即可 绘制堆叠图的时候需要注意,因为代码是从上往下执行,图形是从下往上绘制,所以填在series[{},{}]里越 阅读全文
posted @ 2021-09-20 10:45 耿集 阅读(298) 评论(0) 推荐(0)
摘要:Sklearn分为6大模块 线性算法、回归算法、聚类算法、降维算法、模型选择、预处理 sklearn所有的建模流程都符合以下的步骤 1、导入并建立自己想要的模型 2、把数据导入模型当中训练成自己想要的样子 3、把测试数据导入训练好的模型来预测或者得到答案 本页只提及以下算法 1、决策树之分类树:De 阅读全文
posted @ 2021-09-17 21:57 耿集 阅读(825) 评论(0) 推荐(0)
摘要:反爬原因 爬虫占总PV高,浪费了服务器的流量资源 资源获取太多导致公司造成损失 法律的灰色地带 种类 数据污染反爬,数据陷阱反爬,大文件url反爬,这些都需要累计熟练度来进行处理 解决方案:没有什么技巧,都是通过观察,如果提取不到想要数据就需要多尝试,这是一个熟练度的问题 数据加密反爬,猫眼电影评分 阅读全文
posted @ 2021-09-16 08:46 耿集 阅读(114) 评论(0) 推荐(0)