09 2021 档案
摘要:前言 需要先安装hdfs库,pip install hdfs 一些报错 如果使用client.list()能显示目录下所有文件,但是不能读取文件的话需要在系统的host文件中配置主机与ip的映射 注意连接时是需要填完整的网址,不能只填IP,http://ip:端口 连接 首先导入,有三种连接方式fr
阅读全文
摘要:1、当重复加载某一个方法或者类的时候,多次使用from加载并不会导致多次加载,当加载过的方法会直接跳过重复加载的步骤,所以千万不要方法重名,重名了就加载不到了 2、在python中,源文件是utf-8编码,但字符串是unicode编码,当需要转字符集的时候可以使用:"".encode("utf-8"
阅读全文
摘要:前言 这里只针对flask中的sqlalchemy来进行介绍,但也会介绍一些flask操作 单独使用sqlalchemy的时候是并不需要传入app对象的 sqlalchemy的思想是把表当作一个类,把表中的数据当作一个对象来处理,也就是说当针对某一条数据来进行操作的时候 是先实例这一条数据再进行更改
阅读全文
摘要:爬取网站之前 1、我需要爬取哪些信息,数据是否可以通过预设的几个网站来获取,需要发现那些我不知道的网站吗 2、当爬虫爬取到某个网站时,是跳转到新网站还是留在当前网站深入抓取内容 3、有没有我不需要爬取的网站信息,比如英文网站 4、如果我的网络爬虫引起了某个网站管理员的怀疑,我如何避免承担法律责任?
阅读全文
摘要:概述 一个python的绘图库 导入from matplotlib import pyplot as plt 折线图 只需要传入一个一维数组即可,x轴自动从0开始递增 plt.plot(x) 柱状图 && 条形图 必须传入两个值,x轴在前,y轴在后 plt.bar(x, y) 条形图就是把柱状图的方
阅读全文
摘要:细节与技巧 把设定好的option放入div容器当中,这个div容器需要设定宽高 瀑布图本质上也是柱状图,原理是通过设置stack堆叠来完成的,设置堆叠之后把不用的数据隐藏再调整显示信息即可 绘制堆叠图的时候需要注意,因为代码是从上往下执行,图形是从下往上绘制,所以填在series[{},{}]里越
阅读全文
摘要:Sklearn分为6大模块 线性算法、回归算法、聚类算法、降维算法、模型选择、预处理 sklearn所有的建模流程都符合以下的步骤 1、导入并建立自己想要的模型 2、把数据导入模型当中训练成自己想要的样子 3、把测试数据导入训练好的模型来预测或者得到答案 本页只提及以下算法 1、决策树之分类树:De
阅读全文
摘要:反爬原因 爬虫占总PV高,浪费了服务器的流量资源 资源获取太多导致公司造成损失 法律的灰色地带 种类 数据污染反爬,数据陷阱反爬,大文件url反爬,这些都需要累计熟练度来进行处理 解决方案:没有什么技巧,都是通过观察,如果提取不到想要数据就需要多尝试,这是一个熟练度的问题 数据加密反爬,猫眼电影评分
阅读全文

浙公网安备 33010602011771号