随笔档案「2021年9月」 - 耿集

HDFS + python

摘要：前言需要先安装hdfs库，pip install hdfs 一些报错如果使用client.list()能显示目录下所有文件，但是不能读取文件的话需要在系统的host文件中配置主机与ip的映射注意连接时是需要填完整的网址，不能只填IP，http://ip:端口连接首先导入,有三种连接方式fr 阅读全文

posted @ 2021-09-26 21:36 耿集阅读(701) 评论(0) 推荐(0)

python的一些特性

摘要：1、当重复加载某一个方法或者类的时候，多次使用from加载并不会导致多次加载，当加载过的方法会直接跳过重复加载的步骤，所以千万不要方法重名，重名了就加载不到了 2、在python中，源文件是utf-8编码，但字符串是unicode编码，当需要转字符集的时候可以使用："".encode("utf-8" 阅读全文

posted @ 2021-09-25 15:52 耿集阅读(147) 评论(0) 推荐(0)

flask_sqlalchemy

摘要：前言这里只针对flask中的sqlalchemy来进行介绍,但也会介绍一些flask操作单独使用sqlalchemy的时候是并不需要传入app对象的 sqlalchemy的思想是把表当作一个类，把表中的数据当作一个对象来处理，也就是说当针对某一条数据来进行操作的时候是先实例这一条数据再进行更改阅读全文

posted @ 2021-09-24 22:00 耿集阅读(166) 评论(0) 推荐(0)

scrapy

摘要：爬取网站之前 1、我需要爬取哪些信息，数据是否可以通过预设的几个网站来获取，需要发现那些我不知道的网站吗 2、当爬虫爬取到某个网站时，是跳转到新网站还是留在当前网站深入抓取内容 3、有没有我不需要爬取的网站信息，比如英文网站 4、如果我的网络爬虫引起了某个网站管理员的怀疑，我如何避免承担法律责任？阅读全文

posted @ 2021-09-24 15:45 耿集阅读(80) 评论(0) 推荐(0)

matplotlib

摘要：概述一个python的绘图库导入from matplotlib import pyplot as plt 折线图只需要传入一个一维数组即可，x轴自动从0开始递增 plt.plot(x) 柱状图 && 条形图必须传入两个值，x轴在前，y轴在后 plt.bar(x, y) 条形图就是把柱状图的方阅读全文

posted @ 2021-09-24 11:13 耿集阅读(240) 评论(0) 推荐(0)

echarts

摘要：细节与技巧把设定好的option放入div容器当中，这个div容器需要设定宽高瀑布图本质上也是柱状图，原理是通过设置stack堆叠来完成的，设置堆叠之后把不用的数据隐藏再调整显示信息即可绘制堆叠图的时候需要注意，因为代码是从上往下执行，图形是从下往上绘制，所以填在series[{},{}]里越阅读全文

posted @ 2021-09-20 10:45 耿集阅读(298) 评论(0) 推荐(0)

sklearn算法模型

摘要：Sklearn分为6大模块线性算法、回归算法、聚类算法、降维算法、模型选择、预处理 sklearn所有的建模流程都符合以下的步骤 1、导入并建立自己想要的模型 2、把数据导入模型当中训练成自己想要的样子 3、把测试数据导入训练好的模型来预测或者得到答案本页只提及以下算法 1、决策树之分类树:De 阅读全文

posted @ 2021-09-17 21:57 耿集阅读(825) 评论(0) 推荐(0)

python爬虫反爬

摘要：反爬原因爬虫占总PV高，浪费了服务器的流量资源资源获取太多导致公司造成损失法律的灰色地带种类数据污染反爬，数据陷阱反爬，大文件url反爬，这些都需要累计熟练度来进行处理解决方案：没有什么技巧，都是通过观察，如果提取不到想要数据就需要多尝试，这是一个熟练度的问题数据加密反爬，猫眼电影评分阅读全文

posted @ 2021-09-16 08:46 耿集阅读(114) 评论(0) 推荐(0)

和平村

09 2021 档案

公告