摘要:
对于使用kettle把csv文件导入数据库出现中文乱码问题,首先排查数据库属性中的字符集是否为utf8,其次数据库自断的字符集是否utf8,如果都没问题,那么问题就是出在kettle上,首先是kettle连接数据库的db连接处要添加一个属性,添加characterEncoding属性,值为UTF-8 阅读全文
摘要:
本周主要新学习了一个可视化的应用,地图下钻功能的可视化,更加熟悉了json数组的使用,以及python使用xpath和正则爬取数据的一些问题。 阅读全文
摘要:
1.可用性 场景设想:全体高校老师布置网课,所有高校学生同时登录平台观看课程,导致超星学习通系统崩溃 刺激源:用户 刺激:很多用户同时进行登录、签到、观看课程、答题操作 环境:用户正常操作 制品:系统服务器 响应:系统响应人数过多,系统检测到事件,记录故障,通知系统 响应度量:一定时间后,排除故障、 阅读全文
摘要:
一,爬取数据: 爬取网站:https://ncov.dxy.cn/ncovh5/view/pneumonia?mibrowser_back=0&share=0&source=xiaomi03 爬取代码(含省级市级数据) import requests import re import time fr 阅读全文
摘要:
下面对漫谈架构的每一章进行一个总结 一)第一篇:讲的是到底什么是架构,在我看来:就是把一整体划分为不同角色,各自完成自己的部分,最后有机的融合在一起。 然后通过一个早期的例子来笼统地概括他的出现。在最早期,每个人都完全独立生活,衣、食、住、行等等全部都自己搞定,整个人类都是独立的个体,不相往来。为了 阅读全文
摘要:
python使用正则抓取数据 今天主要学习了python使用正则抓取网页数据。 首先这是正则的几个步骤: 1、用import re 导入正则表达式模块; 2、用re.compile()函数创建一个Regex对象; 3、用Regex对象的search()或findall()方法,传入想要查找的字符串, 阅读全文
摘要:
今天主要学习了python爬虫抓取网页文本,首先用到的是一个xpath的方法,当然他需要python库的支持,需要导入下图这三个库: from lxml import etreeimport reimport requests同时记录一下踩到的坑:一:re.sub(r'\u3000','',text 阅读全文
摘要:
河北省疫情数据爬取 今天主要完成了河北省疫情数据的爬取,从2月8号开始爬取(附python详细代码) from lxml import etree import re import requests #导入requests包 import SQL as SQL #url = 'http://www. 阅读全文
摘要:
window10中eclipse连接Linux中的spark环境 昨天成功实现在windows中的eclipse调用linux中的hadoop环境,今天解决调用spark环境问题 一: 将spark的安装包在Windows环境中解压,比如我的解压目录就是D:\hadoop\spark-2.1.0-b 阅读全文
摘要:
如何在windows中使用eclipse访问虚拟机linux中的hadoop环境 由于虚拟机配置不高,使用eclipse比较吃力,所以决定在外部eclipse调用Hadoop环境,具体做法参考博客园 https://www.cnblogs.com/lzq666/p/9955718.html 调用过程 阅读全文