上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 22 下一页
  2020年2月8日
摘要: 今天简单的爬取了一个小说,小说的爬虫相对来说比较简单,爬虫的网址是:http://www.92kshu.cc/69509/ 主要通过正则表达式进行的简单的爬虫,获取每个章节的url地址,之后将界面中的内容获取 通过html可以看到每章节的网址后面都是和a标签里面的href属性内容一样的,只要获取了属 阅读全文
posted @ 2020-02-08 18:58 啥123 阅读(417) 评论(0) 推荐(0) 编辑
  2020年2月7日
摘要: DataFrame读写Mysql数据 import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.Row object exercise{ def main(args:Arra 阅读全文
posted @ 2020-02-07 17:40 啥123 阅读(456) 评论(0) 推荐(0) 编辑
  2020年2月6日
摘要: 今天学习了python爬虫相关的知识,有了一定的了解 网络格式:1.json格式2.bs4.BeautifulSoup() 提取数据 自动纠正html出错(有限)函数的参数 解析器:1 lxml解析器 基于C语言开发的 解析速度快,但是需要额外安装,适用于大量的数据进行解析 2 html.parse 阅读全文
posted @ 2020-02-06 20:27 啥123 阅读(114) 评论(0) 推荐(0) 编辑
  2020年2月5日
摘要: 5.sc.textFiles() 与 sc.wholeTextFiles() 的区别 sc.textFile()是将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式,文件的每一行 相当于 列表 的一个元素,因此可以在每个partition中用for i in data的形式遍历处理 阅读全文
posted @ 2020-02-05 17:07 啥123 阅读(376) 评论(0) 推荐(0) 编辑
  2020年2月4日
摘要: 1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()f 阅读全文
posted @ 2020-02-04 19:47 啥123 阅读(391) 评论(0) 推荐(0) 编辑
  2020年2月2日
摘要: 今天完成了实验二的最后两个实验,由于对Scala语言并不了解,不知道如何进行文件读取,后来通过上网查询,找到了相关代码, spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的 阅读全文
posted @ 2020-02-02 17:43 啥123 阅读(141) 评论(0) 推荐(0) 编辑
  2020年2月1日
摘要: SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa 阅读全文
posted @ 2020-02-01 20:29 啥123 阅读(119) 评论(0) 推荐(0) 编辑
  2020年1月31日
摘要: 1.基于内存2.迭代式计算3.分布式 基本工作原理:将spark的程序提交到spark集群上,在Hadoop的HDFS或者Hive上读取数据,读取的数据存放在各个spark的节点上,分布式的存放在多个节点上,主要在每个节点的内存上,这样可以加快速度。对节点的数据进行处理,处理后的数据存放在其他的节点 阅读全文
posted @ 2020-01-31 13:47 啥123 阅读(325) 评论(0) 推荐(0) 编辑
  2019年12月8日
摘要: 本学期我们学习了软件需求这门课程,了解关于需求分析的相关知识,在软件开发过程中,软件需求是第一步,同时也是最重要的一步,当我们找到了用户真正的需求,在开发过程中会达到事半功倍的效果,阅读了《用户故事与敏捷方法》这本书,在这本书中详细的介绍了用户故事与敏捷开发方法的结合,找到真正适合用户的,有价值的需 阅读全文
posted @ 2019-12-08 17:37 啥123 阅读(157) 评论(0) 推荐(0) 编辑
  2019年11月19日
摘要: int integer的区别:int时基本类型,Integer是对象类型。 1.Java 中的数据类型分为基本数据类型和复杂数据类型 int 是前者>>integer 是后者(也就是一个类) Integer 是对象类型 int是原始类型 适用场合有很大的不同 之所以要把int封装成Integer 型 阅读全文
posted @ 2019-11-19 21:52 啥123 阅读(311) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 22 下一页