上一页 1 2 3 4 5 6 7 8 ··· 10 下一页

2018年7月5日

自定义flume的hbase sink 的序列化程序

摘要: package com.hello.hbase; import java.nio.charset.Charset; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import java.util.List; import java.util.Locale; import ... 阅读全文

posted @ 2018-07-05 11:09 NothingLZ 阅读(377) 评论(0) 推荐(0) 编辑

2018年6月26日

pyspark数据准备

摘要: 鸢尾花数据集 转换成libsvm格式代码 libsvm格式的鸢尾花数据集 pyspark读取libsvm格式数据并转换 >>> examples.take(2) [Stage 26:> (0 + 1) / 1] [LabeledPoint(0.0, (4,[0,1,2,3],[5.1,3.5,1.4 阅读全文

posted @ 2018-06-26 09:54 NothingLZ 阅读(345) 评论(0) 推荐(0) 编辑

2018年5月31日

利用pipeline批量插入数据到redis

摘要: 在推荐系统中,推荐候选集格式一般是,itemid itemid_list。要把itemid作为key,推荐列表作为value批量插入到redis。 比如文件cf.data为: 在item前加cf,是为了标注此推荐候选集是有CF算法计算得到的。 这时候会报错,那是字符编码格式问题,我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(282) 评论(0) 推荐(0) 编辑

2018年5月29日

beautifulSoup使用

摘要: 阅读全文

posted @ 2018-05-29 22:21 NothingLZ 阅读(75) 评论(0) 推荐(0) 编辑

re正则匹配使用

摘要: 如果在匹配语句中有括号,group(1)就是提取第一个括号的内容,以此类推。 扩展思考:如果要从文本中匹配出目标字符串可以使用括号加group选择的方式进行匹配。 搜索匹配到第一个结果,就会输出。 补充: 注释:\1 保持原有字符在后面追加 阅读全文

posted @ 2018-05-29 15:55 NothingLZ 阅读(144) 评论(0) 推荐(0) 编辑

pyquery的使用

摘要: 常用的三种初始化方法: 1.字符串初始化: 2.url初始化 3.文件初始化 基本CSS选择器 阅读全文

posted @ 2018-05-29 10:54 NothingLZ 阅读(112) 评论(0) 推荐(0) 编辑

2018年5月28日

git push文件到远程github或者gitlab

摘要: 1 Git global setup 2 3 git config --global user.name "luozeng" 4 git config --global user.email "354020912@qq.com" 5 6 Create a new repository 7 8 git clone https://gitlab.com/luozeng/blog... 阅读全文

posted @ 2018-05-28 21:44 NothingLZ 阅读(459) 评论(0) 推荐(0) 编辑

2018年5月27日

PySpark理解wordcount.py

摘要: 在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱。我们再次回顾wordcount.py代码来回答如下问题 对于大多数语言的Hello Word示例,都有main()函数, wordcount.py的main函数,或者说调用Spark的main() 在哪里 数 阅读全文

posted @ 2018-05-27 20:36 NothingLZ 阅读(2102) 评论(0) 推荐(0) 编辑

2018年5月22日

python面试

摘要: 什么是lambda函数?它有什么好处? lambda 函数是一个能够接纳任意多个参数(包括可选参数)并且返回单个表达式值的函数。 lambda 函数不能包括指令,它们所包括的表达式不能超过一个。不要试图向lambda 函数中塞入太多的东西;假如你需要更复杂的东西,应该定义一个一般函数,然后想让它多长 阅读全文

posted @ 2018-05-22 23:38 NothingLZ 阅读(112) 评论(0) 推荐(0) 编辑

python matplotlib 中文显示参数设置

摘要: 1 #coding:utf-8 2 import matplotlib.pyplot as plt 3 plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 4 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 5 #有中文出现的情况,需要u'内容' 阅读全文

posted @ 2018-05-22 17:41 NothingLZ 阅读(131) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 10 下一页

导航