05 2018 档案

利用pipeline批量插入数据到redis
摘要:在推荐系统中,推荐候选集格式一般是,itemid itemid_list。要把itemid作为key,推荐列表作为value批量插入到redis。 比如文件cf.data为: 在item前加cf,是为了标注此推荐候选集是有CF算法计算得到的。 这时候会报错,那是字符编码格式问题,我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(313) 评论(0) 推荐(0)

beautifulSoup使用
摘要: 阅读全文

posted @ 2018-05-29 22:21 NothingLZ 阅读(88) 评论(0) 推荐(0)

re正则匹配使用
摘要:如果在匹配语句中有括号,group(1)就是提取第一个括号的内容,以此类推。 扩展思考:如果要从文本中匹配出目标字符串可以使用括号加group选择的方式进行匹配。 搜索匹配到第一个结果,就会输出。 补充: 注释:\1 保持原有字符在后面追加 阅读全文

posted @ 2018-05-29 15:55 NothingLZ 阅读(153) 评论(0) 推荐(0)

pyquery的使用
摘要:常用的三种初始化方法: 1.字符串初始化: 2.url初始化 3.文件初始化 基本CSS选择器 阅读全文

posted @ 2018-05-29 10:54 NothingLZ 阅读(120) 评论(0) 推荐(0)

git push文件到远程github或者gitlab
摘要:1 Git global setup 2 3 git config --global user.name "luozeng" 4 git config --global user.email "354020912@qq.com" 5 6 Create a new repository 7 8 git clone https://gitlab.com/luozeng/blog... 阅读全文

posted @ 2018-05-28 21:44 NothingLZ 阅读(475) 评论(0) 推荐(0)

PySpark理解wordcount.py
摘要:在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱。我们再次回顾wordcount.py代码来回答如下问题 对于大多数语言的Hello Word示例,都有main()函数, wordcount.py的main函数,或者说调用Spark的main() 在哪里 数 阅读全文

posted @ 2018-05-27 20:36 NothingLZ 阅读(2181) 评论(0) 推荐(0)

python面试
摘要:什么是lambda函数?它有什么好处? lambda 函数是一个能够接纳任意多个参数(包括可选参数)并且返回单个表达式值的函数。 lambda 函数不能包括指令,它们所包括的表达式不能超过一个。不要试图向lambda 函数中塞入太多的东西;假如你需要更复杂的东西,应该定义一个一般函数,然后想让它多长 阅读全文

posted @ 2018-05-22 23:38 NothingLZ 阅读(119) 评论(0) 推荐(0)

python matplotlib 中文显示参数设置
摘要:1 #coding:utf-8 2 import matplotlib.pyplot as plt 3 plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 4 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 5 #有中文出现的情况,需要u'内容' 阅读全文

posted @ 2018-05-22 17:41 NothingLZ 阅读(140) 评论(0) 推荐(0)

spark机器学习
摘要:多层感知器(MLP) 阅读全文

posted @ 2018-05-18 09:03 NothingLZ 阅读(181) 评论(0) 推荐(0)

Python教程:urlparse模块
摘要:使用urlparse模块可以对url进行分析,最主要的操作就是拆分和合并url的各个部件,那么url有哪些部件呢?下图列出了所有的部件。你可能不太理解,不要着急,我们在例子中看看每个部分都代表着什么。 引入urlparse模块,这里只引入了urlparse方法,如果你想要用所有的方法,你需要impo 阅读全文

posted @ 2018-05-11 21:32 NothingLZ

pandas教程:DataFrame切片操作
摘要:恢复内容开始 DataFrame数据框允许我们使用iloc方法来像操作array(数组)一样对DataFrame进行切片操作,其形式上,跟对数组进行切片是一样的,我们下面来演示一下一些典型的切片操作: 先创建一个6行4列的DataFrame数据框 使用iloc方法,提取第四行数据: 我们可以看一下, 阅读全文

posted @ 2018-05-11 21:29 NothingLZ

pandas教程:填充缺失值
摘要:当数据中存在NaN缺失值时,我们可以用其他数值替代NaN,主要用到了DataFrame.fillna()方法,下面我们来看看具体的用法: 先来创建一个带有缺失值的数据框具体数据内容为: 使用0替代缺失值(当然你可以用任意一个数字代替NaN)输出结果为: 用一个字符串代替缺失值输出结果为: 用前一个数 阅读全文

posted @ 2018-05-11 21:24 NothingLZ

spark笔记
摘要:spark on yarn yarn client :适用于交互和调试 1.Driver在任务提交机器上执行 2.ApplicationMaster只负责向ResourceManager申请executor需要的资源 3.基于yarn时,spark-shell和pyspark必须要使用yarn-cl 阅读全文

posted @ 2018-05-09 18:30 NothingLZ 阅读(121) 评论(0) 推荐(0)

RPC服务和HTTP服务对比
摘要:很长时间以来都没有怎么好好搞清楚RPC(即Remote Procedure Call,远程过程调用)和HTTP调用的区别,不都是写一个服务然后在客户端调用么?这里请允许我迷之一笑~Naive!本文简单地介绍一下两种形式的C/S架构,先说一下他们最本质的区别,就是RPC主要是基于TCP/IP协议的,而 阅读全文

posted @ 2018-05-09 14:49 NothingLZ

hive查询操作
摘要: 阅读全文

posted @ 2018-05-05 15:34 NothingLZ 阅读(108) 评论(0) 推荐(0)

推荐算法概述
摘要:推荐算法概览(一) 为推荐系统选择正确的推荐算法非常重要,而可用的算法很多,想要找到最适合所处理问题的算法还是很有难度的。这些算法每种都各有优劣,也各有局限,因此在作出决策前我们应当对其做以衡量。在实践中,我们很可能需要测试多种算法,以便找出最适合用户的那种;了解这些算法的概念以及工作原理,对它们有 阅读全文

posted @ 2018-05-04 17:17 NothingLZ 阅读(2435) 评论(0) 推荐(0)

导航