11 2017 档案
摘要:以下只是本人在使用过程中一些经验,可能有误解不对的地方,希望大家指正。 这个控件可以在job中调用,也可以在transformation中使用。下面将分别说明在两个不同任务中调用时的使用方法和需要注意事项。 一、在job任务中使用 在job中设置变量一般都是设置全局变量,在不同转换间使用。首先需要G
阅读全文
摘要:A:西米喜欢健身 B:超超不爱健身,喜欢打游戏 step1:分词 A:西米/喜欢/健身 B:超超/不/喜欢/健身,喜欢/打/游戏 step2:列出两个句子的并集 西米/喜欢/健身/超超/不/打/游戏 step3:计算词频向量 A:[1,1,1,0,0,0,0] B:[0,1,1,1,1,1,1] s
阅读全文
摘要:TF-IDF算法: TF:词频(Term Frequency),即在分词后,某一个词在文档中出现的频率。 IDF:逆文档频率(Inverse Document Frequency)。在词频的基础上给每个词分配权重,如果有三个词的词频一样,但这并不代表这三个词在这篇文章的重要性是一样的,因此还要给这三
阅读全文
摘要:1. 常用模块 # 连接数据库 connect()函数创建一个新的数据库连接对话并返回一个新的连接实例对象 # 打开一个操作整个数据库的光标 连接对象可以创建光标用来执行SQL语句 # 执行一个创建表的SQL语句 光标可以使用execute()和executemany()函数 # 传递参数给插入语句
阅读全文