摘要:
一、 爬虫流程 发送请求à获得页面à解析页面à下载内容à储存内容 二、 网络爬虫类型 1. 通用网络爬虫 含义 爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。 结构 包括页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合 阅读全文
摘要:
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 Hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /user/w 阅读全文
摘要:
1.配置Intellij idea -->file -->project structure -->artifacts -->+ -->jar -->from ... >main class选择主类 -->ok(spark-assembly.jar包比较大,可以删除,大数据平台已经安装了) -->o 阅读全文
摘要:
import org.apache.spark.mllib.recommendation.{ALS,MatrixFactorizationModel,Rating} ALS:最小二乘法求解矩阵分解问题的最优化方法。其实,就是补充二维矩阵中缺失的打分。 输入:显性数据-train,隐形数据-train 阅读全文
摘要:
数据类型 整型,浮点型,字符,字符串,布尔型,Unit无值,Null空值,Nothing:其他所有类型的子类型Any:所有其他类的超类AnyRef:所有引用类的基类 数据结构 字符串String,StringBuffer:可变,每次操作都是对其本身进行操作append方法把字符添加到缓冲区的末端in 阅读全文
摘要:
1、sortedval a = List(1,4,2,3)升序 val as = as.sortedas:List[Int] = List(1,2,3,4)逆序val asr = as.sorted.reverseasr:List[Int] = List(4,3,2,1) 2、sortByval b 阅读全文
摘要:
1.redis连接命令redis-cli -h IP -p 端口号 -c -a 密码 2.redis里查看模式匹配key值>KEYS Rec_Content_I-I* 阅读全文
摘要:
1. 安装包pycharm-community-2018.1.2.tar.gz 2. 解压tar –zxvf pycharm-community-2018.1.2.tar.gz 3. 进入解压生成的文件夹:cd pycharm-community-2018.1.2/ 4. cd bin 5. sh 阅读全文
摘要:
1、 用ssh协议免密码提交和拉取git远程仓库 (1)本地命令行,使用如下命令生成ssh公钥和私钥对 ssh-keygen –t rsa –C ‘邮箱’ 注:邮箱带是git账户注册用的邮箱 然后,一路回车 (2)打开~/.ssh/id_rsa.pub文件,复制里面内容(以ssh-rsa开头,邮箱结 阅读全文
摘要:
1、Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column https://www.cnblogs.com/da19951208/p/9566221.htmlselect @@s 阅读全文
摘要:
占用空间char(m):m个字节,0=<m<=255varchar(m):L+1个字节,0=<m<=65535,L是真实长度text:L+2个字节,L<216 char:固定长度,不足补空格,英文(ASCII)字符占用1个字节,一个汉字占用2个字节varchar:不以空格填满,每个英文(ASCII) 阅读全文
摘要:
1.查询select语句select <列的集合> from <表名> where <条件> group by <列名>having <条件>order by <排序字段和方式>limit startRow,number; group by:根据给定列的值进行分组统计,可指定多列,列之间以逗号分割, 阅读全文
摘要:
python操作mysql可用的第三方库有MySQLdb,pymysql等。 下面主要讲解MySQLdb: 1.用pip安装mysqlclient库,连接python和mysqlpip3 install mysqlclient 2.用python操作mysqlimport MySQLdb url = 阅读全文