01 2018 档案

摘要:实践中,数据库中可能有数十亿条记录。查询结果有可能达到千万条。如果用dbGetQuery( ) 一次性取出所有查询结果,内存可能吃不消。但是,如果容许分块处理数据来完成任务,那么下述方法不失为一个好的选择。 library(DBI) library(RSQLite) con 阅读全文
posted @ 2018-01-23 14:00 嘻呵呵 阅读(1039) 评论(0) 推荐(0)
摘要:SQL函数 AVG select AVG(col) AS avgvalue from tablename select col2 from tablename where col1 (select AVG(col1) from tablename) COUNT 返回值不包含空值 select COU 阅读全文
posted @ 2018-01-22 21:53 嘻呵呵 阅读(379) 评论(0) 推荐(0)
摘要:SQL语法 LIMIT select col from table limit number select from table limit number LIKE select from table where col LIKE '%in%' select from table where col 阅读全文
posted @ 2018-01-22 16:47 嘻呵呵 阅读(3469) 评论(0) 推荐(0)
摘要:SQL语法 在表中选择列 select 列名 from 表名 选择所有列 select from 表名 返回唯一值 select distinct 列名 from 表名 where select from 表名 where city = 'beijng' select from 表名 where y 阅读全文
posted @ 2018-01-22 15:53 嘻呵呵 阅读(292) 评论(0) 推荐(0)
摘要:在R中获得快速运行代码的方法 使用向量化运算 R语言的并行计算可以用parallel和foreach包 加快R运行速度还可以使用cmpfun()函数即字节码编译器 再者就是在R中调用C或C++ 同时还可以利用Rprof()来寻找代码的瓶颈 利用分块或者R包来管理内存 阅读全文
posted @ 2018-01-19 21:35 嘻呵呵 阅读(2371) 评论(0) 推荐(0)
摘要:plyr 这个包,提供了一组规范的数据结构转换形式。 Input/Output| list | data frame | array | | | list | llply() | ldply() | laply() data frame | dlply() | ddply() | daply() a 阅读全文
posted @ 2018-01-18 21:41 嘻呵呵 阅读(3677) 评论(0) 推荐(0)
摘要:使用rvest包实现实现穿越表单以及页面的跳转 阅读全文
posted @ 2018-01-18 18:40 嘻呵呵 阅读(877) 评论(0) 推荐(0)
摘要:抓取目标:抓取花儿与少年的百度百科中成员信息 url % html_nodes("table[log set param=table_view]") % % html_table(fill = T) table 阅读全文
posted @ 2018-01-18 16:56 嘻呵呵 阅读(600) 评论(0) 推荐(0)
摘要:给定起始页面以及爬取页数,要求得到每一个问题的标题、票数、回答数、查看数 阅读全文
posted @ 2018-01-18 15:58 嘻呵呵 阅读(628) 评论(0) 推荐(0)
摘要:第一种方法 第二种方法 pkg_table % html_node('table') % % html_table(fill=TRUE) class(pkg_table) 返回数据框 由于原表格没有表头(没有标签),因此数据框使用默认的表头X1,X2代替 使用fill=T,会自动填补行列中的缺失值, 阅读全文
posted @ 2018-01-18 15:21 嘻呵呵 阅读(2729) 评论(0) 推荐(0)
摘要:css 选择器与 xpath 用法对比 |目标|匹配节点|CSS 3|XPath| | | | | | |所有节点| | |`// `| |查找一级、二级、三级标题节点| ,``| ,`h2 h3 //h1 //h2 //h3`| |所有的P节点 | p` | | |p节点的所有子节点| p //p 阅读全文
posted @ 2018-01-18 14:43 嘻呵呵 阅读(1046) 评论(0) 推荐(0)
摘要:CSS选择器和XPath方法都是用来定位DOM树的标签,只不过两者的定位表示形式上存在一些差别: CSS 方法提取节点 XPath 方法提取节点 阅读全文
posted @ 2018-01-18 14:32 嘻呵呵 阅读(2272) 评论(0) 推荐(0)
摘要:Rvest 包中常用函数一览: | 函数|作用| | | | | |读取 html 页面| | |提取所有符合条件的节点| | |返回一个变量长度相等的list,相当于对 取`[[1]]`操作| | |获取 标签中的表格,默认参数 ,设置 可以包含表头,返回数据框| | |提取标签包含的文本,令参数 阅读全文
posted @ 2018-01-18 12:00 嘻呵呵 阅读(4459) 评论(1) 推荐(0)
摘要:豆瓣排名前25电影及评价爬取 url % str_replace_all(string = ., pattern = " |[:digit:]+人评价') Rating.num_line % as.numeric(.) 获取评价分数 Score_line % as.numeric(.) 数据合并 M 阅读全文
posted @ 2018-01-18 10:46 嘻呵呵 阅读(5593) 评论(1) 推荐(1)
摘要:字符串处理中基本函数的使用 R自带函数与stringr包函数对比 阅读全文
posted @ 2018-01-18 00:17 嘻呵呵 阅读(2141) 评论(0) 推荐(1)
摘要:元字符有自己的特殊含义 内的任意字符将被匹配 对元字符进行转义 匹配字符串的开头,将^置于character class 的首位表达的意思是取反义。如[ˆ5] 表示匹配除了“5” 以外的所有字符。 test_vector 阅读全文
posted @ 2018-01-17 21:57 嘻呵呵 阅读(1887) 评论(0) 推荐(0)
摘要:包中的重要函数 |函数|功能说明|R Base中对应函数| |: :|: :|: :| |使用正则表达式的函数||| | |提取首个匹配模式的字符| | | |提取所有匹配模式的字符| | | |返回首个匹配模式的字符的位置| | | |返回所有匹配模式的字符的位置| | | |替换首个匹配模式| 阅读全文
posted @ 2018-01-17 21:41 嘻呵呵 阅读(5989) 评论(0) 推荐(0)
摘要:R中预定义的字符组 |代码|含义说明| |: :|: :| | 或`\\d [0 9]`| | 或`\\D [^0 9]`| | |小写字母; | | |大写字母; | | |字母; 及`[A Z]`| | |所有字母及数字; | | |字符串; (在ASCII编码下, 比`[:alnum:]`多了 阅读全文
posted @ 2018-01-17 21:38 嘻呵呵 阅读(726) 评论(0) 推荐(0)
摘要:seq_along( ) seq_len( ) 阅读全文
posted @ 2018-01-17 20:38 嘻呵呵 阅读(514) 评论(0) 推荐(0)
摘要:melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 对于较为复杂的数据可以这样做 阅读全文
posted @ 2018-01-17 18:15 嘻呵呵 阅读(7386) 评论(0) 推荐(0)
摘要:选取预测概率的分割点 cutoff=0.02) { model.predfu 0.2 + i 0.001] 阅读全文
posted @ 2018-01-16 18:16 嘻呵呵 阅读(712) 评论(0) 推荐(0)
摘要:使用ggplot2包绘制ROC曲线 rocplot 阅读全文
posted @ 2018-01-16 18:07 嘻呵呵 阅读(5687) 评论(0) 推荐(0)
摘要:使用wordcloud2绘制词云图 library(wordcloud2) findwords 阅读全文
posted @ 2018-01-16 17:20 嘻呵呵 阅读(3328) 评论(0) 推荐(0)
摘要:使用pROC包绘制ROC曲线 绘制ROC曲线 library("pROC") N 阅读全文
posted @ 2018-01-16 15:59 嘻呵呵 阅读(13163) 评论(1) 推荐(0)
摘要:使用ggplot2在地图上绘制热力图 绘制热力图代码 interval 阅读全文
posted @ 2018-01-16 15:52 嘻呵呵 阅读(5507) 评论(0) 推荐(0)
摘要:使用ggplot2在地图上绘制散点图 绘制散点图代码 options(baidumap.key = ' ') 设置密钥 beijing 阅读全文
posted @ 2018-01-16 15:49 嘻呵呵 阅读(5130) 评论(1) 推荐(0)
摘要:使用ggplot2绘制箱线图 绘制箱线图代码 data1$学区房 阅读全文
posted @ 2018-01-16 15:46 嘻呵呵 阅读(5083) 评论(0) 推荐(0)
摘要:使用ggplot2包绘制直方图 绘制直方图代码 data1 阅读全文
posted @ 2018-01-16 15:27 嘻呵呵 阅读(2276) 评论(0) 推荐(0)