01 2018 档案
摘要:实践中,数据库中可能有数十亿条记录。查询结果有可能达到千万条。如果用dbGetQuery( ) 一次性取出所有查询结果,内存可能吃不消。但是,如果容许分块处理数据来完成任务,那么下述方法不失为一个好的选择。 library(DBI) library(RSQLite) con
阅读全文
摘要:SQL函数 AVG select AVG(col) AS avgvalue from tablename select col2 from tablename where col1 (select AVG(col1) from tablename) COUNT 返回值不包含空值 select COU
阅读全文
摘要:SQL语法 LIMIT select col from table limit number select from table limit number LIKE select from table where col LIKE '%in%' select from table where col
阅读全文
摘要:SQL语法 在表中选择列 select 列名 from 表名 选择所有列 select from 表名 返回唯一值 select distinct 列名 from 表名 where select from 表名 where city = 'beijng' select from 表名 where y
阅读全文
摘要:在R中获得快速运行代码的方法 使用向量化运算 R语言的并行计算可以用parallel和foreach包 加快R运行速度还可以使用cmpfun()函数即字节码编译器 再者就是在R中调用C或C++ 同时还可以利用Rprof()来寻找代码的瓶颈 利用分块或者R包来管理内存
阅读全文
摘要:plyr 这个包,提供了一组规范的数据结构转换形式。 Input/Output| list | data frame | array | | | list | llply() | ldply() | laply() data frame | dlply() | ddply() | daply() a
阅读全文
摘要:抓取目标:抓取花儿与少年的百度百科中成员信息 url % html_nodes("table[log set param=table_view]") % % html_table(fill = T) table
阅读全文
摘要:给定起始页面以及爬取页数,要求得到每一个问题的标题、票数、回答数、查看数
阅读全文
摘要:第一种方法 第二种方法 pkg_table % html_node('table') % % html_table(fill=TRUE) class(pkg_table) 返回数据框 由于原表格没有表头(没有标签),因此数据框使用默认的表头X1,X2代替 使用fill=T,会自动填补行列中的缺失值,
阅读全文
摘要:css 选择器与 xpath 用法对比 |目标|匹配节点|CSS 3|XPath| | | | | | |所有节点| | |`// `| |查找一级、二级、三级标题节点| ,``| ,`h2 h3 //h1 //h2 //h3`| |所有的P节点 | p` | | |p节点的所有子节点| p //p
阅读全文
摘要:CSS选择器和XPath方法都是用来定位DOM树的标签,只不过两者的定位表示形式上存在一些差别: CSS 方法提取节点 XPath 方法提取节点
阅读全文
摘要:Rvest 包中常用函数一览: | 函数|作用| | | | | |读取 html 页面| | |提取所有符合条件的节点| | |返回一个变量长度相等的list,相当于对 取`[[1]]`操作| | |获取 标签中的表格,默认参数 ,设置 可以包含表头,返回数据框| | |提取标签包含的文本,令参数
阅读全文
摘要:豆瓣排名前25电影及评价爬取 url % str_replace_all(string = ., pattern = " |[:digit:]+人评价') Rating.num_line % as.numeric(.) 获取评价分数 Score_line % as.numeric(.) 数据合并 M
阅读全文
摘要:字符串处理中基本函数的使用 R自带函数与stringr包函数对比
阅读全文
摘要:元字符有自己的特殊含义 内的任意字符将被匹配 对元字符进行转义 匹配字符串的开头,将^置于character class 的首位表达的意思是取反义。如[ˆ5] 表示匹配除了“5” 以外的所有字符。 test_vector
阅读全文
摘要:包中的重要函数 |函数|功能说明|R Base中对应函数| |: :|: :|: :| |使用正则表达式的函数||| | |提取首个匹配模式的字符| | | |提取所有匹配模式的字符| | | |返回首个匹配模式的字符的位置| | | |返回所有匹配模式的字符的位置| | | |替换首个匹配模式|
阅读全文
摘要:R中预定义的字符组 |代码|含义说明| |: :|: :| | 或`\\d [0 9]`| | 或`\\D [^0 9]`| | |小写字母; | | |大写字母; | | |字母; 及`[A Z]`| | |所有字母及数字; | | |字符串; (在ASCII编码下, 比`[:alnum:]`多了
阅读全文
摘要:seq_along( ) seq_len( )
阅读全文
摘要:melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 对于较为复杂的数据可以这样做
阅读全文
摘要:选取预测概率的分割点 cutoff=0.02) { model.predfu 0.2 + i 0.001]
阅读全文
摘要:使用ggplot2包绘制ROC曲线 rocplot
阅读全文
摘要:使用wordcloud2绘制词云图 library(wordcloud2) findwords
阅读全文
摘要:使用pROC包绘制ROC曲线 绘制ROC曲线 library("pROC") N
阅读全文
摘要:使用ggplot2在地图上绘制热力图 绘制热力图代码 interval
阅读全文
摘要:使用ggplot2在地图上绘制散点图 绘制散点图代码 options(baidumap.key = ' ') 设置密钥 beijing
阅读全文
摘要:使用ggplot2绘制箱线图 绘制箱线图代码 data1$学区房
阅读全文

浙公网安备 33010602011771号