Spark高级数据分析中文版-读者交流
第二章:
备注:
1.本书第二章样例数据由于才有的是短链接,国内的用户可能无法下载。我把数据集拷贝到百度网盘上。大家可以从这个地方下载:
http://pan.baidu.com/s/1pJvjHA7
谢谢读者钱先生指出这个问题。
2.P11,要记得设置log4j.properties文件,将日志级别改为WARN,否则看到的输出可能不太一样:有许多的INFO!
勘误表:
1.第2章P16页开始部分,“创建RDD的动作(action)并不会导致集群执行分布式计算”中“创建RDD的动作(action)”有错误,应该是“创建RDD的操作”
2.第2章P30页中间的运行结果应该是:
(1007, 0.2854529057466858)
(5645434, 0.09104268062279874)
(0, 0.6838772482597568)
(5746668, 0.8064147192926266)
(0, 0.03240818525033484)
(795, 0.7754423117834044)
(795, 0.5109496938298719)
(795, 0.7762059675300523)
(12843, 0.9563812499852178)
每行后面的序号和括号是没有的!
第四章
备注:
1. P56.“该数据集可以在线下载http://i.cn/R2wmIsI,这个短链接国内可能下载不了,可以增加一个注释:中文版的读者可以在https://archive.ics.uci.edu/ml/machine-learning-databases/covtype下载
勘误:
1. P52 第一段,“即使它已经和“向均数回归””中,“向均数回归”改为“趋均数回归”,以保持前后一问一致。
2. P54.图4-1中的中文有误。英文版上本来也是错的。“牛奶超过建议食用期3天了吗”,左边分支应该为“是”,“已变质”,右边分支为“否”
3. P58.最后一段:“之前,为了评测保留的收听数据”中”评测“改为”评价“
4. P60.倒数第三段”召回率是被分类器标记为”正“的所有样本与。。。“改为”召回率是被分类器标记为”正“而且确实为”正“的样本与。。。“
5. P63第一段"假设子数据包含N个。。。"中”子数据“改为”子数据集“
第5章
1. P72. 倒数第3段,”i“应该为"k"
2. P80.中代码部分的一个注释可以翻译一下。”#first time only“,翻译为”#这行代码只需运行一次“
3.P84.第三段,”本节使用熵作为同类性度量“,将”同类性“改为”同质性“
4.P86.”为了好玩“,可以改为”为了满足大家的好奇心”
第6章
P90.倒数第二段,“曲棍球棒图”,改为“曲棍球杆曲线”
第11章
1. P195第一段。“或者只能拿到大脑截面的几张静态图像”调整为“或者只能拿到大脑的几张静态截面图像”
2. P195.第一段末尾,“范式”改为“模式”
3. P196.第一段末尾,“活动模式”改为“大脑活动模式”
4.P196.“人们偏爱Python工具”改为“人们更喜欢用Python工具”
附录A
1. P213.第二段,”对应一定数量的档口(slot)“,改为”对应一定数量的slot“,slot不要翻译!
2. P219.表A-1中,”逻辑回归和Regularized Variants“改为”逻辑回归及其正则化变体“,”Regularized Variants(Ridge/L2/LASSO/L1)“改为”正则化变体(Ridge/L2/LASSO/L1)“
其他:
1. P226.” 腹部为米色且带有带褐色斑点“,多了一个”带“,改为” 腹部为米色且带有褐色斑点“
第三章
1.P40.”它的体积可不小“,”体积“改为”体量”
2.方框中第一句,“也就是阶段所有任务所需信息”,改为“也就是该阶段所有任务所需信息”,增加一个”该“字
3.P44.倒数第二段开头前两句“本书附带源代码给出了处理AUC的实现,很复杂。源代码的注释做了一定程度的解释,这里我们就不重复了”,改为“AUC的具体实现请参考本书附带的源代码。代码实现比较复杂,请参考源代码的注释,这里我们就不重复说明了。”
第9章
1. P155.第二段后面,“即时分析”应为“即席分析”
2. P156.第一段,“时间周期”改为“时间跨度”
3.P156.倒数第二段,“全球其他国家”改为“世界其他国家”
4.P157.第一段第一句。“我们对VaR的定义都比较开放”。“开放'改为”宽泛“
5.P158. 倒数第三段。“因素汇报回报经验平均向量”改为“因素平均回报经验向量“
6.P158. 倒数第二段。最后一句”分布方式“改为”分布“,”方式“两字去掉
第8章
1. P136. 第一段,“令人欢呼的是”,改为“令人高兴的是”
2. P141.第三段最后一句,"属性地图"改为“属性map”
3.P145.倒数第二段,第一句。“它们也可能存在有待我们发现和处理的数据质量问题”,改为“它们也还可能存在数据质量问题,这些问题有待我们进一步发现和处理”
4.P149.倒数第三段,“输出行政区的记录”改为“五个行政区的输出记录”
5.P153.倒数第三段。“司机和乘客可能会就在哪里下车发生争执”。改为“司机和乘客可能会发生摩擦”
第7章
1. P117.图7-1的注解文字。“部分合伴生关系图”,中多了一个“合”字,应删除
2. P120.第三段代码中“componentCounts.take(10)foreach(println)”中,少了一个“.”。应该为“componentCounts.take(10).foreach(println)”。英文版原版本身的错误。
3. P124.第二段。“因为它们具有一种有意义的语义关系”,改为“因为它们具有某种值得我们关注的语义关系”
4. P124.中卡方计算公司中,不是x而是希腊字母Chi(Χ)
posted on 2015-12-03 19:10 littlesuccess 阅读(373) 评论(0) 编辑 收藏 举报