上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 57 下一页

2013年9月6日

ubuntu修改源

摘要: 1、修改源地址:cp /etc/apt/sources.list /etc/apt/sources.list.bakvim /etc/apt/sources.list加入如下内容(中科大的):deb http://mirrors.ustc.edu.cn/ubuntu/ precise-updates main restricteddeb-src http://mirrors.ustc.edu.cn/ubuntu/ precise-updates main restricteddeb http://mirrors.ustc.edu.cn/ubuntu/ precise universedeb-s 阅读全文

posted @ 2013-09-06 19:15 雨渐渐 阅读(256) 评论(0) 推荐(0) 编辑

2013年9月4日

hadoop 异常 datanode未启动

摘要: 暴力方法:(本人是学习阶段,实际工作中不能这么做)在各个节点上执行如下操作。将/tmp 删除将 conf/mapred-site.xml mapred.system.dir /home/hadoop/mapreduce/system mapred.local.dir /home/hadoop/mapreduce/local 将conf/hdfs-site.xml dfs.name.dir /home/hadoop/dfs/filesystem/name dfs.data.dir /home/hadoop/dfs/filesystem/data 即将dfs 和 mapr... 阅读全文

posted @ 2013-09-04 10:58 雨渐渐 阅读(280) 评论(0) 推荐(0) 编辑

hadoop 异常 ls: Cannot access .: No such file or directory.

摘要: bin/hadoop dfs -lsls: Cannot access .: No such file or directory.bin/hadoop dfs -ls /用这个命令代替试试原因是格式化后没有任何文件 阅读全文

posted @ 2013-09-04 10:51 雨渐渐 阅读(2841) 评论(0) 推荐(0) 编辑

hadoop 异常 INFO ipc.Client: Retrying connect to server:

摘要: 13/09/04 10:34:50 INFO ipc.Client: Retrying connect to server: master/10.0.0.124:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)13/09/04 10:34:51 INFO ipc.Client: Retrying connect to server: master/10.0.0.124:9000. Already tried 阅读全文

posted @ 2013-09-04 10:49 雨渐渐 阅读(2863) 评论(0) 推荐(0) 编辑

2013年8月28日

ubuntu 设置root启动

摘要: http://www.linuxidc.com/Linux/2012-05/60806.htmsudo -s输入普通用户的password回车即可进入root权限vi /etc/lightdm/lightdm.conf.[SeatDefaults]greeter-session=unity-gree... 阅读全文

posted @ 2013-08-28 19:18 雨渐渐 阅读(268) 评论(0) 推荐(0) 编辑

2013年8月26日

定向爬虫小例子

摘要: demo下载 java 和 python# --*-- coding:utf-8 --*--import urllib2from lxml import etreeimport Queueimport timeimport osdef getHtml(url): request = urlli... 阅读全文

posted @ 2013-08-26 10:32 雨渐渐 阅读(781) 评论(0) 推荐(0) 编辑

2013年8月19日

Mysql 授权访问

摘要: GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;FLUSH PRIVILEGES; 这就是设置一个urser:rootpwd:123456账号,该账号可以在任何机器,同时访问服务器 阅读全文

posted @ 2013-08-19 11:32 雨渐渐 阅读(147) 评论(0) 推荐(0) 编辑

2013年8月16日

crf 分词(待)

摘要: http://blog.csdn.net/marising/article/details/5769653 阅读全文

posted @ 2013-08-16 14:10 雨渐渐 阅读(199) 评论(0) 推荐(0) 编辑

java版 正文抽取 基于文字连接比

摘要: package cn.tdt.crawl.jdbc;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import ... 阅读全文

posted @ 2013-08-16 13:46 雨渐渐 阅读(1648) 评论(0) 推荐(0) 编辑

2013年8月15日

网络爬虫速成指南(二)网页解析(基于模板)

摘要: 网页解析技术:1 xpath教程2 正则表达式教程xpath是将html加载为DOM树解析,简单,易维护。通常我用正则作为辅助抽取,用xpath定位后,再从定位的数据中用正则抽取。xpath的类库:.net 方向主要用到HtmlAgilityPackjava 方向主要用到HtmlCleaner(得翻... 阅读全文

posted @ 2013-08-15 10:58 雨渐渐 阅读(731) 评论(0) 推荐(0) 编辑

上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 57 下一页

导航