01 2014 档案

摘要:#!/bin/bash## 文件目录######################## Local Contens ############################### 主目录root_dir= hadoop@bigdata03:/data/beiyou/minelab/#子目录 $root_dir/Src/liming/ /yinhang/ /shaoxianlei/# 子目录 $root_dir/source_data Commmon/search_keywords.data /dat... 阅读全文
posted @ 2014-01-26 14:37 bobo的学习笔记 阅读(309) 评论(0) 推荐(0) 编辑
摘要:根据昵称爬取id的数据预处理以及各式转换#!/bin/bashroot_dir=`pwd`out_all_file="$root_dir"/result_data/user.allout_map="$root_dir"/result_data/name_id.maprm -rf $out_all_filerm -rf $out_map#######put the user.out in the dictory $root_dir/source_data/###########processing the jar###################### 阅读全文
posted @ 2014-01-17 09:13 bobo的学习笔记 阅读(365) 评论(0) 推荐(0) 编辑
摘要:1,java分词package com.bobo.util;import ICTCLAS.I3S.AC.ICTCLAS50;public class Cutwords { public static String Segment(String microblog) { String textSeg = ""; try { ICTCLAS50 testICTCLAS50 = new ICTCLAS50(); String argu = "."; testICTCLAS50.ICTCLAS_Init... 阅读全文
posted @ 2014-01-06 10:16 bobo的学习笔记 阅读(474) 评论(0) 推荐(0) 编辑
摘要:一、解析用户原始信息的json文件#!/usr/bin/python# -*- coding=utf-8 -*-import osimport sysimport jsondef main(): root_dir = sys.argv[1] province_file = root_dir +"/conf/province.list" fin = open(province_file, 'r') provinces = set() for line in fin: province = line.strip() province... 阅读全文
posted @ 2014-01-01 20:58 bobo的学习笔记 阅读(366) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示