上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 29 下一页
摘要: 截至到2月26日,网络遥控器的一些统计1,统计终端用户个数cat terminal02 terminal0226.txt | cut -f 3 | grep -v 'null' | wc -l21个用户,去除null之后实际为19个2,去除行为数据中的空字段,提取出用户id,operateBehavior,operateType,operateTime,remark 字段cat operate0226.txt | grep -v 'null' | cut -f 5,6,7,8,9 > preDealed.data统计可用记录数:wc -l preDeale 阅读全文
posted @ 2014-02-26 16:05 bobo的学习笔记 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 1,取出空行:1,$g/^$/d2,去除段首的空格3,添加多行注释:2,50 s/^/#/g 在2~50 行首添加 # 号注释4,取消多行注释:2,50 s/^#//g 在2~50 行首添加 # 号注释5,去除微博中的短链接,只用sed语句cat 团圆饭.sample | sed -n -i '1,$s/http:\/\/t\.cn\/[a-zA-Z0-9]\{7\}//g' 使用java语句:Pattern pattern = Pattern.compile("http://t.cn/[a-zA-Z0-9_]{7}"); Matcher matcher = 阅读全文
posted @ 2014-02-21 10:53 bobo的学习笔记 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 原始文件格式说明:新浪微博sina_weibo.data: 關鍵詞 微博id 用户id 微博url 創建時間 内容 頭像url 視頻url 音樂url 發博來源 轉發數 評論數 贊數 所轉發微博id 所評論微博id(目前都是0) 抓取時間 微博大V新浪微博:微博id 用户id 微博url 創建時間 内容 頭像url 視頻url 音樂url 發博來源 轉發數 評論數 贊數 所轉發微博id 所評論微博id(目前都是0) 抓取時間 新浪用户信息: 用户id 昵稱 property domainname 性别 描述 用户類型 認證原因 location 省份/城市 null 圖片ur... 阅读全文
posted @ 2014-02-21 09:29 bobo的学习笔记 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 社交媒体之与电视:一些标题:电视也微博;当微博遇上电视 当在微博上集体吐槽春晚成了时尚之时,其一就是让拉动微博人气,在大型事件之时,突显微博的实力。关于微博与微信朋友圈,我一向认为,微博是广场效应,微信朋友圈是俱乐部性质的朋友社交,核心差别就在于微博可以随手转发,但朋友圈不可以。那么,当面对公众事件之时,微博的广场效应更有扩散性。 在地震等大型公众事件发生时,想获得更多信息,还得是微博。微博与微信朋友圈,不能相互替代。但随着微信朋友圈的火爆,微博也需要借助事件聚拢人气。 其二,就是把年轻人再拉回电视前。90后已经有很多自己的娱乐方式了,不愿意再与家人一起在电视前守岁,一边玩自己的Party.. 阅读全文
posted @ 2014-02-12 15:14 bobo的学习笔记 阅读(168) 评论(0) 推荐(0) 编辑
摘要: #!/bin/bash## 文件目录######################## Local Contens ############################### 主目录root_dir= hadoop@bigdata03:/data/beiyou/minelab/#子目录 $root_dir/Src/liming/ /yinhang/ /shaoxianlei/# 子目录 $root_dir/source_data Commmon/search_keywords.data /dat... 阅读全文
posted @ 2014-01-26 14:37 bobo的学习笔记 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 根据昵称爬取id的数据预处理以及各式转换#!/bin/bashroot_dir=`pwd`out_all_file="$root_dir"/result_data/user.allout_map="$root_dir"/result_data/name_id.maprm -rf $out_all_filerm -rf $out_map#######put the user.out in the dictory $root_dir/source_data/###########processing the jar###################### 阅读全文
posted @ 2014-01-17 09:13 bobo的学习笔记 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 1,java分词package com.bobo.util;import ICTCLAS.I3S.AC.ICTCLAS50;public class Cutwords { public static String Segment(String microblog) { String textSeg = ""; try { ICTCLAS50 testICTCLAS50 = new ICTCLAS50(); String argu = "."; testICTCLAS50.ICTCLAS_Init... 阅读全文
posted @ 2014-01-06 10:16 bobo的学习笔记 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 一、解析用户原始信息的json文件#!/usr/bin/python# -*- coding=utf-8 -*-import osimport sysimport jsondef main(): root_dir = sys.argv[1] province_file = root_dir +"/conf/province.list" fin = open(province_file, 'r') provinces = set() for line in fin: province = line.strip() province... 阅读全文
posted @ 2014-01-01 20:58 bobo的学习笔记 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 还存在的问题是,对于其中分词借助的库还存在问题参考此篇链接http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html具体代码部分:具体代码在老电脑linux系统中下面这个类:主要是,1列出某个目录下的所有文件名。2,读取某个特定文件package com.bobo.paper.util;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import 阅读全文
posted @ 2013-12-26 20:41 bobo的学习笔记 阅读(496) 评论(0) 推荐(0) 编辑
摘要: 1,王新宇用户关于社交网络用户特征的分类,提取可以用到这些活跃的用户为社交网络注入了大量的用户特征信息(User Profile)。表2-2列出了当前流行的社交网站所包含的用户特征信息。表2-2 当前主流SNS网站包含的用户特征信息FacebookTwitterLinkedIn人人Qqzone新浪微博Google+ 阅读全文
posted @ 2013-12-24 16:42 bobo的学习笔记 阅读(176) 评论(0) 推荐(0) 编辑
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 29 下一页