命令行中的数据科学_笔记1
《命令行中的数据科学》真心不错,早一点看到,可以少走很多弯路。
1.解压缩 tar -zxvf 等
7z x *.7z tar -xvjf *.tar.bz2 bunzip2 *.bz2 tar -xvf *.tar.gz unrar x *.rar unzip *.zip gunzip *.gz
2. 微软excel表格转换 in2csv
in2csv data/imdb-250.xlsx > data/imdb-250.csv
3. 从互联网下载数据 curl
curl -s http://www.cnblogs.com/jkmiao/p/5105513.html -o my_html_1.html
curl -s 取消进度条
curl -u username:password ftp://host/file
cur -L 自动跟踪重定向
curl -I 只获取响应信息头部
4. 管道结合使用
curl -s http://www.cnblogs.com/jkmiao/p/5105513.html | tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n 10
5. 文本清洗过滤
$ seq -f "LIne %g" 100 | tee lines // 输出前5行 $ < lines head -n 5 $ < lines lines sed -n '1,5p' $ < lines awk 'NR<=5'
linux 重定向说明:
http://baike.baidu.com/link?url=A6cpsb2JF3XqkFgHqHUmJujCHWdVGIIscHZ9ZsG6U1WQabLyvT6o0EVBlw_arwdMSOZjbSYG4QUvacyGmKYPCq
每天一小步,人生一大步!Good luck~