摘要:
.tar .gz .tgz或.tar.gz .bz2 tar.bz2 .Z .tar.Z zip 压缩: 将/home/Blinux/html/这个目录下所有文件和文件夹打包为当前目录下的html.zip: 上面的命令操作是将绝对地址的文件及文件夹进行压缩,以下给出压缩相对路径目录,比如目前在Bli 阅读全文
摘要:
解决: 本来使用: pip3.5 install -U Numexpr 报错: 使用: 阅读全文
摘要:
TreeBuilderForHtml5lib 'module' object has no attribute '_base' #554 https://blog.csdn.net/jifaley/article/details/62231615 https://blog.csdn.net/frie 阅读全文
摘要:
-F后面加分隔符‘p_words":’ ,print $2指的是输出分隔符右面内容 统计文件passage内容的单词数 计算单词数: 统计词频: 有两句话: 想得到: 求平均数: 文件: 命令: 项目使用: 1 2 阅读全文
摘要:
输出文件中不包含match的行: * : 表示当前目录所有文件,也可以是某个文件名 下面是一些有意思的命令行参数: 这里还有些用于搜索的特殊符号: \< 和 \> 分别标注单词的开始与结尾。 例如: 2,xargs配合grep查找 参考:https://www.cnblogs.com/jackdua 阅读全文
摘要:
https://blog.csdn.net/example440982/article/details/51712973 压缩 解压 总结 阅读全文
摘要:
参考:https://www.cnblogs.com/longjshz/p/5773679.html 不同的Linux之间copy文件常用有3种方法: 第一种就是ftp,也就是其中一台Linux安装ftp Server,这样可以另外一台使用ftp的client程序来进行文件的copy。 第二种方法就 阅读全文
摘要:
逻辑回归 逻辑回归是用于解决离散型的输出结果的问题(分类问题)。文本分类就是一个典型的分类问题。 在描述线性回归数学模型之前,先约定好一些表达形式: 代表输入数据 (features),代表输出数据(分类标签),代表一组训练数据(training example) ,m代表训练数据的个数,n代表特征 阅读全文
摘要:
KNN(K-Nearest Neighbor)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。所以比较特殊的是它不需要训练,易于 阅读全文
摘要:
今天临时需要爬取一些双语资料 (尚未清洗) 需要充分利用 下边代码是想拿到Chinadaily网页中每篇双语新闻的链接,首先研究这些网页的网址和网页结构,包括翻页一般是首页网址加上_2,_3...等等。所以以下代码只是拿到链接。 执行python bi_news.py >url.txt 把想要的网址 阅读全文