摘要:
将文件中的txt文档依次读出 并分好词后 写入 另外的TXT中 #coding=utf-8 import os import jieba import codecs import random def readFile(newDir): f=open(newDir,"r",encoding="utf-8") string=f.read() print(string) seg_list = ji... 阅读全文
摘要:
一、SWOT分析法 strength weakness opportunity threat 以爱奇艺APP做竞品对优酷APP做swot竞品分析 SWOT分析 (1)优势: 买断很多视频的版权,享独播的特权; (2)缺陷:很多视频需要会员才能观看;专享蓝光灯各种特权也只有会员可以享有;UI界面设计的 阅读全文
摘要:
我负责的主要部分是文本的分类,运用最基础的朴素贝叶斯分类算法进行处理数据。 一、数据源 采用22673篇文档的数据集,其中的0.7作为训练集,其中的0.3当做测试集来计算roc,测试集一共有6802篇文章的题目和摘要。 二、数据预处理 原始数据是一个TXT中有很多篇文章,包括他的各种属性,我们只把需 阅读全文
摘要:
五、分类结果评估 (1)数据集: 采用2万多篇文档的数据集中的0.3测试集来计算roc,一共有6802篇文章的题目和摘要。 (2)精确度、召回率、F值: 混淆矩阵(Confusion Matrix): 真正例(True Positive;TP):将一个正例正确判断成一个正例 伪正例(False Po 阅读全文
摘要:
写入日志: 首先我的爬虫 name= article scrapy crawl article -s LOG_FILE=wiki.log 输出为不同格式: scrapy crawl article -o articles.csv -t csv scrapy crawl article -o arti 阅读全文
摘要:
看到一篇博客才解决 http://blog.csdn.net/u010480899/article/details/52701025 阅读全文
摘要:
首先爬取古诗网站时,显示 原因是因为输出为列表[] 如果写一个循环,输出其中每个元素就为中文了。。。 阅读全文
摘要:
一、正则表达式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一个 ( ) 辨识一个编组 {m,n} m或者n 次 [^] 匹配任意不在中括号里的字符 | 表示或者 . 表示匹配任意字符 ^ 表字符的开始 ^a 表示以a开始 \ 表示转义字符 $ 和^ 相反 从字符串的末尾开始匹 阅读全文
摘要:
一、正则表达式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一个 ( ) 辨识一个编组 {m,n} m或者n 次 [^] 匹配任意不在中括号里的字符 | 表示或者 . 表示匹配任意字符 ^ 表字符的开始 ^a 表示以a开始 \ 表示转义字符 $ 和^ 相反 从字符串的末尾开始匹 阅读全文
摘要:
定义函数: 自定义函数: def 名字(参数): 函数体 返回值 再调用就行 空函数: pass函数就为空 pass还可以用在其他语句里,比如: 缺少了pass,代码运行就会有语法错误。 参数检查: 数据类型检查可以用内置函数isinstance 返回多个值: 设置p(a,x):返回多个参数 ret 阅读全文