摘要:
snownlps是用Python写的个中文情感分析的包,自带了中文正负情感的训练集,主要是评论的语料库。使用的是朴素贝叶斯原理来训练和预测数据。主要看了一下这个包的几个主要的核心代码,看的过程作了一些注释,记录一下免得以后再忘了。 1. sentiment文件夹下的__init__.py,主要是集成 阅读全文
摘要:
1.sys.argv Python中sys.argv是命令行参数从程序外部传值的的一种途径,它是一个列表,列表元素是我们想传进去的的新参数,所以可以用索引sys.argv[]来获得想要的值。因为一个写好的程序一般封装好了,直接在编辑软件里运行就行了,但是程序里面的所有参数我们必须在程序里写好。但是当 阅读全文
摘要:
1.当网页打开的方式不同时,在开发者选项找到的包含评论的文件地址不同,比如第一种,当我们找到的评论界面是含有下一页选项的时候(如下图)。我们在左边文件界面发现包含评论的网页地址名字为‘'productPageComments.action'开头的,点开查看header和response可以分析得网址 阅读全文
摘要:
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写,他的数据结构与Python中的字典一样,键值对来表示数据间的关系,可以包含列表。 在编写接口传递数据时,往往需要使用JSON对数据进行封装。python和json数据类型的转换,看作为编码 阅读全文
摘要:
1斜杠反斜杠 斜杠:/。反斜杠:\。 反斜杠\,在windows系统中用来表示目录。 而在unix系统中,/表示目录。由于web遵循unix命名,所以在网址(URL)中,/表示目录。 在unix系统中,\表示跳脱字符将特殊字符变成一般字符(如enter,$,空格等)。 2python中去掉字符串中的 阅读全文
摘要:
准备爬取太平洋网上的小米手机的评论,因为发现评论已经自动打好标签了,并且对于手机的几种性能表现也打了分,以及详细的评论都有,对于后面自己的工作有帮助,所以就准备爬取这些评论.但发现这个网站的每次点下一页都是相同的URL地址,也就是说源代码只显示第一页的评论内容,对于用requests来爬取网页内容, 阅读全文
摘要:
决策树方法的简单调用记录一下 1 clf=tree.DecisionTreeClassifier() 2 dataMat=[];labelMat=[] 3 dataPath='D:/machinelearning data/machinelearninginaction/Ch05/testSet.t 阅读全文
摘要:
转载于https://www.cnblogs.com/bbn0111/p/7056366.html。学习使用 参考链接:http://blog.csdn.net/lanchunhui/article/details/51020566feedparser是一个Python的Feed解析库,可以处理RS 阅读全文
摘要:
编码方法encoding() 描述 encode() 方法以指定的编码格式编码字符串,默认编码为 'utf-8'。将字符串由string类型变成bytes类型。 对应的解码方法:bytes decode() 方法。 语法 str.encode([encoding='utf-8'][,errors=' 阅读全文
摘要:
python 列表排序方法sort、sorted技巧篇 转自https://www.cnblogs.com/whaben/p/6495702.html,学习参考。 Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列。 阅读全文