07 2018 档案
摘要:snownlps是用Python写的个中文情感分析的包,自带了中文正负情感的训练集,主要是评论的语料库。使用的是朴素贝叶斯原理来训练和预测数据。主要看了一下这个包的几个主要的核心代码,看的过程作了一些注释,记录一下免得以后再忘了。 1. sentiment文件夹下的__init__.py,主要是集成
阅读全文
摘要:1.sys.argv Python中sys.argv是命令行参数从程序外部传值的的一种途径,它是一个列表,列表元素是我们想传进去的的新参数,所以可以用索引sys.argv[]来获得想要的值。因为一个写好的程序一般封装好了,直接在编辑软件里运行就行了,但是程序里面的所有参数我们必须在程序里写好。但是当
阅读全文
摘要:1.当网页打开的方式不同时,在开发者选项找到的包含评论的文件地址不同,比如第一种,当我们找到的评论界面是含有下一页选项的时候(如下图)。我们在左边文件界面发现包含评论的网页地址名字为‘'productPageComments.action'开头的,点开查看header和response可以分析得网址
阅读全文
摘要:JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写,他的数据结构与Python中的字典一样,键值对来表示数据间的关系,可以包含列表。 在编写接口传递数据时,往往需要使用JSON对数据进行封装。python和json数据类型的转换,看作为编码
阅读全文
摘要:1斜杠反斜杠 斜杠:/。反斜杠:\。 反斜杠\,在windows系统中用来表示目录。 而在unix系统中,/表示目录。由于web遵循unix命名,所以在网址(URL)中,/表示目录。 在unix系统中,\表示跳脱字符将特殊字符变成一般字符(如enter,$,空格等)。 2python中去掉字符串中的
阅读全文
摘要:准备爬取太平洋网上的小米手机的评论,因为发现评论已经自动打好标签了,并且对于手机的几种性能表现也打了分,以及详细的评论都有,对于后面自己的工作有帮助,所以就准备爬取这些评论.但发现这个网站的每次点下一页都是相同的URL地址,也就是说源代码只显示第一页的评论内容,对于用requests来爬取网页内容,
阅读全文

浙公网安备 33010602011771号