摘要: 一、读取文件 csv:是一种应用分割符分隔的文件,因为其分割符不一定是逗号 又称为字符分隔文件: 文件以纯文本形式存储表格数据。 使用pd.read_excel('文件路径.excel')读取excel文件 二、DataFrame的常用属性 时间序列: 阅读全文
posted @ 2019-02-19 21:26 北里渡 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜索引擎模式:在精确模式的基础上,对长词 阅读全文
posted @ 2019-02-15 17:36 北里渡 阅读(1281) 评论(0) 推荐(0) 编辑
摘要: 库里有个叫 WebDriver 的 API。 WebDriver 有点儿像可以加载网站的浏览器, 但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素, 与页面上的元素进行交互 (发送文本、 点击等), 以及执行其他动作来运行网络爬虫。# 导入 webdr 阅读全文
posted @ 2018-10-16 22:34 北里渡 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 爬取前需要安装 Selenium&PhantomJS Selenium 是一个 Web 的自动化测试工具, 最初是为网站自动化测试而开发的, 类型像我们玩游戏用的按键精灵, 可以按指定的命令自动操作, 不同是 Selenium 可以直接运行在浏览器上, 它支持所有主流的浏览器(包括 PhantomJ 阅读全文
posted @ 2018-10-16 22:34 北里渡 阅读(704) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-10-04 16:05 北里渡 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 9-27 首页,列表页相同部分处理 因为首页和商品各列表页具有相同的部分,每写一个列表页就要写一次代码吗,是不是有简单的办法呢? 1.我们来看下实现这种功能需要用到的代码 1 def getMenu(request):#括号中的request不能删掉 2 #把需要用到的表引用进来 3 from sh 阅读全文
posted @ 2018-09-27 21:15 北里渡 阅读(119) 评论(0) 推荐(0) 编辑