摘要: 1.搜索关键字 利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页 得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容 利用PyQuery分析源码,解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的 阅读全文
posted @ 2018-12-10 21:38 cicarius 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果。 2.抓取详情页内容 解析返回结果,得到详情页的链接,并进一步抓取详情页的信息。 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存到MongDB。 4.开启循环及多线程 对多页内容遍历, 阅读全文
posted @ 2018-12-10 17:40 cicarius 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 打开github,在github上创建新项目: Repository name: anydoor Descripotion: Tiny NodeJS Static Web server 选择:public 选择:Initialize this repository with a README 添加g 阅读全文
posted @ 2018-12-10 14:07 cicarius 阅读(938) 评论(0) 推荐(0) 编辑
摘要: 匹配模式前/代表项目根目录 匹配模式最后加/代表是目录 匹配模式前加!代表取反 (忽略文件夹,但不忽略文件夹下的某个文件) 代表任意个字符 ? 匹配任意一个字符 匹配多级目录 node_modules/ /index.js 对node_modules下的任意级目录下index.js忽略 阅读全文
posted @ 2018-12-10 13:59 cicarius 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 文件I/O是由简单封装的标准POSIX函数提供。通过require('fs') 使用该模块。所有的方法都有异步和同步的形式。 异步方法的最后一个参数都是一个回调函数。传给回调函数的参数取决于具体方法,但回调函数的第一个参数都会保留给异常。如果操作成功完成,则第一个参数回事null或undefined 阅读全文
posted @ 2018-12-10 12:39 cicarius 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 大多数Node.js核心API都采用惯用的异步事件驱动架构,其中某些类型的对象(触发器)会周期性地触发命名事件来调用函数对象(监听器)。 例如,net.Server对象会在每次有新连接时触发事件;fs.ReadStream会在文件被打开时触发事件;流对象会在数据可读时触发事件。 所有能触发事件的对象 阅读全文
posted @ 2018-12-10 11:41 cicarius 阅读(202) 评论(0) 推荐(0) 编辑
摘要: Buffer.byteLength 4 22 每个中文是3个字节 Buffer.isBuffer false 第一个不是Buffer true 第二个是Buffer Buffer.concat() This is a book 实例的常见用法 buf.length 6 中文字符3个字节 10 固定分 阅读全文
posted @ 2018-12-10 11:04 cicarius 阅读(163) 评论(0) 推荐(0) 编辑