上一页 1 ··· 9 10 11 12 13 14 15 下一页
摘要: 爬虫从机程序: 阅读全文
posted @ 2019-03-06 17:55 fjc0000 阅读(421) 评论(0) 推荐(0) 编辑
摘要: beautifusoap库简称bs在爬虫中比较方便。 1. find_all()函数返回的是list,即使只有一个数据,find()函数返回的是查找到的第一个数据。 2. 如果查找抓取数据div的参数属性,可以通过div[属性]或者div.attrs或者div.get(属性)等方法。其中attrs是 阅读全文
posted @ 2019-03-04 15:47 fjc0000 阅读(1719) 评论(0) 推荐(0) 编辑
摘要: 题目:统计2018年上证指数,在每周、每月周期中每天的涨跌情况 知识点分解: 1.抓取2018年全年的上证指数数据,元数据为{时间:指数},保存为csv格式 2.解析元数据中‘时间’为星期属性,月属性。例如:2018-12-04 星期二 四号 3.解析元数据中‘指数’的涨、跌情况。例如2018-12 阅读全文
posted @ 2019-03-03 22:03 fjc0000 阅读(1680) 评论(0) 推荐(0) 编辑
摘要: 1.采用beautifusoap获取网站信息: 调试结果:获取百度网站的一些关键字:新闻、地图、视频等,并提取源图片的网站。 2.采用xpath获取网站信息: 调试结果: 爬虫实例: 调试结果:由于数据太大,只展示开头的数据。 阅读全文
posted @ 2019-03-01 11:51 fjc0000 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 股市有自身的运行规律,各国股市有自身的运营规律。我们期待能查出股市与月份的联系,归根到底是人的心理与月份的联系。 表1 上证指数2008-2018年各月份涨跌统计 备注;以每月最后一天收盘指数作为数据源,二月指数-一月指数大于0,表明二月指数上涨啦。统计月份的上涨概率:二月份上涨月数为7,即在200 阅读全文
posted @ 2019-02-24 18:51 fjc0000 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: 正则表达式(regular expression)一般应用于数据的筛选、查找。是比较常用的工具。正则表达式按照其用途可以分为几大类:匹配单个字符、匹配多个字符,匹配字符位置、匹配分组等。 一、正则表达式字符 1.匹配单个字符: [^] 对中括号内的字符取反进行匹配 2. 匹配多个字符: 3.匹配位置 阅读全文
posted @ 2019-02-24 10:04 fjc0000 阅读(147) 评论(0) 推荐(0) 编辑
摘要: proxy的应用主要是由于多次爬虫时,可能造成服务器禁止访问等拒绝操作。使用代理,定时的更换ip,可以较好的避免这一现象。 代理的使用也较简单,建立一个代理类即可。本人使用的服务器网址: https://www.xicidaili.com/ 当然爬虫时,我们可以使用多个代理ip轮换爬虫来防止服务器拒 阅读全文
posted @ 2019-02-15 17:32 fjc0000 阅读(187) 评论(0) 推荐(0) 编辑
摘要: cookie是web主机服务器返回给客户端登陆信息的一种密钥。在爬虫时,对于需要登陆账号密码的网站,若不使用cookie,则不能获取需要的信息。当使用cookie时,客户端可以多次直接获取服务器网页信息,不必重复登陆自己的账号密码。cookie的使用分为两种,第一种:将cookie放在header信 阅读全文
posted @ 2019-02-14 11:29 fjc0000 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 发的 阅读全文
posted @ 2019-01-29 21:06 fjc0000 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 地方 阅读全文
posted @ 2019-01-28 13:46 fjc0000 阅读(142) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 下一页