摘要: json模块 什么是json? javascript中的对象和数组 对象: 取值:对象名.key 数组: 取值:数组[索引值] 作用 json格式的字符串和Python数据类型之间的转换 常用方法 1. json.loads():json格式 Python数据类型 json python 对象 字典 阅读全文
posted @ 2019-05-12 17:35 黑洞频率 阅读(333) 评论(0) 推荐(0) 编辑
摘要: xpath工具(解析) xpath 在XML文档中查找信息的语言,同样适用于HTML文档的检索 xpath辅助工具 Chrome插件 :XPath Helper 打开 :Ctrl + Shift + X 关闭 :Ctrl + Shift + X Firefox插件 :XPath checker XP 阅读全文
posted @ 2019-05-12 17:33 黑洞频率 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 解析 数据的分类 结构化数据 有固定的格式,如 :HTML、XML、JSON 非结构化数据 图片、音频、视频,这类数据一般都存储为二进制 正则表达式 re 使用流程 1. 创建编译对象:p = re.compile("正则表达式") 2. 对字符串匹配:r = p.match("字符串") 3. 获 阅读全文
posted @ 2019-05-12 17:32 黑洞频率 阅读(277) 评论(0) 推荐(0) 编辑
摘要: requests模块 1. 安装(用管理员身份去打开Anaconda Prompt) 以管理员身份去执行pip安装命令 2. 常用方法 1. get(url,headers=headers):发起请求,获取响应对象 2. response属性 :返回字符串类型 :返回bytes类型,应用场景:爬取非 阅读全文
posted @ 2019-05-12 17:29 黑洞频率 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫 定义:网络蜘蛛、网络机器人,抓取网络数据的程序 总结:用Python程序去模仿人去访问网站,模仿的越逼真越好 目的:通过有效的大量数据分析市场走势、公司决策 企业获取数据的方式 1. 公司自有数据 2. 第三方数据平台购买 数据堂、贵阳大数据交易所 3. 爬虫爬取数据 市场上没有或者价格太 阅读全文
posted @ 2019-05-12 17:23 黑洞频率 阅读(339) 评论(0) 推荐(0) 编辑