2020 年 10月 13 日随笔档案 - 曾庆林

2020年10月13日

摘要：今天咱们要爬取花瓣网 https://huaban.com/ 设计师寻找灵感的天堂!有海量的图片素材可以下载,是一个优质图片灵感库这次我们用 requests 登录花瓣网，爬取页面，再用正则与json提取有用信息，最后把获取的图片信息保存到本地一、用到技术 python 基础 request 阅读全文

posted @ 2020-10-13 23:25 曾庆林阅读(449) 评论(0) 推荐(3) 编辑

16-python爬虫之Requests库爬取海量图片

摘要： Requests 是一个 Python 的 HTTP 客户端库。 Request支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。在python内置模块的基础上进行了高度的封装从而使得python进行网络请求阅读全文

posted @ 2020-10-13 23:24 曾庆林阅读(1741) 评论(0) 推荐(0) 编辑

15-python爬取百度贴吧-excel存储

摘要：让我们爬取百度贴吧旅游信息，看看哪些地方是大家旅游关注的热点。不要问我这个十一去哪儿旅游了，我还在家没日没夜的码代码。这次我们用 urllib 爬取页面，再用BeautifulSoup提取有用信息，最后用 xlsxwriter 把获取的信息写入到excel表一、用到技术 python 基础阅读全文

posted @ 2020-10-13 13:22 曾庆林阅读(228) 评论(0) 推荐(0) 编辑

14-python爬虫之JSON操作

摘要：结构化的数据是最好处理，一般都是类似JSON格式的字符串，直接解析JSON数据，提取JSON的关键字段即可。 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式；适用于进行数据交互的场景，比如网站前台与后台之间的数据交互 Python 3.x中自带阅读全文

posted @ 2020-10-13 13:20 曾庆林阅读(1721) 评论(0) 推荐(0) 编辑

13-用 Python 读写 Excel 文件

摘要：在以前，商业分析对应的英文单词是Business Analysis，大家用的分析工具是Excel，后来数据量大了，Excel应付不过来了（Excel最大支持行数为1048576行），人们开始转向python和R这样的分析工具了 XlsxWriter xlrd&xlwt OpenPyXL Micros 阅读全文

posted @ 2020-10-13 13:16 曾庆林阅读(197) 评论(0) 推荐(0) 编辑

12-python正则表达式

摘要：掌握了XPath、CSS选择器，为什么还要学习正则？正则表达式，用标准正则解析，一般会把HTML当做普通文本，用指定格式匹配当相关文本，适合小片段文本，或者某一串字符(比如电话号码、邮箱账户)，或者HTML包含javascript的代码，无法用CSS选择器或者XPath 在线正则表达式测试网站ht 阅读全文

posted @ 2020-10-13 13:15 曾庆林阅读(173) 评论(0) 推荐(0) 编辑

公告