上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页
摘要: 今天主要对从CSDN爬取的标题利用jieba(结巴)进行分词,但在分词过程中发现,如大数据被分成了大/数据,云计算被分隔成了云/计算。 后来又从百度百科 》信息领域爬取了相关词语作为词典,预计今天晚上完成切词任务。 其中分割代码如下: 1 import jieba 2 import io 3 4 # 阅读全文
posted @ 2020-02-09 22:00 雾霾王者 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 爬取积分榜前3000名博主前20页的博客标题, 根据左下角 博客列表页面 进行爬取 代码如下: 1 import requests 2 from bs4 import BeautifulSoup 3 import io 4 import re 5 6 url="" 7 8 #写入内容 9 def C 阅读全文
posted @ 2020-02-08 23:12 雾霾王者 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 首先新建一个Lei.txt 内容为: CloudComputingParentBlockchainTechnologyEnterpriseDotNETJavaWebDevelopVCVBDelphiBCBCppOtherLanguageMSSQLPowerBuilderOracleLinuxWind 阅读全文
posted @ 2020-02-08 20:52 雾霾王者 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 正则表达式*通用的字符串表达框架*简介表达一组字符串的表达式*判断某字符串的特征归属 例:'PY' 'PYY' 'PYYY' 'PYYYY' ...... P后面有无穷多个Y >正则表达式:PY+ 例:'PY'开头 后续存在不多于10个字符后续字符不能是'P'或'Y'如:'PYABC' √ 'PYK 阅读全文
posted @ 2020-02-07 21:41 雾霾王者 阅读(340) 评论(0) 推荐(0) 编辑
摘要: .find_all(name,attrs,recursive,string,**kwargs) name:对标签名称的检索字符串attrs:对标签属性值的检索字符串,可标注属性检索recursive:是否对子孙全部检索,默认为Truestring <>....</>中字符串区域的检索字符串 soup 阅读全文
posted @ 2020-02-07 21:34 雾霾王者 阅读(1488) 评论(0) 推荐(0) 编辑
摘要: 1.BeautifulSoup简介 BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如 阅读全文
posted @ 2020-02-05 15:37 雾霾王者 阅读(23145) 评论(0) 推荐(0) 编辑
摘要: 1.下行遍历 标签树的下行遍历.content 子节点列表,将tag所有儿子节点存入列表.children 子节点的迭代类型,与.contents类似用于循环遍历儿子节点.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 测试代码: import requests from 阅读全文
posted @ 2020-02-05 15:29 雾霾王者 阅读(3795) 评论(0) 推荐(0) 编辑
摘要: 今天主要又继续了Python网络爬虫的学习,并完成了首都之窗百姓信件单一页面的爬取,明天打算完成整个爬虫任务。 源代码如下: import requests from bs4 import BeautifulSoup kv = {'user-agent': 'Mozilla/5.0'} id="AH 阅读全文
posted @ 2020-02-05 15:25 雾霾王者 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范。 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 #注释. *代表所有 /代表根目录 robots协议 http://www.baidu.com/ro 阅读全文
posted @ 2020-02-04 22:07 雾霾王者 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 今天完成了实验四的第二问和第三问 第二题 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 2017010 阅读全文
posted @ 2020-02-03 20:12 雾霾王者 阅读(463) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页