上一页 1 2 3 4 5 6 7 ··· 17 下一页
摘要: 实验2-Scala编程初级实践-题目-厦门大学-林子雨-Spark编程基础(Scala版) 首先在虚拟机上安装scala(ubuntu),下载地址https://www.scala-lang.org/download/; 在文件最开头加上: 制作第一个scala程序: 加入代码: 1 2 3 4 5 阅读全文
posted @ 2020-02-11 22:03 雨过山 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 实验1-Linux系统的安装和常用命令-题目-厦门大学-林子雨-Spark编程基础(Scala版) 启动Linux虚拟机,进入Linux系统,通过查阅相关Linux书籍和网络资料,或者参考 本教程官网的“实验指南”的“Linux系统常用命令”,完成如下操作: (1)切换到目录/usr/bin; (2 阅读全文
posted @ 2020-02-10 21:03 雨过山 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 点击”下一页“检查元素: 网页阻止了链接,通过Ajax方式加载,抓包得到了一个网址 用POST方法返回了json数据: 并且发现请求时的数据是这样的: 所以不用再在网页上爬取网址,可以直接请求json数据 import urllib.request import random import re # 阅读全文
posted @ 2020-02-09 21:54 雨过山 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 今天完成了北京市政百姓信件分析的一部分: 可以爬取网址,爬取信件内容,但是是静态的,只爬取一页 import urllib.request import random import json import re #取消证书验证 import ssl ssl._create_default_https 阅读全文
posted @ 2020-02-08 23:18 雨过山 阅读(127) 评论(0) 推荐(0) 编辑
摘要: https://www.bilibili.com/video/av19956343?p=143 #POST请求 import urllib.request import urllib.parse url="http://www.sunck.wang:8085/form" #将要发送的数据合成一个字典 阅读全文
posted @ 2020-02-07 23:35 雨过山 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 正则表达式的学习: https://www.bilibili.com/video/av19956343?p=128 #re模块简介 re.match函数 原型:match(pattern,string,flags=0) 参数: 标志位flags值如下: re.I 忽略大小写,影响 ^和$ re.L 阅读全文
posted @ 2020-02-06 22:22 雨过山 阅读(117) 评论(0) 推荐(0) 编辑
摘要: https://www.bilibili.com/video/av19956343?p=140 #昨天爬虫的补充 #返回当前正在爬取的URL地址 print(response.geturl()) #解码 url=r"https://www.baidu.com/s?ie=utf-8&f=3&rsv_b 阅读全文
posted @ 2020-02-05 23:26 雨过山 阅读(114) 评论(0) 推荐(0) 编辑
摘要: https://www.bilibili.com/video/av19956343?p=136 #爬虫的设计思路: 首先确定需要爬取的网页URL地址 通过HTTP协议来获取对应的HTML页面 提取HTML页面里的有用数据:如果是需要的数据就保存起来;如果是其他URL就执行第二步。 #为什么使用pyt 阅读全文
posted @ 2020-02-04 21:21 雨过山 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 今天本来是打算接着自己做爬虫,但是看到了这样一篇博客: https://www.cnblogs.com/1024shen/articles/10819126.html 不要闷头造轮子,多抬抬头会发现你在做/想做的东西,别人早已经弄好了,拿来用或者参考学习都是件好事。 博主的话让我突然发现自己可能方向 阅读全文
posted @ 2020-02-03 21:52 雨过山 阅读(132) 评论(0) 推荐(0) 编辑
摘要: python爬虫学习: https://blog.csdn.net/xtingjie/article/details/73465522 #获得网页中的超链接 import urllib.request from bs4 import BeautifulSoup#用于解析网页 url="https:/ 阅读全文
posted @ 2020-02-02 22:23 雨过山 阅读(93) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 17 下一页