雨过山 - 博客园

2020年2月11日

摘要：实验2-Scala编程初级实践-题目-厦门大学-林子雨-Spark编程基础（Scala版）首先在虚拟机上安装scala(ubuntu)，下载地址https://www.scala-lang.org/download/；在文件最开头加上：制作第一个scala程序：加入代码： 1 2 3 4 5 阅读全文

posted @ 2020-02-11 22:03 雨过山阅读(191) 评论(0) 推荐(0) 编辑

2020年2月10日

学习进度10

摘要：实验1-Linux系统的安装和常用命令-题目-厦门大学-林子雨-Spark编程基础（Scala版）启动Linux虚拟机，进入Linux系统，通过查阅相关Linux书籍和网络资料，或者参考本教程官网的“实验指南”的“Linux系统常用命令”，完成如下操作：（1）切换到目录/usr/bin；（2 阅读全文

posted @ 2020-02-10 21:03 雨过山阅读(198) 评论(0) 推荐(0) 编辑

2020年2月9日

学习进度09

摘要：点击”下一页“检查元素：网页阻止了链接，通过Ajax方式加载，抓包得到了一个网址用POST方法返回了json数据：并且发现请求时的数据是这样的：所以不用再在网页上爬取网址，可以直接请求json数据 import urllib.request import random import re # 阅读全文

posted @ 2020-02-09 21:54 雨过山阅读(101) 评论(0) 推荐(0) 编辑

2020年2月8日

学习进度08

摘要：今天完成了北京市政百姓信件分析的一部分：可以爬取网址，爬取信件内容，但是是静态的，只爬取一页 import urllib.request import random import json import re #取消证书验证 import ssl ssl._create_default_https 阅读全文

posted @ 2020-02-08 23:18 雨过山阅读(127) 评论(0) 推荐(0) 编辑

2020年2月7日

学习进度07

摘要： https://www.bilibili.com/video/av19956343?p=143 #POST请求 import urllib.request import urllib.parse url="http://www.sunck.wang:8085/form" #将要发送的数据合成一个字典阅读全文

posted @ 2020-02-07 23:35 雨过山阅读(181) 评论(0) 推荐(0) 编辑

2020年2月6日

学习进度06

摘要：正则表达式的学习： https://www.bilibili.com/video/av19956343?p=128 #re模块简介 re.match函数原型：match(pattern,string,flags=0) 参数：标志位flags值如下： re.I 忽略大小写，影响 ^和$ re.L 阅读全文

posted @ 2020-02-06 22:22 雨过山阅读(117) 评论(0) 推荐(0) 编辑

2020年2月5日

学习进度05

摘要： https://www.bilibili.com/video/av19956343?p=140 #昨天爬虫的补充 #返回当前正在爬取的URL地址 print(response.geturl()) #解码 url=r"https://www.baidu.com/s?ie=utf-8&f=3&rsv_b 阅读全文

posted @ 2020-02-05 23:26 雨过山阅读(114) 评论(0) 推荐(0) 编辑

2020年2月4日

学习进度04

摘要： https://www.bilibili.com/video/av19956343?p=136 #爬虫的设计思路：首先确定需要爬取的网页URL地址通过HTTP协议来获取对应的HTML页面提取HTML页面里的有用数据：如果是需要的数据就保存起来；如果是其他URL就执行第二步。 #为什么使用pyt 阅读全文

posted @ 2020-02-04 21:21 雨过山阅读(102) 评论(0) 推荐(0) 编辑

2020年2月3日

学习进度03

摘要：今天本来是打算接着自己做爬虫，但是看到了这样一篇博客： https://www.cnblogs.com/1024shen/articles/10819126.html 不要闷头造轮子，多抬抬头会发现你在做/想做的东西，别人早已经弄好了，拿来用或者参考学习都是件好事。博主的话让我突然发现自己可能方向阅读全文

posted @ 2020-02-03 21:52 雨过山阅读(132) 评论(0) 推荐(0) 编辑

2020年2月2日

学习进度02

摘要： python爬虫学习： https://blog.csdn.net/xtingjie/article/details/73465522 #获得网页中的超链接 import urllib.request from bs4 import BeautifulSoup#用于解析网页 url="https:/ 阅读全文

posted @ 2020-02-02 22:23 雨过山阅读(93) 评论(0) 推荐(0) 编辑