会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
任伟强
博客园
首页
博问
闪存
新随笔
订阅
管理
上一页
1
2
3
4
5
6
7
···
17
下一页
2020年2月11日
学习进度11
摘要: 实验2-Scala编程初级实践-题目-厦门大学-林子雨-Spark编程基础(Scala版) 首先在虚拟机上安装scala(ubuntu),下载地址https://www.scala-lang.org/download/; 在文件最开头加上: 制作第一个scala程序: 加入代码: 1 2 3 4 5
阅读全文
posted @ 2020-02-11 22:03 雨过山
阅读(191)
评论(0)
推荐(0)
编辑
2020年2月10日
学习进度10
摘要: 实验1-Linux系统的安装和常用命令-题目-厦门大学-林子雨-Spark编程基础(Scala版) 启动Linux虚拟机,进入Linux系统,通过查阅相关Linux书籍和网络资料,或者参考 本教程官网的“实验指南”的“Linux系统常用命令”,完成如下操作: (1)切换到目录/usr/bin; (2
阅读全文
posted @ 2020-02-10 21:03 雨过山
阅读(198)
评论(0)
推荐(0)
编辑
2020年2月9日
学习进度09
摘要: 点击”下一页“检查元素: 网页阻止了链接,通过Ajax方式加载,抓包得到了一个网址 用POST方法返回了json数据: 并且发现请求时的数据是这样的: 所以不用再在网页上爬取网址,可以直接请求json数据 import urllib.request import random import re #
阅读全文
posted @ 2020-02-09 21:54 雨过山
阅读(101)
评论(0)
推荐(0)
编辑
2020年2月8日
学习进度08
摘要: 今天完成了北京市政百姓信件分析的一部分: 可以爬取网址,爬取信件内容,但是是静态的,只爬取一页 import urllib.request import random import json import re #取消证书验证 import ssl ssl._create_default_https
阅读全文
posted @ 2020-02-08 23:18 雨过山
阅读(127)
评论(0)
推荐(0)
编辑
2020年2月7日
学习进度07
摘要: https://www.bilibili.com/video/av19956343?p=143 #POST请求 import urllib.request import urllib.parse url="http://www.sunck.wang:8085/form" #将要发送的数据合成一个字典
阅读全文
posted @ 2020-02-07 23:35 雨过山
阅读(181)
评论(0)
推荐(0)
编辑
2020年2月6日
学习进度06
摘要: 正则表达式的学习: https://www.bilibili.com/video/av19956343?p=128 #re模块简介 re.match函数 原型:match(pattern,string,flags=0) 参数: 标志位flags值如下: re.I 忽略大小写,影响 ^和$ re.L
阅读全文
posted @ 2020-02-06 22:22 雨过山
阅读(117)
评论(0)
推荐(0)
编辑
2020年2月5日
学习进度05
摘要: https://www.bilibili.com/video/av19956343?p=140 #昨天爬虫的补充 #返回当前正在爬取的URL地址 print(response.geturl()) #解码 url=r"https://www.baidu.com/s?ie=utf-8&f=3&rsv_b
阅读全文
posted @ 2020-02-05 23:26 雨过山
阅读(114)
评论(0)
推荐(0)
编辑
2020年2月4日
学习进度04
摘要: https://www.bilibili.com/video/av19956343?p=136 #爬虫的设计思路: 首先确定需要爬取的网页URL地址 通过HTTP协议来获取对应的HTML页面 提取HTML页面里的有用数据:如果是需要的数据就保存起来;如果是其他URL就执行第二步。 #为什么使用pyt
阅读全文
posted @ 2020-02-04 21:21 雨过山
阅读(102)
评论(0)
推荐(0)
编辑
2020年2月3日
学习进度03
摘要: 今天本来是打算接着自己做爬虫,但是看到了这样一篇博客: https://www.cnblogs.com/1024shen/articles/10819126.html 不要闷头造轮子,多抬抬头会发现你在做/想做的东西,别人早已经弄好了,拿来用或者参考学习都是件好事。 博主的话让我突然发现自己可能方向
阅读全文
posted @ 2020-02-03 21:52 雨过山
阅读(132)
评论(0)
推荐(0)
编辑
2020年2月2日
学习进度02
摘要: python爬虫学习: https://blog.csdn.net/xtingjie/article/details/73465522 #获得网页中的超链接 import urllib.request from bs4 import BeautifulSoup#用于解析网页 url="https:/
阅读全文
posted @ 2020-02-02 22:23 雨过山
阅读(93)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
···
17
下一页