会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Liang
博客园
首页
新随笔
联系
订阅
管理
2021年10月10日
Hive元数据信息对应Msql表
摘要: Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 转载自:Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 - 扎心了,老铁 - 博客园 (cnblogs.com) 目录 概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS
阅读全文
posted @ 2021-10-10 21:48 liangxb
阅读(182)
评论(0)
推荐(0)
编辑
2021年1月27日
虚拟机能ping通,但是telnet某个端口却不行
摘要: 问题描述:本机去ping虚拟机能ping通,然后telnet虚拟机的22端口也可以,但是telnet 22122 端口却连接不上。 问题产生原因:虚拟机中的防火墙没有关闭,其中80端口是访问的(但是为啥22端口可以访问,我还没弄明白) 你可以查看一下防火墙下可以访问的端口: firewall-cmd
阅读全文
posted @ 2021-01-27 23:24 liangxb
阅读(2565)
评论(0)
推荐(0)
编辑
2019年4月30日
大数据用户画像方法与实践(干货 转帖)
摘要: 在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~ 首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据
阅读全文
posted @ 2019-04-30 14:10 liangxb
阅读(5297)
评论(0)
推荐(0)
编辑
2019年3月2日
Scrapy实战篇(九)之爬取链家网天津租房数据
摘要: 以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用。 思路: 1、以初始链接https://tj.lianjia.com/zufang/rt200600000001/?showMore=1(因为我只关心整租的房间)开始,首先获取每个行政区对应的链接。 2、在以每个区的链接
阅读全文
posted @ 2019-03-02 19:14 liangxb
阅读(699)
评论(0)
推荐(0)
编辑
2019年3月1日
Scrapy实战篇(八)之爬取教育部高校名单抓取和分析
摘要: 本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单。 思路: 1、首先以上面的地址开始链接,抓取到下面省份对应的链接。 2、在解析具体的省份源代码,获取数据。虽然山东和河南的网页结构和其他不同,我们也不做特殊处理,直接不做抓取即
阅读全文
posted @ 2019-03-01 18:27 liangxb
阅读(1539)
评论(1)
推荐(0)
编辑
2019年2月16日
Scrapy实战篇(七)之爬取爱基金网站基金业绩数据
摘要: 本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.10jqka.com.cn/datacenter/jz/网站作为起始,首先抓取页面中基金的详细页面地址
阅读全文
posted @ 2019-02-16 23:45 liangxb
阅读(1116)
评论(0)
推荐(0)
编辑
Selenium常用方法
摘要: Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工作 本节以Chrom
阅读全文
posted @ 2019-02-16 23:29 liangxb
阅读(5300)
评论(0)
推荐(1)
编辑
Selenium之动作链(ActionChains)
摘要: 用selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况,比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChains selenium.webdriver.common.action_chains.ActionChains(d
阅读全文
posted @ 2019-02-16 23:19 liangxb
阅读(23580)
评论(0)
推荐(5)
编辑
2019年2月13日
scrapy实战之scrapyrt的使用
摘要: scrapyrt为scrapy提供了一个http接口,有了它,我们不用再执行命令,而是直接请求一个http接口来启动项目,如果项目是部署在远程的,会比较方便。 1、安装: pip install scrapyrt 2、在任意一个项目中运行scrapyrt,再此我们在quotes爬虫项目中运行。默认会
阅读全文
posted @ 2019-02-13 22:42 liangxb
阅读(2163)
评论(0)
推荐(0)
编辑
Scrapy实战篇(六)之爬取360图片数据和图片
摘要: 本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载。 目标网站:http://images.so.com/z?ch=photography 思路:分析目标网站为ajax加载方式,通过构造目标url从而请求数据,将图片数据存储在本地,将图片的属性存储在mongodb中。 1、首
阅读全文
posted @ 2019-02-13 22:04 liangxb
阅读(1745)
评论(0)
推荐(0)
编辑
下一页