foolangirl - 博客园

2020年12月28日

摘要：宏命令宏命令是在HQL中调用其他函数和操作符来定义函数的功能。比较适合做分析时为一些临时需要用到很多次的繁琐表达式封装一下，取个简短点的别名以便重复调用例子例子 -- 宏只能是临时宏，只在本次回话中可见、有效，需要将宏脚本放在SQL脚本的头部 -- 一个根据生日推算星座的宏命令 DROP TEM 阅读全文

posted @ 2020-12-28 20:10 foolangirl 阅读(256) 评论(0) 推荐(0)

2020年12月27日

Hive学习小记-（6）collect_set与笛卡尔积使用

摘要：场景有两张表，一张活动清单表actv_evt：记录了所有的活动，包括活动id，活动名称及活动相关配置信息；一张客户活动参与表cust_actv，记录了客户参与活动信息。 cust_actv中参与了活动的客户定义为活跃客户，现在公司想对活跃客户做推广，将没参与过的活动推送给他们举例：共有actv1 阅读全文

posted @ 2020-12-27 19:58 foolangirl 阅读(1515) 评论(0) 推荐(0)

2020年12月26日

Hive学习小记-（5）表字段变动频繁时用json格式

摘要：建表场景 create test_json( id int ,student string ) row format delimited fields terminated by ' '; -- 假数据： 1 {"name":"zhangsan","age":17,"sex":"F"} --这里一定阅读全文

posted @ 2020-12-26 21:58 foolangirl 阅读(279) 评论(0) 推荐(0)

Hive学习小记-（4）带复杂集合类型及指定多分隔符hive建表

摘要：带集合类型建表 Hive上创建测试表test create table test( name string, friends array<string>, children map<string, int>, address struct<street:string, city:string> ) 阅读全文

posted @ 2020-12-26 19:43 foolangirl 阅读(907) 评论(0) 推荐(0)

nowcoder-shell篇(grep、awk、sed为主)

摘要：统计文件行数 # 统计文件行数 cat nowcoder.txt | wc -l 打印文件最后5行 tail -n -5 nowcoder.txt #以下一样，展示文件最后5行： tail -n 5 nowcoder.txt tail -n5 nowcoder.txt tail -5 nowcode 阅读全文

posted @ 2020-12-26 18:42 foolangirl 阅读(181) 评论(0) 推荐(0)

2020年12月25日

剑指offer02-替换空格

摘要：题目描述请实现一个函数，将一个字符串中的每个空格替换成“%20”。例如，当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。知识点回顾字符串代码一、利用字符串拼接逐个替换 # -*- coding:utf-8 -*- class Solution: 阅读全文

posted @ 2020-12-25 20:53 foolangirl 阅读(76) 评论(0) 推荐(0)

2020年12月24日

剑指offer67-剪绳子**

摘要：题目描述给你一根长度为n的绳子，请把绳子剪成整数长的m段（m、n都是整数，n>1并且m>1，m<=n），每段绳子的长度记为k[1],...,k[m]。请问k[1]x...xk[m]可能的最大乘积是多少？例如，当绳子的长度是8时，我们把它剪成长度分别为2、3、3的三段，此时得到的最大乘积是18。输阅读全文

posted @ 2020-12-24 19:01 foolangirl 阅读(82) 评论(0) 推荐(0)

2020年12月23日

爬虫5-Scrapy爬虫架构

摘要：简介 Scrapy是爬取网站，提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段保存爬取到的数据的容器，python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap 阅读全文

posted @ 2020-12-23 21:42 foolangirl 阅读(124) 评论(0) 推荐(0)

2020年12月21日

爬虫4-网站结构分析

摘要：为什么要分析网站结构在爬虫系统中，待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面，关系到抓取页面的先后问题。树状结构网站内容以树状结构组织，以一级、二级分类等一层层组织。以豆瓣电影为例：https://www.douban.com/ 1）一级首先要从电影分阅读全文

posted @ 2020-12-21 20:46 foolangirl 阅读(449) 评论(0) 推荐(0)

2020年12月20日

爬虫3-python爬取非结构化数据下载到本地

摘要： urlretrieve方法通过上节爬虫2，可以将结构化数据存入mysql等数据库，但脚本中还存在非结构化数据： # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据阅读全文

posted @ 2020-12-20 19:58 foolangirl 阅读(413) 评论(0) 推荐(0)

x_lulu

公告