数据分析 - 随笔分类(第4页) - 荣锋亮

chdb 基于clickhouse 的进程olap 引擎基于clickhouse 的进程olap 引擎

摘要：chdb 是基于clickhouse 的进程olap 引擎包含的特性基于clickhouse 的进程内的sql olap 引擎 serverless，不需要安装clickhouse 服务通过python memoryview 的最小c++ python 数据拷贝输入以及输出支持parquet 阅读全文

posted @ 2024-07-13 07:41 荣锋亮阅读(90) 评论(0) 推荐(0) 编辑

polaris-catalog 即将开源的apache iceberg catalog 服务

摘要：polaris-catalog是snowflake 即将开源的apache iceberg catalog 服务，实现上基于了iceberg 的rest api，这样就可以实现多引擎的数据处理，而不用进行数据的移动参考多引擎集成说明从机制上也是支持dremio 的，但是因为databricks 阅读全文

posted @ 2024-07-12 06:08 荣锋亮阅读(109) 评论(0) 推荐(0) 编辑

scrapyd scrapy调度服务

摘要：scrapyd 是官方出的调度服务，对于部署可以结合scrapyd-client，以下是一个简单说明配置 scrapy 提供了一个scrapy.cfg 的配置文件，可以定义scrapyd服务地址 scrapy.cfg 参考配置 [deploy] url = http://scrapyd.examp 阅读全文

posted @ 2024-07-11 07:12 荣锋亮阅读(34) 评论(0) 推荐(0) 编辑

scrapy 几个环境变量

摘要：如果查看scrapyd 内部处理以及scrapy 介绍的话，会发现有几个环境变量比较重要，scrapyd 在实际执行的时候会进行变量参数的处理以下简单说明下环境变量 SCRAPY_SETTINGS_MODULE 配置相关的,对于scrapy 框架是基于配置文件的 def init_env(pro 阅读全文

posted @ 2024-07-09 06:15 荣锋亮阅读(47) 评论(0) 推荐(0) 编辑

scrapyd 运行egg 的内部处理简单说明

摘要：以前简单说明了下scrapyd_client deploy 的处理，现在说明下scrapyd 运行egg 的内部处理内部处理激活egg 模块 scrapyd 包装了自己的方法，对于激活的会添加的执行环境中 def activate_egg(eggpath): """Activate a Scra 阅读全文

posted @ 2024-07-08 07:25 荣锋亮阅读(31) 评论(0) 推荐(0) 编辑

scrapyd_client deploy 内部实现简单说明

摘要：scrapyd_client deploy 提供了对于开发的spider 的打包，同时push 到scrapyd server 中，因为python 的特殊性，我们开发的spider 可能有依赖，scrapyd_client 会结合实际命令打包应用为是否包含依赖的egg 包 egg 包处理对于eg 阅读全文

posted @ 2024-07-07 05:48 荣锋亮阅读(18) 评论(0) 推荐(0) 编辑

scrapy + browserless 集成简单说明

摘要：以前简单说明过scrapy 集成s3 feed exports 的配置，以下是集成browserless 的处理，通过browserless 进行数据内容的处理（尤其适合包含了基于ajax的请求，以及延迟加载的项目）项目准备主要是s3以及browserless docker-compose ve 阅读全文

posted @ 2024-07-05 07:31 荣锋亮阅读(31) 评论(0) 推荐(0) 编辑

browserless + dremio 的数据爬虫方案

摘要：数据爬虫的玩法很多，框架也不少，对于实际开发我们会面临不少问题，比如存储，分析，数据使用，爬虫站点的分析处理，动态proxy 池以下是一个简单的集成参考架构基于自定义爬虫开发的自己开发爬虫任务，基于调度对于任务基于容器运行，对于部分web 数据的爬取处理可以使用browserless ，数据存阅读全文

posted @ 2024-07-04 08:00 荣锋亮阅读(39) 评论(0) 推荐(0) 编辑

scrapy minio feed expoprts 配置简单说明

摘要：scrapy 对于解析的item 可以直接配置后端存储，可以直接配置不同的格式写入数据到存储中，以下是关于minio的简单说明配置核心是feed 以及backend 配置 feed 配置 settings.py # feed 配置 FEED_EXPORT_ENCODING = "utf-8" F 阅读全文

posted @ 2024-07-03 08:00 荣锋亮阅读(17) 评论(0) 推荐(0) 编辑

browserless ws 服务处理简单说明

摘要：browserless ws 的处理实际上一个proxy 对于启动的实际无头浏览器ws 服务进行了代理，同时为了安全browserless 进行了token 的处理以下对于内部实现进行一个简单说明参考处理 ws route 注册 browserless 模块中的start 方法 wsRoutes 阅读全文

posted @ 2024-06-30 08:00 荣锋亮阅读(77) 评论(0) 推荐(0) 编辑

browserless scrape api 简单说明

摘要：以前说过browserless提供了不少api 能力，以下简单说明下scrape api 的处理参考定义如下图，browserless 对于不同浏览器进行了不同的处理（内部实现包含了公共的）内部处理 scrape.http.ts 定义中，browserless 使用了puppeteer-cor 阅读全文

posted @ 2024-06-29 08:00 荣锋亮阅读(54) 评论(0) 推荐(0) 编辑

browserless 提供的api 能力

摘要：browserless 提供了不少方便的api，可以让我们基本写很好的代码就能实现一些不错的功能（pdf生成，快照） api 分类目前api 包含了面向浏览器的以及面向管理的浏览器api /content 获取内容的 /download 下载内容的 /function 执行自定义函数的 /pdf 阅读全文

posted @ 2024-06-28 08:00 荣锋亮阅读(51) 评论(0) 推荐(0) 编辑

scrapy-playwright scrapy 集成无头浏览器的插件

摘要：scrapy-playwright scrapy 集成无头浏览器的插件，同时我们也可以集成browserless 这类的服务scrapy-playwright 插件文档以及提供的能力还是比较全的说明对于基于scrapy 进行数据处理，同时需要一些其他功能的（比如登陆，渲染的）是一个不错的选择，后阅读全文

posted @ 2024-06-27 08:00 荣锋亮阅读(174) 评论(0) 推荐(0) 编辑

playwright结合adblocker进行广告拦截

摘要：现在基本网站都会有埋点（统计分析）或者不少有广告的，对于爬虫场景可能不太方便，社区已经提供了相关的插件我们可以直接使用，以下是一个简单的使用说明环境准备基于browserless docker-compose version: "3" services: browser: image: ghc 阅读全文

posted @ 2024-06-24 08:00 荣锋亮阅读(37) 评论(0) 推荐(0) 编辑

deequ aws 开源的数据质量框架

摘要：deequ 是aws 开源的基于spark 的数据质量框架（数据单元测试），同时也提供了python 包 deequ 提供的能力 metrics 计算约束建议约束校验 metrics repo 参考架构图说明对于希望实现数据质量的团队deequ的设计还是很值得学习参考的，只是目前是基于spa 阅读全文

posted @ 2024-06-20 07:16 荣锋亮阅读(188) 评论(0) 推荐(0) 编辑

dbt 编写自定义通用测试

摘要：以前简单介绍或dbt 的数据测试（包含了通用测试以及异常测试），通用测试可复用性比较高，是比较推荐的选择而且通用测试的扩展能力也是比较强大的，可以直接引用模型，自定义配置一个参考使用 version: 2 models: - name: orders columns: - name: order 阅读全文

posted @ 2024-06-19 07:14 荣锋亮阅读(46) 评论(0) 推荐(0) 编辑

dbt dq-tools 数据质量工具

摘要：dbt dq-tools 数据质量工具，对于数据质量 dq-tools 围绕 Accuracy，Consistency，Completeness，Timeliness，Validity，Uniqueness这6个kpi 进行处理包含的功能存储测试结果到表中创建方便数据质量的数据集市提供bi 阅读全文

posted @ 2024-06-18 06:50 荣锋亮阅读(60) 评论(0) 推荐(0) 编辑

dbt data class column 简单说明

摘要：以前有简单介绍过dbt的 data class里边实际上包含了relation 以及column 一些方便的api 可以直接在macro 中调用 relation 比较常用，column 直接使用的并不是特别多，以下简单说明下内部包装与dbt context 对象一样属于一个包装参考定义 @c 阅读全文

posted @ 2024-06-17 08:00 荣锋亮阅读(16) 评论(0) 推荐(0) 编辑

unitycatalog datagrics 开源的data&ai 多模catalog

摘要：unitycatalog datagrics 开源的data&ai 多模catalog 包含的特性支持任意格式、引擎、资产的多摸接口支持包含了delta lake，iceberg，uniform，paquert，csv。。。等格式，超越表，支持非结构化数据以及ai 资产，插件化的架构，可以支持h 阅读全文

posted @ 2024-06-16 10:15 荣锋亮阅读(37) 评论(0) 推荐(0) 编辑

dbt_artifacts 包内部实现简单说明

摘要：以前对于dbt_artifacts 有过简单的介绍，以下从设计以及源码上分析下，方便学习使用使用 dbt_artifacts 提供了不少macro 同时也提供了不少模型，比如stg 类型的以及dim，fact 类型的, 对于使用 dbt_artifacts 推荐的方法是是使用了dbt 的on-ru 阅读全文

posted @ 2024-06-16 07:05 荣锋亮阅读(23) 评论(0) 推荐(0) 编辑

随笔分类 - 数据分析

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4873)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维