Fivetran提供SaaS服务,它连接到业务关键数据源,提取并处理所有数据,然后将其转储到仓库中,以进行SQL访问和必要的进一步转换。 参考今年9月的融资消息,这家公司过去一两年里发展很迅速:
Fivetran要打造的是基于云的数据分析平台,其设计哲学可以概括为三点:
与其核心理念一致,Fivetran是完全构建在云基础设施上的一套服务,使用到虚拟机、函数、对象存储、VPC、日志等服务。
这张图非常清晰描述了三个阶段:
支持150多种connector,分两大类:
connector获取到数据后,Fivetran会对数据做一些准备工作,包括:简单的过滤、排序和去重。在这个过程中,数据会缓存落盘,使用临时秘钥做加密。
Fivetran将准备完成的最终数据记录到文件,存储到bucket(可配置云厂商)。bucket归Fivetran所有,存储文件是经过加密的。 值得一提的是加密使用的秘钥是临时的,且秘钥只存放在connector进程内。为什么这么做?
Fivetran将文件拷贝至目标数仓,同时该处理进程将秘钥也传递给数仓用于解密数据。当数据仓库完成对用户表的数据插入或修改后,connector进程运行完成并结束,scheduler在下一次触发时再次启动connector进程。 至此,回答上一节的问题。密钥只存在于connector进程的内存中,即使后台系统的VPC、Bucket、EC2被入侵,用户的数据也能保证不被泄露。
Fivetran会为用户生成一些系统表格、列。例如fivetran_audit表格记录每次任务的运行概览,包括:任务id、起止时间、状态、唯一的update_id、处理数据行数等。
系统为目标数仓表添加的保留列有:
这些保留字段的加入,主要用意还是透明化,帮助用户了解数据集成干了哪些事,方便问题追溯。
Fivetran记录connector的操作事件,可以存储到AWS CloudWatch、GCP Stackdriver、Azure Log Analytics。
Fivetran将数据源分为四类:
如果一定要在数据集成阶段就做一些转换操作,支持AWS、Azure、GCP三家函数服务。这与AWS Kinesis Firehose集成Lambda的方式一致。函数的实现要求做到幂等性,系统会重试请求直到成功,再把结果写到bucket。
connector的目标包括单机数据库(MySQL、SQLServer,PostgreSQL)和分布式数仓(推荐)。 connector进程将数据从源复制到base table,base table是数据在用户数仓上的第一站。Fivetran的同步是带状态的,通过和系统内部数据对比可以避免对目标表做全量scan。用户不直接在base table上做修改,因为可能导致后续的sync策略失效。因此,如果有修改base table再读需求,推荐用view来实现。
在一次数仓update中,比较新读取的源数据与已经投递给数仓的系统内部数据,可以实现schema的同步。
同样是做数据转换,与Function区别是:Function发生在数据Ingest阶段,Transformation则是E-L-T的T,发生在数据到达目标数仓的分析阶段。 Transformation完全使用SQL,通过触发器(新数据被load到数仓后)或基于时间的调度策略,自动触发表转换。
Fivetran是新派的ETL玩家,不仅自己的服务系统基于云构建,连用户侧分析也是云上的数仓。 Hadoop、AWS Athena走数据湖线路,可以快速完成初期系统的搭建,但可能因为缺乏数据schema规划、缺少计算下推的辅助,牺牲了一定的分析效率。 以AWS Redshift、Hive为代表的数仓,提供高效率的压缩存储以及存储、计算的一体化,提升了分析效率,但系统搭建依赖前期表和schema设计,以及在将来schema变化时伴随着维护成本。 Fivetran选择适配多数仓系统,由用户根据业务场景自主选择用什么做分析。使用SQL(被广泛支持的数仓语言)统一用户的Transform、Analytics使用体验。
这也是云数仓带来的另一个好处,水平扩展的计算和存储。这简化了对数据集成的使用,数据只需要安全达到数仓base table即可。而只要base table数据存在,通过交互式的查询可以动态修正业务分析的策略,并快速拿到结果。
无论是数据的导入还是schema的同步,自动化都在尝试解决ETL pipeline维护复杂的问题,这个功能具有现实意义。Fivetran CEO表示他们在幕后驱动自动化的过程非常复杂,但服务会努力向客户隐藏这种复杂性。
涉及到PII信息或是满足GDPR等合规要求,服务对数据加密访问做了细致的设计,可以看到安全性在这样的第三方厂商摆在了很高的优先级。
个人学习总结,理解不到位处请斧正。
本文作者:唐恺
更多技术干货敬请关注云栖号知乎机构号:阿里云云栖号 - 知乎
本文为阿里云内容,未经允许不得转载。
Original url: Access
Created at: 2020-01-08 16:02:38
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论