浅析 Spark Shuffle 内存使用

在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffl...
阅读全文

组织级敏捷转型的四个阶段

物理结构对系统是至关重要的,但它们很少是杠杆点,因为改变物理结构通常不太容易而且见效慢。恰当的杠杆点,需要从一开始就被设计好。一旦实体的结构建立起来了,要想找到杠杆点,就需要理解系统的限制和瓶颈,在尽可能发挥它们的最大效率的同时,避免出现较大的波动或扩张,超出其承受能力。——德内拉·梅多斯《系统之美》笔者认为,敏捷转型是一个系统性的改进工程,具有时间和空间两个维度的复杂性,故要用动态的眼光来...
阅读全文

Flume在有赞大数据的实践

一、前言==== Flume 是一个分布式的高可靠,可扩展的数据采集服务。Flume 在有赞的大数据业务中一直扮演着一个稳定可靠的日志数据“搬运工”的角色。本文主要讲一下有赞大数据部门在 Flume 的应用实践,同时也穿插着我们对 Flume 的一些理解。二、Delivery 保证=============认识 Flume 对事件投递的可靠性保证是非常重要的,它往往是我们是否使...
阅读全文

Spark Streaming在数据平台日志解析功能的应用

一、日志解析功能的背景:============通过日志,我们可以获得很多有用的信息,最常见的日志信息包括应用产生的访问日志、系统的监控日志,本文所针对的日志是大数据离线任务产生的运行日志。目前日志解析功能依附于有赞大数据平台,也就是有赞的data_platform,为该平台的一个功能。目前支持解析的日志类型包括:Hive任务、Spark任务、Datay增量任务、导入任务、导出、MR任务...
阅读全文

有赞美业店铺装修前端解决方案

一、背景介绍做过电商项目的同学都知道,店铺装修是电商系统必备的一个功能,在某些场景下,可能是广告页制作、活动页制作、微页面制作,但基本功能都是类似的。所谓店铺装修,就是用户可以在 PC 端进行移动页面的制作,只需要通过简单的拖拽就可以实现页面的编辑,属于用户高度自定义的功能。最终编辑的结果,可以在 H5、小程序进行展示推广。是一套美业行业的 SaaS 系统,为美业行业提供信息化和互联网化...
阅读全文

数据库连接池配置(案例及排查指南)

引言想必本文的读者对数据库都不会陌生,由于数据库良好的特性和服务的稳定性,使得我们的工作几乎离不开,而数据库连接池因为连接复用的优势也被广泛的使用,但凡事不可能只有好处而没有代价,使用连接池一个最直接的代价就是需要配置一堆的参数。其实很多时候这个复杂度也不存在,只要找个工程把配置拷贝一份,改一下用户名密码也就能工作了,因为之前的配置都正常工作了一段时间基本也没问题了,这个逻辑本身没毛病,但有...
阅读全文

Vant 2.0 发布:持之以恒,不乱节奏

持之以恒,不乱节奏,对于长期作业实在至为重要。一旦节奏得以设定,其余的问题便可迎刃而解。 \\ 村上春树维护组件库就像跑马拉松,开源只是从起点迈出第一步,困难的是持之以恒地跑下去。自 2017 年开源以来,Vant 已经跑了两年多时间,未曾停歇。在 2018 年我们发布了 ,并持续迭代了 100 多个小版本。对于版本迭代,我们更倾向于小步快跑,保持每周更新一个版本的节奏,及时解决大家...
阅读全文

有赞客户运营系统的演进

一、引子====有赞,是一个商家服务公司。我们帮助每一位重视产品和服务的商家私有化顾客资产、拓展互联网客群、提高经营效率,全面助力商家成功。而拉新、留存、促活、转化则是商家经营的关键指标。随着线上线下流量越来越贵,商家对客户精准运营诉求越来越强烈。有赞客户运营相关的业务产品也在近一年不断推陈出新。二、早期“烟囱式”系统建设模式===============早期客户运营产品的建设模式...
阅读全文

使用Puppeteer搭建统一海报渲染服务

背景介绍有赞微商城包括了 PC 端、H5 端和小程序端,每个端都有绘制分享海报的需求。最早的时候我们是在每个端通过`canvas API`来绘制的,通过`canvas`绘制有很多痛点,与本文要讲的`海报渲染服务`做了一个对比:对比项CanvasNode 海报渲染服务上手门槛需要掌握 canvas API了解 HTML、CSS 语法即可代码体积占用小程序包体积...
阅读全文

有赞埋点实践

一、前言====大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集做为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。而埋点作为一种重要的采集手段,可以将用户行为信息转化为数据资产,为产品分析、业务决策、广告推荐等提供可靠的流量数据支持。在业务需求少的情况下,可以运用一些简单的方法快速采集用户行为。但如果业务线、终端众多,数据需求多样,就...
阅读全文