大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集做为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。
而埋点作为一种重要的采集手段,可以将用户行为信息转化为数据资产,为产品分析、业务决策、广告推荐等提供可靠的流量数据支持。
在业务需求少的情况下,可以运用一些简单的方法快速采集用户行为。但如果业务线、终端众多,数据需求多样,就需要设计好埋点模型和采集规范,工具化、平台化、流程化的管理来保证埋点的质量。
首次需要思考的是,如何描述和记录用户的一次行为。这里我们使用的事件模型,即:
访客标识、设备指纹、登录ID
事件发生时间、上报时间
设备环境、网络环境、业务环境等
事件标识、事件参数
我们设计了可以承载以上信息的日志模型,并保持必要的可扩展性,将数据映射到schema的各个字段中,一次行为便完整的记录下来。
数据模型设计好后,接下来要考虑的是如何将客户端内的用户行为数据采集到服务端,这里主要依赖于客户端提供的监听能力。
目前有赞支持两种采集方式:
利用浏览器或APP自带的监听方式,对用户的浏览页面、点击等行为进行收集,可以收集到的信息主要有:
无痕埋点的优势有:
但同时也会存在以下问题:
无痕埋点在有赞一般用来做粗粒度的快速业务探索。
代码埋点是指依赖前端同学,自定义监听和收集处理。代码埋点的优势有:
随之而来的是以下问题:
在业务需求复杂,无痕埋点收集到的信息无法支持分析时,就需要进行代码埋点。
为简化前端同学的埋点开发工作,使其只需要关注于业务本身,并对埋点的一些约定进行必要的约束,有赞开发了多个端(js/小程序/android/ios/java)的埋点sdk。
sdk默认支持以下功能:
前端同学通过sdk提供的接口进行开发,只需要关注:
数据收集上来后,原始日志还处于非常精简的状态,需要进一步加工成日志中间层,主要有以下几个环节:
如IP、http_agent的解析等
如落地页、二跳页、停留时长的计算
实时流中间层是以JSON格式存储在kafka中,并且提供对应的JavaBean类,方便实时任务开发解析处理,并且也可以与streamSql相结合使用。
离线中间层是存储在同一个表中,字段与实时流格式保持一致,以日期和业务作为分区条件,并会自动创建所有业务的视图表,方便中间层的统一调整以及数仓的权限管理。
到这个阶段,有了通用的日志模型和sdk,埋点工作可以标准化的开展起来。但随着承接的业务越来越多,更多的问题在等待着我们。
在精细化运营及算法推荐等应用场景下,需要非常精确掌握行为发生的位置场所。如果每个业务都自定义一套标识方式,那么每次分析工作都需要重新开发,无法复用逻辑,这将极大的浪费开发资源,因此需要制定出统一的位置规范。
我们将位置分成了四个粒度:
业务 + 页面域 + 组件域 + 展位域 + 页面随机码,可以唯一确定一个访问的位置。基于位置分解出来的维度组合,可以很方便的分析出各个粒度的访问、曝光、点击数据。
类似的还有算法追踪规范,在此不作展开。
有赞的早期阶段,所有业务的埋点方案都是记录在wiki中。随着业务线和项目的快速增加,wiki记录的弊端也逐渐暴露出来:
基于开发中碰到的各类问题,愈发的让我们意识到平台建设的必要性,主要涉及以下几点能力:
当有了埋点元数据,可以延伸出来更多的操作空间,如:
根据事件模型及位置追踪规范,我们将元数据的组成分为业务
、页面
、组件
、展位
、事件
当一个新项目启动时,会有对应的一批埋点需求,为了方便PM管理与追踪进度,以及日后的质量反馈,需要有项目级的管理功能来支持。
埋点项目可以涉及多个业务,由PM/前端/数据/BI/测试等共同参与,并跟踪从立项到评审、设计、开发、联调、上线等各个阶段。埋点项目组织了埋点需求相关的页面、组件、展位和事件。
上线前的埋点测试直接关系到数据质量,早期测试是使用抓包工具,每个事件肉眼判断,不仅效率低下,而且容易判断错误或遗漏。 因此当元数据收集完成之后,为了解决以上问题,我们设计了埋点在线测试功能。
1、测试用户输入项目和用户标识,在线测试模块会将用户标识存储到redis中
2、校验任务消费实时日志,并定时同步埋点元数据和用户标识集合,以此校验日志并收集到埋点平台中
3、将收集到的实时日志返回给用户
4、项目已测试的事件进行汇总,生成概览数据
日志检测项
检测等级分为Warning/Error级别,会有相应的错误信息。
测试结果
使用不同图标来标识检测状态,并且给出本轮测试的汇总数据。
项目测试概览
汇总项目中所有事件的测试状态,并给出失败事件的明细日志。
用户标识
为了方便测试同学快速找到自己的用户标识,平台提供了pc链接、手机扫码、手机号等快捷查找方式。
测试的覆盖面不全,或者系统日常的开发迭代,都有可能会导致线上埋点的质量问题。早期常常会出现这样的场景:
开发同学误修改一段代码,导致线上埋点事件丢失,很长一段时间后,运营同学发现某个指标波动异常,逐层查询,最终定位问题,但这期间的数据已无法恢复。
为了避免这种情况一而再,再而三的发生,就需要对线上的流量日志实时监控起来,并且第一时间反馈到相关负责人。
详细内容将在下篇埋点分享中介绍
早期埋点上线后,分析同学会根据埋点元数据,通过写sql或代码的方式,处理实时流和离线表来查询出想要的指标。其中有不少数据需求都是比较通用的场景:
查询某个事件按一定维度pv/uv的指标或接口,分析多个行为的转化漏斗,某类渠道的归因分析
这部分可以通过通用分析模型自动处理,从而提升分析效率。
详细内容将在下篇埋点分享中介绍
早期埋点的设计与对接工作都是由数据组同学来支持,随着业务规模的不断扩大,已经逐渐成为开发的瓶颈。
依托于埋点平台提供出来的能力和工具,我们规范了埋点项目的开发流程,改由PM做为流程的负责人,协调各方资源,并把控各阶段的进度。
开发流程如上图:
1、PM在PRD中明确数据需求,给出指标的定义、获取指标的方式等。
2、PM确认开发资源及排期(前端、分析同学)
3、相关同学设计并在平台上登记埋点方案,设计完成后前端、分析同学对埋点方案进行评估
4、前端同学根据埋点方案进行开发
5、开发完成后,前端和PM对埋点进行测试,确保上线前所有事件均测试通过
6、分析同学提前准确代码,埋点上线后第一时间产出相关指标
7、若相关同学接收到埋点平台报警时,需要及时处理问题并反馈影响
通过流程和赋能,数据组可以节省出人力,投入到其它需要发挥数据价值的地方。
核心业务流程中的埋点仍由数据组介入管理,需要严格保证其质量。
日志流转主要环节如上图:
1、前端监控用户行为,收集并通过http请求上报
2、NIO高并发日志接收服务将日志转发到rsyslog服务器中,再通过logstash转发到kafka原始日志中
3、JAVA端埋点通过异步请求将日志上报到nsq中,再通过flume实时同步到kafka原始日志中
4、flink实时ETl任务将原始日志加工成标准中间层格式,并继续落地到kafka
5、kafka日志通过flume同步到hdfs,按小时切割文件
6、hdfs日志文件通过spark小时级任务转化成hive表
目前埋点平台支撑了有赞微商城、零售、美业、精选、分销、有赞云、内部系统等十几条业务线,平均每月20+新项目的项目,在支持已有流量需求的同时,我们也在思考如何进一步提升开发效率和发挥数据价值:
大数据团队持续招聘中,数仓、数据基础设施、数据产品多个坑位,欢迎加入我们,内推邮箱:wangxu1@youzan.com
欢迎关注我们的公众号
Original url: Access
Created at: 2019-09-26 14:37:38
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论