一、数据采集干系产品
数字化包含两层含义,其一是线上化,也便是把过去线下的、手工的低效业务过程线上化流程化,以提升人效,同时建立数据采集的根本。其二是数据化,把线上化的业务流程数据采集下来,为后期的业务化、智能化供应根本数据源。以是,在数据采集环境,紧张涉及的数据产品包括:
1.数据采集范围与标准定义(必须)

互联网行业毕竟熟习埋点一词,埋点也是很多公司的“痛”。埋点不规范,数据两行泪。先污染后管理势必带来后期数据运用洗濯的资源摧残浪费蹂躏。以是,为了减少踩坑,须要事先确立不同数据源、数据类型的数据采集规范,针对App、小程序等产品须要建立统一埋点规范和采集方案,其他的智能硬件、传感器设备或者三方数据源,需求定义不同来源的数据传输格式。
2.埋点管理系统(可选)
将埋点规范集成到数据管理后台中,让全体埋点流程线上化流转,提升埋点事情的规范化程度,减少漏埋和错埋。纵然像一些用户行为剖析系统力推的无埋点或可视化埋点,也都有埋点数据管理模块供应界面化的指标定义能力。早期的埋点规则紧张靠excel世代相传
3.数据同步或集成系统(必须)
这一模块既可以单独存在,也可以和大数据开拓平台耦合,其紧张浸染是供应源到真个数据同步功能,即选择数据来源以及希望数据同步到的目标为主,针对不同的源、目标设置参数、任务调度频率和策略即可。现在比较时髦的一个词叫数据一键入湖。一键自动化实现非构造化(音***等)、构造化数据到中心数据湖,以供后期处理消费。回到前面讲过的大厨做菜的例子,数据集成工具就比如自动化的收割工具,过去由于手工劳作,食材数量、种类有限,当机器化生产后,丰盈度大大提升。
二、数据加工与处理工具
1.离线开拓平台(必须)
汇聚入湖的数据须要加工处理才能发挥其代价,尤其对付湖仓一体的架构中,涉及到构造化数据的数据仓库模块的开拓。按照业务需求的逻辑对数据进行ETL处理,输出一个个的数据模型。对付离线开拓平台紧张功能应包括:
存储&打算层:资源的自动化分配(紧张是集群资源的调度),数据开拓紧张关注业务逻辑,而不须要大家都搭一套hadoop
任务开拓层:IDE可视化任务开拓,除了核心的数据处理逻辑须要代码实现外,其他的参数设置都可以配置化,且平台须要支撑Hive、Shell、python等常用数据开拓和挖掘任务类型。
任务调度:数据有严格的高下游关系,只有上游数据任务运行成功数据加工完成后,下贱数据才准确,以是一样平常任务不会单独存在,须要建立依赖关系,此外,周期性的数据也不能每天手动点一下,还须要韶光调度,根据需求设定是每分钟、小时还是天月实行,在什么韶光实行等。
任务运维:修正逻辑、上游出错、集群资源不稳定等常常须要涉及数据回溯、任务重跑等操作,供应批量、自动化的操作可以节省大量运维韶光。
2.实时开拓平台(必须)
实时数据紧张知足实时数据监控,产品端实时搜索、推举或实时场景化营销,实时开拓和离线开拓紧张在技能组件上的差别,产品功能模块大同小异,也可以把整合形成批流一体化的一站式大数据开拓运维平台。
3.数据仓库培植工具(可选)
紧张是将数据模型开拓规范和流程融入到系统当中,是一种低代码的思想减少数仓建模的开拓代码开拓,提升模型的规范化和复用性,比如阿里的Datapin,系统化的好处在于方便前置化管理建模过程,而不是先污染后管理,弊端是可能没有开拓自己写代码那么灵巧,以是可以作为可选模块。
三、数据资产管理和管理产品
1.数据舆图(必须)
酒喷鼻香也怕巷子深,数据模型开拓完了,找得到、敢利用才能提升复用性,数据舆图通过资产目录共享和强大的数据检索能力,供应逛数据、找数据的能力,同时须要具备丰富的模型元数据信息,让数据消费者快速判断是不是自己所须要的数据,如何利用。
2.数据质量监控(必须)
数据不准可以说是业务和数据团队最头疼的问题之一,业务拿到数据不敢用,先来问下开拓准不准,开拓不自傲,看了任务看了代码说该当没问题。数据质量监控环绕同等性、及时性、完全性、准确性维度构建丰富灵巧的数据质量规则配置和自动化预警能力,让数据开拓职员更自傲,只要监控没报警,就可以拍着胸脯说,是不是业务上有什么变革。
3.数据血缘(必须)
紧张办理数据的追根溯源的问题,例如数据非常,须要关照下贱业务,数据管理时须要下线或者删除,下贱有没有人在利用,没有血缘就不敢管理,数据&做事只增不减。
4.数据本钱优化(必须)
虽然说大家默认数据部门是本钱中央,但是在这个寒冬之下,也要勒紧裤腰带,虽不能开源但总要节流,哪些数据长期无人利用可以归档或删除,哪些任务SQL性能奇差一个任务实行10多个小时,花费大量CPU、GPU?数据本钱优化核心目标是建立数据康健分评价体系,自动化检测管理目标,并供应归档、删除等自动化管理动作,从而开释做事器资源,常态化做减法。
5.统一数据权限(必须)
数据安全问题事关企业死活存亡和数据团队的“钱途”,统一权限紧张是建立数据资产权限申请、授权、审计对应的流程,从而担保数据既共享又安全。
四、数据决策与智能运用
1.数据可视化剖析(必须)
这里紧张指主题式数据剖析报表,可以是定制化开拓,也可以是基于自助BI工具配置。其紧张目标是供应业务经营管理的核心指标体系的可视化剖析能力。不能让老板每天自己利用自助BI拖沓拽吧。例如一些管理驾驶舱Dashboard或者可视化大屏。
2.当代自助式BI剖析(必须)
Tableau在被saleforce 以157亿美金收购后,在21年底宣辞职出中国市场,作为BI工具的鼻祖,功能非常完善和强大,为什么水土不服呢?紧张缘故原由是它的目标用户是数据剖析师,功能的繁芜度导致学习理解本钱高,数字化转型时期哀求的是数据民主和普惠,大家都是数据剖析师,以是比较较tableau,现在海内的一些云厂商(QuickBI、火山引擎等)和BI产品(不雅观远数据)更能知足让一线业务职员用数据的需求。有了当代BI,数据职员聚焦模型开拓和数据基建,业务职员拖拽剖析,自己配置可视化Dashboard,不再纯依赖数据团队的临时SQL取数,或者定制化的可视化页面开拓了。
3.用户行为剖析系统(可选)
2015年用户增长、增长黑客理论火爆的时候,很多中小型互联网企业纷纭购买神策、GrowingIO等用户行为剖析系统。其好处是可以供应用户行为数据从采集到自助式剖析的能力,但数据层面更多的聚焦在流量数据,对其他业务系统数据支持性相对较弱。当代自助BI可以包含用户行为的模型数据,以是原谅性更强。
4.数字化营销CDP或DMP(必须)
基于大数据打算和数据挖掘技能,构建用户画像标签体系,用户圈选、风雅化分层,进行差异化运营和营销触达,提升运营ROI。业务同学可基于平台实现从人群圈选、场景构建、触达投放、效果回收的闭环,同时,基于算法挖掘标签及模型推举的人群组合,从基于人的履历运营,到基于大数据算法推举的智能运营。一样平常企业内部私域流量运营称之为CDP(客户数据管理平台),流量变现的企业称之为DMP(数据管理平台),如腾讯广点通、阿里达摩盘。
5.算法平台(可选)
数字化转型高等层次是智能化,要想AI做事开拓更加高效,乃至产品、运营都可以配置一个推举行事接口,这机遇器学习或者叫算法平台就可以派上用场了。对付算法开拓,紧张是供应从资源调度(CPU、GPU等)、离在线数据获取、特性开拓、模型演习、推理做事全流程的算法事情台,从而提升算法中台化输出的能力,乃至可以通过模型节点拖拽实现无代码化的算法做事上线。
6.数据做事管理(可选)
有人也把数据中台称之为DAAS,即数据即做事,数据如何快速输出业务端,赋能产品创新。API做事统一管理,建立完善的运用血缘关系,供应通用接口的配置化天生能力,降落对Java开拓的依赖。数据中台思想下,数据做事API输出是运用输出的最紧张形式,数据做事管理平台一方面要具备将数据资产自助配置化输出的能力,即数仓洗濯好的数据模型,数据开拓或业务职员可以通过入参、出参的可视化配置天生API接口,不须要接口开拓参与。同时也要把API资产化管理,API接口文档、运用调用情形做到可追踪、可监控。
五、总结
广义数据产品的定义是凡是可以提升数据从采、存、管、算、用全流程效率,促进数据代价输出的干系产品都可以归结为数据产品,在数字化转型过程中涉及的产品大大小小二三十款,但总体产品矩阵大同小异。而且现在险些每个细分领域都有成熟的商业化数据产品版本,企业在实际数字化转型的过程中可以根据研发资源、投入韶光及财务本钱、数据安全等多个方面综合评估,哪些选择外采,哪些自主研发。