澳门开元棋牌热门
数据探索平台设计——“CheckStyle”_
日期:2019-07-23 05:35    编辑:admin    来源:澳门开元棋牌
数据工具产品很重要,但是这方面的人才却很稀缺。本篇文章作者结合自己的数据产品经验□,介绍了数据探索平台设计CheckStyle。 在产品的庞大家族中,有一类很重要的产品,他就是工具产品,工具产品具备强服务性,并且使用场景时效性极强□,高效便捷的工具极

  数据工具产品很重要,但是这方面的人才却很稀缺。本篇文章作者结合自己的数据产品经验□,介绍了数据探索平台设计——“CheckStyle”。

  在产品的庞大家族中,有一类很重要的产品,他就是工具产品,工具产品具备强服务性,并且使用场景时效性极强□,高效便捷的工具极大的方便了我们的生活。

  随着大数据时代的带来,在工具产品中又衍生出了数据工具产品,随着数据的增长,数据的价值也亟待我们去挖掘,各大公司正在积极挖掘数据价值,并组建自己的数据团队,包括数据分析师、数据科学家□□、数据产品经理、数据工程师等等。

  在这样的契机下,数据探索平台应运而生,作为一款数据工具产品□□□,数据探索平台核心功能便是数据开放和探索,支持数据分析师、数据科学家和数据工程师等数据团队成员和咨询、BD等业务团队成员,用他们习惯和擅长的工具□□□,协同进行数据科学项目。

  数据工具产品经理不仅仅要求传统产品经理的基本能力,还对技术背景和大数据架构有一定要求,这里我们不妨看一下业界领先数据产品阿里云对数据产品经理的要求□□□:

  负责ApsaraDB数据库产品设计,ApsaraDB数据库服务是阿里云核心的数据类的产品,是阿里云最为重要的PASS平台之一。

  1. 完成市场调研与竞争对手分析,准确定义数据库/大数据具有市场竞争力的产品

  类似于《Hadoop架构原理》以便于了解我们数据探索平台底层数据存储架构□□□,从而更好的做数据开放和探索。

  类似于《为什么Jupyter是数据科学家们实战工具的首选?》以便于了解我们数据探索平台用户的日常工作,以更好的迭代产品□,让科学家们用起来更顺畅□。

  数据工具产品很重要□,数据工具产品人才很稀缺□□□,自然,数据工具产品文章也很少。

  基于此,结合自己的数据产品经验,简单谈一下数据探索平台设计中的一个Feature,“CheckStyle”□□□,和大家探讨□,希望起到抛砖引玉的效果□□□。

  因为用户编写的代码可能存在质量差、性能低、不规范□□□、语法错误等问题。CheckStyle将使用我们TD的规则库□□□,通过平台和流程来保障代码质量,希望能尽早、尽快□、无感解决故障隐患□□□,以节约时间□□□,提高效率□□,降低出错率□。

  短期内会通过代码样例□□,API半自动化实现,结合实践不断完善规则库形成闭环,最终实现自动优化。

  主要是昨天和一位数据分析师同学闲聊,听到她随口吐槽一件工作中的小事,见微知著,聊一下数据探索中的“CheckStyle”需求,和大家一起探讨哈□。

  果断先diss她几句,招人时咋不想清楚□,有经验的好一点□□□,没经验的就要做好培养的准备□□□,而且必然是一段时间细致的培养□□,答复,虽然她也做了准备□□,但确实需要时间。

  权:□“那个人力量有限啊□□□,你时间有限,而且我们也只能说熟练使用SQL□□□,不能说精通,大多数场景能搞定□,遇到一些问题也需要查□,这种事最好交给机器做,产品化。□□”

  工作中类似的问题太多了,用户编写的代码可能存在质量差□□、性能低□□□、不规范□、语法错误等问题。

  我们再来看几个鲜活的例子,看一线. 前段时间一位数据科学家同学因为输出数据集目录命名不规范,导致和DSS的时间分区功能冲突□□□。

  Python 是机器学习领域内的首选编程语言,它易于使用,也有很多出色的库来帮助你更快处理数据□□□。但当我们面临大量数据时□□□,一些问题就会显现,因为在这样的量级上□□,工作进程中加入任何额外的计算都需要时刻注意保持效率□。

  测例是将1000张图片被传递到深度神经网络之前将其调整为600×600像素分辨率的形式。

  会对用户有更高的技能要求,督促用户自我提高,在这方面TDU有也相关技能课帮助提高,但毕竟术业有专攻,是不是应该降低用户的技术门槛,让其更专注于在具体业务和场景中探索数据价值。

  因此,代码性能提升我可能更倾向于平台侧智能管理,平台自动优化提升性能□□,并info给用户相关建议,感兴趣的用户可以参考info自我提升,进一步学习并反馈规则给TD规则库,形成闭环不断优化。

  不感兴趣的用户可以直接忽略优化info专注业务,平台自动优化运行,做到无感体验,不知不觉中提升整个集群任务的运行效率。

  现在我们Data ATM数据提取平台的运行机制类似,前端展示极简的界面,用户拖过简单拖拽完成任务的输入输出,后端是将用户选择的模块转化为SQL在提交到GP网关(Greenplum数据库)。

  大大降低用户的操作门槛,这也是我们数据提取平台的初衷□□,让业务人员(销售、咨询等)在不懂SQL等语言时也能通过简单拖拽完成数据提取,让其更专注于在具体业务和场景中探索数据价值。

  模块的封装,对应底层数据集□,如活跃设备模块对应device_app_active系列数据集;

  选项的封装,对应底层数据集相应字段,如2018-09时间对应数据集的monthid□□□;

  UDF(User Defined Function□□□,用户自定义函数)的定义,复杂操作通过UDF实现并优化;

  好的工具,真正让用户易用,易用背后的逻辑我们沉淀,我们做的多□□,用户想的少。

  发生上述这些问题□□,有些可能是初出茅庐不谙世事的实习生,无经验,技能上的短板、未养成好的规范□,也可能是现在玩转业务,熟练SQL的高级数据分析师□□□,毕竟学海无涯,技能上的盲点永远存在。

  CheckStyle将使用我们TD的规则库,通过平台和流程来保障代码质量,希望能尽早□□□、尽快□□、无感解决故障隐患□□□,以节约时间,提高效率,降低出错率□。

  我和阿里云的同学们沟通过□□,确实是踩过了很多坑,在推广过程中碰到大量的SQL优化问题,我们的结论也一致,无论是通过培训还是其他方式,其实都远没有系统固化规则更好,用系统流程化的方式解决问题是平台能够规模化的核心要素□□。

  数加也确实走在行业的前列,基于IntelliJ IDEA开发插件MaxCompute Studio□□,MaxCompute 编译器是新一代的SQL引擎□□,显著提升了SQL语言编译过程的易用性与语言的表达能力□。

  如上图,静态编译发现第一个 insert 语句中的UDF wm_concat函数参数错误。

  如上图,鼠标停止在错误或者警告上,会直接提示具体错误或者警告信息。如果不修改错误,直接提交,会被 MaxCompute Studio 阻拦。

  基于SQL,使用MaxCompute SQL,规范代码,预防预期外的错误□,并对代码运算效率进行优化:

  1. 代码样例的准备,结合日常工作中的常见作业□,总结提炼几套常见的代码样例和常用语法。

  2. 规则库的制定,包括常见问题和开源规范的梳理□,目前规则可以分为以下几类□□□:

  对用户进行规则库和代码样例的相关培训□□,并结合TDU的优质教育资源,进行专项技能提升(备注:相关培训可以视用户的兴趣和时间酌情参与□□□,但最好有几位资深分析师全程深入学习□,以备在关键时刻提供相关指导)□□□;

  同时根据规则在平台侧封装相关API供用户使用□,结合实践不断完善规则库形成闭环,最终实现自动优化。

  □□“未来创业很重要的一个方向就是把传统上大家认为必须由人来做的服务□□,把它中间越来越多的环节拆解,变成可以在线化、机器化□□□、智能化完成的任务。”

  个人认为□,这也是数据工具产品的发展方向,复杂工作简单化□□□,简单工作智能化□。

  人人都是产品经理(是以产品经理□□□、运营为核心的学习、交流、分享平台□,集媒体、培训□□□、社群为一体,全方位服务产品人和运营人□□□,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市□□,在行业有较高的影响力和知名度□□。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长□□□。

  • 本类最新
  • 时尚
  • 新闻
  • 生活
  • 视觉
  • 微爱
返回顶部