您的位置:首页 > 移动互联

Lenovo x DorisDB:简化数据处理链路,极大提升BI分析效率

发布时间:2022-07-29 12:46:26  来源:互联网     背景:

  Lenovo联晟智达隶属于全球PC领导厂商联想集团,致力于打造科技驱动、柔性敏捷、服务体验一流的智慧物流生态平台,面向产业端企业提供综合物流解决方案,成为服务于中国及全球客户的智能供应链科技企业。联晟智达大数据团队逐步引入了多种OLAP分析引擎来更好的满足需求。DorisDB从众多的OLAP分析引擎中脱颖而出,它采用了全面向量化的计算技术,是性能非常强悍的新一代MPP数据库。通过引入DorisDB,构建了全新的统一数据服务平台,大大降低了数据链路开发复杂性,极大提升了BI分析效率。

  “作者:韩文博联想销售物流大数据平台负责人,专注于数仓建设、数据分析等领域研究。”

  一、OLAP引擎在Lenovo联晟智达的演进史

就华为事件谈谈对创新问题的看法

  第一阶段

  在2018年之前,联晟智达的数据总量还不是特别大,这个阶段使用的是传统关系型数据库(SQL Server),数据仓库体系还尚未建立,很多数据需求的实现都是以SQL脚本的开发方式来满足。

  但随着业务复杂度不断提升,以及数据量的快速增长,这种模式很快遇到了瓶颈。最主要体现在查询响应时效变得越来越慢。例如:之前运行一个任务需要10分钟或20分钟,现在需要一个小时或更长时间,查询效率严重下降。另外数据存储容量也存在瓶颈,无法满足随业务而快速增长的数据量存储需求。

  第二阶段

  2019年随着数据仓库在Hadoop/Hive体系上搭建和完善,ETL任务全部转移至Hadoop集群,这个阶段使用数十台Presto完成OLAP分析。Presto天然和Hive共享元数据信息,且共同使用物理数据存储,大量的对数仓表的灵活查询使用Presto完成。前端BI层面使用Tableau直接连接Presto,实现数据分析与挖掘。

  第三阶段

  2021年联晟大数据团队进行了离线数仓的整体设计和搭建,既需要做低延时的BI报表,又要满足Adhoc复杂查询,同时对高效明细查询也有很高的要求。这个阶段我们根据场景引入了OLAP圈炙手可热的DorisDB产品,它既能做Presto的Adhoc多表关联查询及复杂嵌套子查询,又能提供比ClickHouse更好的单表明细查询和多维物化视图上卷加速,满足极速BI分析需求。

  二、数据分析体系架构

  1.OLAP体系现状

  整个数据分析体系,由数据采集、数据存储与计算、数据查询与分析和数据应用组成。

  原始架构图:

Lenovo x DorisDB:简化数据处理链路,极大提升BI分析效率

  数据采集

  1)通过Sqoop读取RDBMS导入Hive。

  2)用Flume来同步日志文件到Hive。

  3)通过爬虫技术将网上数据爬取下来,存储到RDBMS,再由Sqoop读取RDBMS,导入到Hive。

  数据存储与计算

  离线数据处理:利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作。

  数据查询与分析

  数据共享层主要提供对外服务的底层数据存储和查询共享界面。离线ETL后的数据写入RDBMS或MPP数据库中,面向下游多种服务,为Tableau BI、多维固定报表、Adhoc即席查询等不同场景提供OLAP查询分析能力。应用侧完美服务于BI报表平台、即席查询分析平台及数据可视化平台(Control Tower)

  数据应用层

搜狗翻译宝pro价格

  数据应用层主要为面向管理和运营人员的报表,查询要求低时延响应,需求也是迭代层出不穷。面向数据分析师的即席查询,更是要求OLAP引擎能支持复杂SQL处理、从海量数据中快速遴选数据的能力。

  三、各OLAP分析工具选型比较

iphone12多大容量够用

  1.ClickHouse

  优点

  1)很强的单表查询性能,适合基于大宽表的OLAP多维分析查询。

  2)包含丰富的MergeTree Family,支持预聚合。

  3)非常适合大规模日志明细数据写入分析。

  缺点

  1)不支持真正的删除与更新。

  2)Join方式不是很友好。

  3)并发能力比较低。

  4)MergeTree合并不完全。

  2.DorisDB

  优点

  1)单表查询和多表查询性能都很强,可以同时较好支持宽表查询场景和复杂多表查询。

  2)支持高并发查询。

  3)支持实时数据微批ETL处理。

lcd屏被淘汰了吗

  4)流式和批量数据写入都能都比较强。

  5)兼容MySQL协议和标准SQL。

  缺点

  1)大规模ETL能力不足。

  2)资源隔离还不完善。

  四、DorisDB在SEC数据中心的应用实践

  渠道仓配管理(SEC)的核心数据来自两大块:一个是消费业务;第二个是SMB中小企业务(Think、扬天)。基于这些数据,根据不同的业务场景需求,汇总出相关业务统计指标,对外提供查询分析服务。

  1.原有解决方案

  在引入DorisDB之前,用到大量Hive任务进行业务逻辑清洗加工,清洗加工后的数据部分保留在Hive,部分数据写入MySQL/SQL Server,以达到数据的落地。前端BI通过Presto计算引擎连接Hive、MysSQL、SQL Server等,实现报表分析及数据可视化。

  2.技术痛点

  原有架构主要有以下两个问题:

  1)数据逻辑没有很好做归拢合并,维护工作量大,新需求无法快速响应。

  2)Presto的在SQL较多的Tableau复杂报表上响应较慢,不能满足业务即时看数需求。

  因此我们希望对原有体系进行优化,核心思路是利用一个OLAP引擎进行这一层的统一,对OLAP引擎的要求是比较高的:

  1)能支撑大吞吐量的数据写入要求。

  2)可以支持多维度组合的灵活查询,响应时效在100ms以下。

  3)比较好的支持多表关联。

  4)单表查询数据量在10亿以上,响应时效在100ms以下。

  经过大量调研,DorisDB比较契合数据中心的整体要求。DorisDB本身高效的查询能力,可以为数据中心数据报告提供一体化服务。新架构具备以下优点:

  1)结构清晰,RDBMS专注于数据的清洗,业务逻辑计算从Hive迁到DorisDB内实现,DorisDB就是数据业务逻辑的终点。

  2)可以维护统一的数据口径,一份数据输入,多个APP接口输出。

  3)MPP分布式架构,得以更好的支持分布式聚合和关联查询。

360手机助手免流

IE8以上、Firefox、Google Chrome

  4)和Tableau有较好的兼容性,可以满足核心BI分析需求。

  3.基于DorisDB的解决方案

  升级后架构图:

Lenovo x DorisDB:简化数据处理链路,极大提升BI分析效率

  数据表设计

  1)数据模型设计

  DorisDB本身提供三种数据模型:明细模型/聚合模型/更新模型。对SEC业务来说,目前以明细模型为主,后续如果有其他场景,再考虑应用其他模型。

  2)数据分区/分桶

  DorisDB提供的数据分区和分桶功能,可以很好的提升历史库存及周转场景下明细查询的性能。例如,历史库存查询常见的一种查询场景,是查询过去某一时间段内的库存周转情况,我们可以在DorisDB中根据出库时间进行分区,过滤掉不必要的分区数据,减少整个查询的数据量进行快速定位,尽量减少了查询语句所覆盖的数据范围,分区、分桶、前缀索引等能力,可以大大提高点查并发能力。这些特性对业务迎接增长,面对未来可能出现的高并发场景也具有非常大的意义。查询某一个物料条码(SN)的历史轨迹数据,能够快速的检索出该条码的所有历史出入库轨迹信息,帮助我们高效的完成供应链全生命周期回溯。

  物化视图

  我们利用DorisDB物化视图能够实时、按需构建,灵活增加删除以及透明化使用的特性,建立了基于库存物料SN粒度、基于产品类型特征粒度、基于库房粒度、基于分销商粒度的物化视图。基于这些物化视图,可以极大加速查询。

  数据导入

  数据导入DorisDB这里用到了两种方案:

  1)在DorisDB提供的Broker Load基础上将离线数仓Hive的表导入到DorisDB中。

  2)通过DataX工具,将SQL Server、MySQL上的数据导入到DorisDB。

  4.DorisDB使用效果

  灵活建模提升开发效率

  结合使用宽表模型和星型模型,宽表和物化视图可以保证报表性能和并发能力,而星型模型可以让AP如TP里那样建模,直接进行关联查询,不必所有场景都依赖宽表准备,在数据一致性和开发效率上得到很好提升。另外,有不少表是在MySQL里的,我们通过DorisDB外表的方式暴露查询,省去了数据导入的过程,大大降低了业务方的开发和迁移周期。DorisDB的分布式Join能力非常强,结合View的能力构建统一的视图层,面下不同BI报表进行查询,提升了指标口径的一致性,降低了重复开发。

  BI体验极好

  前期部分BI可视化是基于SQL Server、MySQL构建的。部分看板不断优化和丰富需求后,加上多维度灵活条件筛选,每次加载很慢,有些Tableau报表很长时间才能加载出来,业务无法接受。引入DorisDB之后,我们用DataX将SQL Server数据导入DorisDB,这里使用了DorisDB-Writer插件,底层封装的Stream-Load接口,向量化导入效率非常高。MySQL可以通过外表insert into select流式导入,也可以直接外表查询,非常便捷。Tableau图表秒出,体验有了质的飞跃。

  运维成本较低

  数据中心是非常核心的一个线上服务,因此对高可用及灵活扩容能力有非常高的要求。DorisDB支持数据多副本,FE、BE仅仅2种角色组成的简洁架构,在单个节点故障的时候可以保证整个集群的高可用。另外,DorisDB在大数据规模下可以进行在线弹性扩展,在扩容时无Down Time,不会影响到在线业务,这个能力也是我们非常需要的。

  总结

  Lenovo联晟智达从今年(2021年)4月份开始调研DorisDB,POC测试阶段用了1/4的资源,就完美替代了数十个节点的Presto集群,当前DorisDB已经上线稳定运行。引入DorisDB后,实现了数据服务统一化,大大简化了离线数据处理链路,同时也能保障查询时延要求,之后将用来提升更多业务场景的数据服务和查询能力。最后,感谢鼎石科技的大力支持,也期望DorisDB作为性能强悍的新一代MPP数据库引领者越来越好!


返回网站首页

本文评论
小芒种花夜时间_“Micola”重磅亮相《小芒种花夜》首发完美收官
  十月六日晚,由湖南卫视和芒果TV双重直播的国潮盛典《小芒种花夜》拉开帷幕。这场聚焦国潮青年与新潮国货的盛宴在当晚引起层层轰动,除了披荆斩棘的哥哥和乘风破浪的姐姐...
日期:07-27
三星携全新显示器产品亮相CES 2022,展现行业先进风范_ces 2021 三星
  近日,三星电子推出新一代显示器产品阵容,充分展现其在显示器行业的先进实力。新一代产品将凭借卓越的画质表现以及简洁直观的实用性能为不同需求的消费者提供多元化的选...
日期:07-25
用户直播总互动13亿,火山引擎带来世界杯观赛“新看法”
  第22届世界杯比赛已经落下大幕,本届世界杯,观赛方式再次发生了变化。在传统的电视等观赛手段之外,短视频+直播方式,也已成为观赛潮流。  根据抖音最新提供的观赛报告数据...
日期:12-23
火山引擎联合英伟达,助力AI初创企业增强核心竞争力
  近日,火山引擎机器学习平台联合英伟达共同推出面向初创企业的福利包,旨在为人工智能领域的初创公司提供更加高效的工具和优惠的算力,让初创企业更加专注于核心业务的算法迭...
日期:07-29
讯飞翻译笔s11_2022年度翻译笔选购指南,讯飞翻译笔细节感拉满
  古人云:“学如逆水行舟,不进则退。”面对竞争日益激烈的社会,知识的重要性已经不言而喻。很多家长为了孩子能学到更多知识,会为孩子添置五花八门的智能学习工具。  其实,学...
日期:07-14
电动牙刷哪个牌子好 使用体验如何?有哪些品牌值得推荐?_电动牙刷哪个牌子性价比高效果好
  随着社会的进步,科技的发展,人们的生活水平逐步上升,从以前品尝食物的原味到现如今食物的酸甜辣苦五味俱全,进一步的使人的口腔疾病日渐增多。由于口腔疾病的问题,人们不得不...
日期:07-29
MPV界的崭新C位 库斯途用实力诠释空间能力_现代mpv库斯途配置
  随着三胎政策的全面开放,全国范围内有许多具备实力的家庭已将“多孩”计划提上日程,工欲善其事,必先利其器,多孩家庭的用车自然少不了MPV车型的帮助,在多乘员出行的场景当中,M...
日期:07-30
升级HarmonyOS 2最新版本,出门亮健康码快人一步!
  最近一段时间,在人口流动较大的大城市疫情反复,防疫形势紧张,商场、地铁站、公交、餐厅、办公楼、小区等场所都要求出示健康码、行程卡,甚至核酸检测报告才能进入。然而,我们...
日期:07-10
“抖in大牌见面礼x爱慕”:长在年轻人兴趣点上的国风内衣,正在收割电商购买力
  当国风搭上兴趣电商的快车。苹果六plus那年开售的  来源|AI蓝媒汇  ID:lanmeih001  作者|闫烨  编辑|魏晓  短视频时代,我们得以穿越时光,与“古代的人”十指相...
日期:07-29
缔造整洁的家居环境,吉米维纳斯吸尘/洗地一体机来帮你,还你干净之家
  平时在家打扫卫生,很多人都习惯先擦家具、台面、摆件这些区域,然后再扫地、拖地,又繁琐又麻烦。如果拥有一台机器可以解决全屋清洁,绝对能在打扫卫生上节省不少时间。实现这...
日期:07-30
科腾为大型活动直播护航,以“零中断”为目标打造优质体验
  自从直播成为了互联网体验营销新模式,不同于个体主播单一视角的拍摄方式,企业级用户在组织大型活动时期望可以呈现多角度多元素的高品质内容给终端用户,如大型会晤、线上展...
日期:07-30
更美APP多个项目数据实现上涨,未来将引入更多的创新模式
  相关数据显示,更美APP旗下次卡订单自2021年5月份以来核销率达到了70%以上,消费者们对于次卡的认可通过数据再次得到确认。截止到目前,更美次卡的订单量已经突破了数万单,多...
日期:07-28
奥运冠军孙一文做客荣耀双11直播间,冠军同款等你带回家_孙一文 夺冠 视频
  双11购物节即将迎来最后的狂欢,各个行业、圈层的大咖也都将加入这场全民狂欢的盛会。正所谓“竞技之路,从来都没有终点”,荣耀手机官博在11月10日晚公布了奥运冠军“击剑女...
日期:07-26
()是企业数字化转型成败的关键_传统企业如何跳出 “IT 陷阱”,迎来数字化转型?
  软件开发很难吗?难,也不难。  有业内人士曾公开表示,如果仍然用传统的开发方式来开发软件,那么会很难。  因为软件用户的需求更加复杂,开发团队技术栈更加丰富,但是...
日期:07-14
迎难克险 从“心”出发 红旗7月销量再上新阶「红旗7月销量数据最新消息」
  火热的7月,必然属于红色——这是国的红、是家的红、是心的红,也是红旗红。迎着疫情造成的全行业芯片短缺、暴雨灾害引发的突然变故,新红旗营销人昂扬“心”力,在百战不屈中...
日期:07-29
生日快乐QQ空间_生日快乐!QQ原来已经23岁了
  今日,QQ官号发布了QQ庆生视频,原来QQ已经23岁了!QQ在文章中表示:  “这么多年来  你们习惯在QQ里打闹嬉戏华为无边框手机mate8  喜欢将值得纪念的瞬间写在QQ上  让...
日期:07-30
极米新z8x缺点_四千不到,为什么我最后选了极米New Z8X
  趁着这次双十一的促销,笔者算是把之前没舍得剁手的东西买了个遍。其中不乏一些传统意义上的“大件”家电。其中最大的一件,可能要算这次入手的家用投影。倒不是说它体积有...
日期:07-26
践行公益为爱前行,珍爱网获评“社会责任行业影响力奖”「爱在一线公益慈善中国行」
  2021年9月14日,2021中国企业社会责任高峰论坛在北京顺利举行,大会揭晓了2021(第十五届)“CSR竞争力—中国企业社会责任评选”榜单。因长期以来积极配合各级政府部门、群团...
日期:07-27
知己知彼、防患未然,腾讯安全发布《2021年勒索攻击特征与趋势研究白皮书》
  当前,勒索攻击频频发生:自2018年以来,勒索软件攻击数量猛增了350%;2020年,勒索软件的平均赎金已高达31万美元;2021年,每11秒将发生一次勒索攻击,全年累计将超过300万次。勒索...
日期:07-26
万和富氢型燃气器具投入示范运行
  10月14日,由国家电投集团科学技术研究院(简称中央研究院)联合国电投集团燕山湖发电有限公司组织召开了天然气掺氢示范项目应用成果见证会,宣布国内首个民用富氢天然气应用...
日期:07-27