导语:
随着越来越多的企业熟悉到数据作为生产要素的价值,,,,,,加速了企业数字化转型,,,,,,把完善企业级的数据治理系统作为企业数字化转型的一个目的。。。。。。betway西汉姆官网科技在大数据领域始终坚持足够的手艺敏锐度,,,,,,并积累了富厚的履历与资产。。。。。。为此,,,,,,我们组织了一个系列专文,,,,,,分期揭晓,,,,,,与您一起探索更适合当下行业生长的数据观,,,,,,欢迎各人一连关注。。。。。。
作者|betway西汉姆官网科技大数据研究院 内容|本篇共3960字,,,,,,预计阅读时间18分钟
数据是组织的战略资产,,,,,,组织应该清晰地相识“数据的战略价值”以及怎样释放和使用数据来爆发起劲的营业影响。。。。。。界说数据战略的起点首先是相识怎样以一种经由深图远虑、可重复、迅速的方法使用数据来知足企业内外种种需求,,,,,,从集成主数据最先,,,,,,安排可重用的高质量数据,,,,,,最终实现企业级的集针言义层。。。。。。
01 需求驱动与营业驱动 许多组织习惯性地将需求驱动软件开发的古板要领应用于数据平台类系统建设中,,,,,,数据服务部分凭证营业部分的需求举行设计、开发提供数据服务。。。。。。数据服务部分一样平常穷于应付营业部分用户需求,,,,,,还要面临需求部分的诉苦,,,,,,同时遭受用户对数据的准确性、一致性以实时效性不知足。。。。。。由于需求的剖析效果不可交互共享,,,,,,难以在组织内获得并充分使用数据的所有价值,,,,,,不可消除企业层面的内部障碍。。。。。。他们日复一日重复开发了数以万计的表,,,,,,知道自己一直在重复设计和分发相似的可能不准确或冲突的数据,,,,,,服务于特定目的需求功效,,,,,,而很少关注数据自己,,,,,,一连建设孤岛。。。。。。 基于伶仃的、局部的数据,,,,,,只能爆发营业特定的狭隘认知,,,,,,缺乏支持营业快速行动所需的黏协力、统一性与迅速性,,,,,,很难洞察出更多的营业价值,,,,,,难以知足营业生长与竞争需要。。。。。。局部规模的数据质量问题往往也难以实时发明,,,,,,可能爆发不良效果,,,,,,如误导客户营销,,,,,,增添危害,,,,,,导致合规本钱飙升等等,,,,,,投入巨资重复建设而获得的价值很小。。。。。。 设计优异的软件解决计划可以使用封装的可重用功效组件,,,,,,获得可靠的质量包管,,,,,,同时阻止了重复开发带来的种种本钱与不确定性。。。。。。 数据价值不在于预界说的处置惩罚功效,,,,,,而在于数据自己。。。。。。以数据为中心是一种无邪的企业数据架构,,,,,,在数据剖析生态情形中安排可重用的高质量数据:收罗最普遍泉源的数据,,,,,,凭证统一的规范洗濯与转换数据,,,,,,整理冗余数据,,,,,,提升数据的准确性、一致性与完整性等内在价值,,,,,,形成反应企业完整的数据简单视图。。。。。。然后基于统一的数据建设差别视图重用于多种目的,,,,,,并确保需要它的每小我私家都可以会见它,,,,,,将剖析转移到数据中,,,,,,而不是相反地——为每个需求复制数据。。。。。。 在数据驱动的配景下,,,,,,可以有用治理数据需求,,,,,,新需求首先思量怎样从已搭建的集成数据情形中寻找是否有可重用的数据资产——获得 “免费午餐”,,,,,,不需要重新最先,,,,,,因而可以显著降低开发和维护本钱,,,,,,镌汰寻找数据的时间,,,,,,快速安排响应市场转变和种种需求。。。。。。 数据能够回覆几多营业问题,,,,,,取决于数据能爆发几多有意义的组合。。。。。。冗余数据与垃圾数据将使可能的组合发散,,,,,,有价值的数据被淹没在垃圾海洋中,,,,,,不可爆发更多的有价值的信息,,,,,,使数据问题扩散,,,,,,使用户疑惑。。。。。。数据集市的需求是确定的,,,,,,因而数据是确定的,,,,,,所能爆发的组合也是确定的。。。。。。 与疏散的数据集市情形保存显著差别,,,,,,在企业集成数据情形中可以回覆的跨领域的营业问题,,,,,,随着集成数据领域的增添,,,,,,能回覆的问题呈指数级增添,,,,,,这是回覆新问题、爆发新价值的泉源。。。。。。 图1:数据能够回覆几多营业问题,,,,,,取决于数据能爆发几多有用组合 比尔·恩门以为数据的集成是数据客栈的第一真相。。。。。。公司越大,,,,,,这一点就越真实。。。。。。数据集成是数据客栈建设的焦点内容,,,,,,需要深入调研数据现状,,,,,,扫除垃圾与冗余数据,,,,,,界说与分类数据,,,,,,建设数据之间关系。。。。。。这些事情需要具备专业能力与长期韧性,,,,,,一些供应商和照料们忽视甚至倾轧集成,,,,,,可是在数据客栈之外没有其他要领可以举行集成,,,,,,也没有捷径。。。。。。 DAMA 等专业组织把数据集成与数据架构划分作为自力的职能。。。。。。若是把数据集成作为数据架构的一部分,,,,,,外貌上似乎降低了对数据治理相关领域的明确难度与重漂后,,,,,,但也降低了数据集成的主要性,,,,,,忽视了数据架构、数据集成、应用架构之间的关系。。。。。。
02
来自于高度的数据集成 彼得·德鲁克说过,,,,,,效率致力于准确地做事,,,,,,效果则是做准确的事。。。。。。 在数据客栈20多年的生长历程中,,,,,,差别供应商与用户角色专业职员对数据集成的明确与熟悉保存很大差别,,,,,,大多停留在外貌的粗浅明确中,,,,,,或居心忽略或回避“数据集成”的实质,,,,,,既不可准确地做事,,,,,,也不可做准确的事,,,,,,数据集成的成熟度没有获得质的提升。。。。。。 代表高质量数据的完整性来自数据的高度集成。。。。。。中文语境下的“整合”看法,,,,,,并不可笼罩英文语境“集成”看法的富厚内在。。。。。。英文语境中集成与完整性词根相同,,,,,,可以说数据集成的实质目的是实现数据的完整性,,,,,,有清晰的标准要求。。。。。。把多个数据源以通用名堂存储到数据湖中,,,,,,然后转换为目的物理模子结构的数据,,,,,,存储在相同的数据模子中,,,,,,还不是完整的数据集成。。。。。。 数据集成在逻辑数据建模历程中需要开展以下设计事情: 图2:营业价值随一连集成的数据增添
03
确定集成蹊径图的初始数据规模很主要,,,,,,以确保允许的价值交付时间表。。。。。。数据部分职员通常唬唬;;嶙⒅氐剑翰畋鸬挠τ眯枨,,,,,,经常需要一些相同的数据,,,,,,如客户、机构、利率、汇率等主数据以嘉拷寮数据险些被所有应用所需。。。。。。某些跨职能应用问题具有普遍的营业影响,,,,,,需要多个主题域往返覆,,,,,,提供前瞻性洞察。。。。。。应接纳务实的战略,,,,,,尽快知足营业的迫切需求,,,,,,优先思量公共需要的数据以及那些直接支持营业目的的已知营业问题并为后续新项目增添附加价值的数据,,,,,,如危害合规和财务会计以及客户、产品主数据等,,,,,,杠杆撬行动用大,,,,,,收效快。。。。。。 以客户数据为例,,,,,,客户数据是企业的战略数据,,,,,,企业价值的实现来自客户。。。。。。作为要害主数据的客户数据,,,,,,可能漫衍在组织内部差别营业系统中,,,,,,来自差别数据源表达的信息要素各有着重,,,,,,客户的结构属性可能有交织、互补与差别,,,,,,属性的名堂与值有差别,,,,,,客户纪录数也可能有差别,,,,,,需要集成形成完整一致的荟萃。。。。。。差别行业组织之间的客户数据也保存以上这些差别。。。。。。好比包管业、银行业、电信业关注的信息要素可能有许多差别,,,,,,包括客户的界说信息、客户购置产品历史、行为偏好等,,,,,,怎样从客户数据中获取价值,,,,,,都将成为获得竞争优势的要害途径。。。。。。 通过一连集成来自组织内外差别数据,,,,,,可以形成客户信息360° 视图,,,,,,相识产品与服务组合的转变对客户的影响, 更快地识别客户需求、问题、时机,,,,,,扩大客户群,,,,,,给差别客户提供差别服务,,,,,,更有用地向客户交织销售,,,,,,提升客户给企业带来的价值。。。。。。而在应用需求驱动的配景之下,,,,,,犹如瞽者摸象,,,,,,每小我私家获得的仅是局部片面的信息。。。。。。 类似尚有市场数据、产品数据的集成,,,,,,特殊是市场数据的集成,,,,,,如基金市场的产品数据,,,,,,银行既可以代销,,,,,,也可以使用自有资金投资,,,,,,本是统一产品看法,,,,,,在通过差别的渠道接入差别的营业系统时设计了纷歧致的结构,,,,,,维护了差别的数据荟萃,,,,,,在举行整适时往往不被识别出来而设计成差别的看法,,,,,,如代销基金产品、配合基金产品。。。。。。
04 团结最新手艺与实践 构建企业集针言义层 需要注重的是,,,,,,只管古板的ETL或ELT数据集成流程已经保存了许多年,,,,,,但数据的集成并不料味着一定陪同数据的移动与复制,,,,,,可以与数据的位置无关,,,,,,基于云的数据集成平台越来越普遍。。。。。。复制需要时间与资源,,,,,,复制历程可能导致数据走漏、丧失或变形失真。。。。。。在许大都据平台与数据应用项目中,,,,,,一直复制数据,,,,,,把数据从营业源系统复制到数据湖,,,,,,再加工复制到数据客栈,,,,,,从数据客栈迁徙到种种集市,,,,,,野蛮生长之后再举行治理。。。。。。差别营业系统中的数据价值差别悬殊,,,,,,一些非焦点营业系统中有价值的数据很少,,,,,,都复制到数据湖中是不明智的。。。。。。ChatGPT 推动的天生式 AI 兴起,,,,,,点燃了对高质量数据的需求(质量、时效性与笼罩规模),,,,,,古板ETL或ELT要领不可能知足这些要求。。。。。。 团结应用数据架构、分类法、本体模子、营业词汇表、元数据和知识图谱的要害元素,,,,,,体现组织知识和领域寄义,,,,,,聚合和统一非结构化和结构化数据,,,,,,界说数据之间的关系,,,,,,通过一连的数据探索,,,,,,集成和编目,,,,,,构建集成的营业语义层,,,,,,提供来自任何领域的一致信息视图,,,,,,而无需将所有内容都复制移动到一个系统中。。。。。。借助集针言义层,,,,,,可以使用简单框架来会见、明确和集成知识资产,,,,,,这也是实现人工智能的基础。。。。。。 2016年 Noel Yuhanna(Forrester)首次提出了大数据编织看法,,,,,,在Gartner推动下,,,,,,数据编织已成为现代数据治理的主要趋势。。。。。。数据编织不强制数据物理迁徙,,,,,,通过自动元数据、知识图谱、人工智能(AI)和机械学习(ML)等手艺,,,,,,动态整合跨平台、跨情形的数据,,,,,,实现数据的自动化探索、集成、治理和交付。。。。。。数据编织已从“立异萌芽期”进入“期望膨胀期”,,,,,,虽没有周全成熟,,,,,,数据虚拟化、自动元数据治理、AI驱动的数据集成等手艺已相对成熟,,,,,,可用于实现逻辑数据集成和动态编排。。。。。。 结语: