大雀软件园

首页 软件下载 安卓市场 苹果市场 电脑游戏 安卓游戏 文章资讯 驱动下载
技术开发 网页设计 图形图象 数据库 网络媒体 网络安全 站长CLUB 操作系统 媒体动画 安卓相关
当前位置: 首页 -> 数据库 -> 其他相关 -> 数据仓库设计的21条原则

数据仓库设计的21条原则

时间: 2021-08-13 作者:daque

数据仓库设计的21条原则--7个办法,7个忌讳和7种思绪 高效实行数据堆栈的七个办法  数据堆栈和咱们罕见的rdbms体例有些亲缘联系,但它又有所各别。即使你没有实行过数据堆栈,那么从设定目的到给出安排,从创造数据构造到编写数据领会步调,再到面临指责的用户的评价,所有进程城市带给你一种与往常的名目实足各别的领会。一句话,即使你试图以现有的办法创造数据堆栈,那你所面临的不是估算超额支出即是所创造的数据堆栈没辙杰出运作。  在处置一个数据堆栈名目时须要提防的题目很多,但同声也有很多有树立性的参考不妨扶助你更成功的实行工作。盛开思想,连接试验新的道路,对于找到一种可行的数据堆栈实行本领来说也是必定的。  1. 装备一个全职的名目司理或你本人所有控制名目处置 在常常情景下,名目司理城市同声控制多个项手段实行。这么做实足是出于资本和it资源上面的商量。然而对于数据堆栈项手段处置,一致不许展示一人身兼数个项手段情景。因为你所处的范围是你和你的共青团和少先队之前没有加入过的范围,相关数据堆栈的十足-数据领会、安排、编制程序、尝试、窜改、保护-全都是簇新的,所以你大概你指使的名目司理即使能全心加入,对于项手段胜利会有很大扶助。  2. 将名目处置工作推给其余名目司理 因为数据堆栈实行进程简直是太艰巨了,为了制止自虐,你不妨在暂时阶段的名目实行后就将名目处置工作推给其余名目司理。固然,这个新的名目司理确定要复合第一条所说的具备全职性。干什么要这么做呢?开始,从名目司理的观点看,数据堆栈实行进程的任何一个阶段都足以让人心身劳累。从物理保存摆设的开拓到extract-transform-load的实行,从安排开拓模子到olap,一切阶段都鲜明的比往日交战的名目越发艰巨。每个阶段不只须要新的处置本领、新的处置本领,还须要革新性的看法。以是将处置工作推给其余名目司理不只不会对名目有妨碍,还不妨起到扶助效率。 3.与用户举行勾通 这边所讲的实质远比一篇作品自己要要害的多。你必需领会,在数据堆栈的安排阶段,那些潜伏用户本人也不领会她们究竟须要数据堆栈为她们做什么。她们在连接的探究和创造本人的需要,而你的开拓共青团和少先队也在和存户的交战中做着同样的工作。越发一再的与存户交战,多做记载,并让你的共青团和少先队更关心于名目需要计划的截止而不是计划的进程自己。 既是你和存户的交谈是为了领会保存的数据是何种典型以及怎样灵验保存数据,你大概须要(和你的用户一道)沿用一种新的本领查看数据,而不是径直处置数据。你不妨试验居中找到湮没的消息,比方在一段功夫内的数字涨落等。不要试图追寻名目需要的谜底,而是要让谜底找上门来。 4. 以本领/消息库动作引导 因为数据堆栈实行的各个阶段都有很大各别,所以你须要有人能起到保护所有项手段贯串举行的效率,然而这个工作并不须要那种全职性。名目实行有三个要害上面:框架结构、本领和交易。将框架结构动作中心不妨保护在所有名目中,数据堆栈的框架结构从物理层往上,城市遭到杰出的保护。而咱们该当将本领动作中心,由于开拓共青团和少先队和要害用户都在运用她们往日从未用过的东西,必需有人监视开拓进程以及东西运用的普遍性。 结果,在数据堆栈的运用进程中展示出来的交易需要必需被精细领会和记载,以促机开拓进程连接下来。即使用户不许很好的开拓职员以及其它用户勾通,那么数据领会和襟怀上面的开拓过程就会改期,以是必需有人关心交易上面的开拓,激动开拓加入更高档别。 5. 跳出重复窜改步调的组织 第一次实行的数据堆栈确定不会是最后托付的本子。干什么呢?本质上在真实见到产物前,你没辙决定的领会本人的目的是什么。大概说,最后用户惟有在运用数据堆栈产物一段功夫后,本领精确报告你这个产物是否他所蓄意的。与你往常处置的名目各别,交易智能还居于兴盛的前期,每个公司对交易智能都有各别的证明,所以你的名目不会一次胜利。 为了以精确的方法赢得数据,你须要在连接变革的情景中探求进步。bi具备很强的天性,各别的情况、各别的商场以及各别的企业都有各别的bi。这又代办什么呢?这表白你须要把数据库处置员放在一个动静对立封锁的情况中,不要让他领会数据堆栈的数据构造以及etl步调在连接的变换。对此没有其余方法。如许不妨减少你和dba所接受的压力。 6. 对洪量的前者资源举行数据源领会 在数据堆栈实行进程中,你不得不在现有的数据中繁重跋山涉水,那些数据来自老的数据库、老的磁带机以及长途的数据。它们中的大局部都凌乱不胜,而且难以获得。你要对那些数据举行洪量处置,而且还要安排etl步调来探求个中的有效消息。即使你蓄意所有名目做起来比拟成功,而且找到一种本领不妨一次胜利,那就须要你的开拓职员必需耗费充满的功夫来充溢接洽那些旧罕见据,将凌乱的数据准则化,并全力安排和实行健康的数据搜集和变换进程。数据堆栈的etl局部会占用所有名目资源的百分之八十,以是确定要决定你的资源都用在刀刃上了。 7. 将人际联系处置放在首位 在数据堆栈实行进程中真实的地狱不是来自本领大概开拓上面,而是来自你范围的人。你大概会遇到一个对名目并不达观而又没功夫听你报告的引导。你大概会遇到少许开拓职员将进度缓慢太长功夫还埋怨干什么不许用老本领实行。你大概还会遇到少许抱有不真实际的梦想的用户,她们蓄意轻点鼠标就能实行设想中的功效,但却不愿在她们何处多做些才华入股,更好的培养和训练她们本人的职工。而你也仍旧筋疲力尽,激动入股,以及在开拓共青团和少先队和用户(以至东家)中实行新的开拓本领。 总之你要维持浅笑。当十足搞定,你的懊恼也就一扫而光了,笑到结果才笑得最轻快。 数据堆栈开拓进程中的七个忌讳  往日咱们从来运用的oltp本领大概湮没着很多重要的缺点。数据堆栈的实行并不是一个大略的工作,你会创造往日积聚下来的充分体味,并不符合处置每个数据堆栈的特殊需要。  底下列出的条件是你在实行数据堆栈进程中确定会面临的题目,个中少许看上去并没有设想中那么重要,然而你仍旧该当尽管制止展示一致题目。数据堆栈并不是一个工作处置体例,它没有确定的规范也不会实行某个一定的运用,但它实质上利害常有构造性的。总之,每个公司所创造的数据堆栈都是独一的,而且每一度数据堆栈的实行本领都不是循规蹈矩的。在实行数据堆栈时须要提防的不只是"该当怎样作",更要提防"不该怎样做"。底下即是咱们归纳的七点"不该怎样作"。 [page_break]1.不要编写本人没辙赶快窜改的代码 你所要编写的步调重要用来数据领会,而不是处置工作。而你的用户也并不真实领会她们本人真实想要一个怎么办的步调。所以你不得不重复窜改代码好几次,才会领会用户究竟须要一个怎么办的步调。即使你编写的步调具备杰出的构造和精巧性,就算须要窜改也不会太滥用力量。反之,你会被本人累死。  2. 不要运用没辙窜改的数据库考察api 在往日,你的数据库不妨为洪量的存户供给宁静的数据查问效劳。而此刻,你的步调必需不妨草率更多的数据查问。这使得从新改写步调以使得每个查问乞求能获得最大的数据量变成势在必行的处事,而普遍来说这种代码窜改都不会一次胜利,以是惟有采用符合的不妨窜改的api,本领使步调尽量符合新的需要。  3. 不要安排任何没辙扩充的货色 在联机处置进程(oltp)运用中,数据领会并不是一个真实的运用步调。本质上,数据领会的要害是获得洪量旧的数据,居中索取数据模子,并以此模子估计出新的消息。而你所编写的考察潜伏消息的代码该当具备可扩充性,不妨附加新的数据。万万别在扶助数据领会的代码中假定命据都是恒定方法的。  4. 不要附加不需要的功效 一个堆栈要做的是恰如其分的效劳,用户走进堆栈,从书架上博得本人所需得消息,仅此罢了。因为交易智能、领会以及顺序性的题目都有各自的处置步调,所以你的存户独一的须要即是获守信息。她们须要一种运用情况,不妨让她们赶快的从数据堆栈中博得领会进程所需的数据,而不管这个数据是什么格式的。大概你想扶助她们简练一下赢得的数据,但最佳不要这么做。确定要记取,不要给存户的数据领会步调增添任何会感化数据考察本能的功效。 5. 不要简化数据废除和数据源领会的办法 在实行数据堆栈进程中最该当提防的场合即是为extract-transform-load体制领会数据源,以及为优化负载而废除数据。安定的做法是假如名目司理在这个阶段会须要所有名目资源的一半之上。差异,即使你在这上面举行了简化,稍后确定会懊悔。以是就算体例处事慢慢,也不要简化整理旧的数据的进程。 6. 不要制止颗粒度和分区题目 在数据堆栈安排进程中有两个最大的数据保存题目,第一是怎样给变换数据定位一个适合的颗粒度等第,第二是怎样将数据一致的分区。干什么这零点题目如许要害呢?由于所有数据堆栈的相应本领受颗粒度感化,而且数据考察的效直爽接与数据分区本能相关。所以这是具备要害性的处事,不要试图制止面临那些题目。 7. 不要在没商量交易题目前就运用olap 用户在亲目睹到步调前常常都不领会本人究竟想要个怎么办的步调。所以她们的看法有不少缺点,比方她们蓄意领会截止会淳厚反馈本能襟怀,大概蓄意步调会使她们部分或公司的交易处事有所各别。而你必需跳出本人的工作范畴,从it处置者的观点商量用户部分直至所有企业的运转办法,本领在开拓进程中制止这类题目。在常常的oltp开拓中,你不妨比拟简单的领会交易过程。而在联机领会处置(olap)范围,任何工作都须要亲身参观,而在你范围处事的人大概并不会创造你对交易上面生存的曲解。所以,不要自觉得仍旧领会了充满的消息。连接的咨询本领使你真实领会"交易智能"中的"交易"究竟是什么格式的 成功开拓数据堆栈的七种思绪  对于大普遍it参谋来说,实行一个数据堆栈的难度比往日做过的任何名目难度都要大。商量到各别的数据构造、用处以及运用步调开拓本领,往日所积聚的体味和本领大局部都无蛮横之地了。然而只有在你的进步路途上稍加矫正,你就会创造实行一个数据堆栈并不是难题,就算你是第一次实行数据堆栈也没题目。  底下列出了数据堆栈实行进程须要商量的办法,有少许你大概历来没有认识到,而另少许大概仍旧在实行进程中运用到了,然而从新推敲一番大概你会有更多的领会。盛开思想,连接试验新的道路,找到一种可行的数据堆栈实行本领。  1. 反复商量运用步调的实行本领 数据堆栈并不波及工作处置,而且在报表上面也仅占第一小学局部。而数据堆栈运用步调的实质是领会,更加是对准交易智能的领会。bi并不是常常所说的数据:它是一种从旧罕见据中,模子化获得的新的数据。那么怎样本领从旧罕见据中挖出那些新数据呢?究竟上,这个处事不是让你来实行的,而是你的存户所要实行的。从名目主管的观点看,该当有一个体味充分的数据表格安排师与你协作,从而确定怎样将各类步调融洽在一道。个中所遇到的最重要的挑拨将是怎样用新的本领查看数据,这也是你的存户正在试图运用的本领。  2. 创造笼统的、杰出安置的数据库考察组件 在往日你交战过的数据库名目和此刻的数据堆栈之间,有一点一致各别,那即是:在online transaction processing (oltp)情况中,用户数目特殊大,但运用到的数据却比拟少;而在online analytical processing (olap)情况中情景却凑巧差异,小批的用户在运用洪量的数据。而你的处事即是编写一个运用步调来优化这种各别。这边有一个线索:在你一切的领会步调中,都要能抓取贯串的数据项,如许在此后创造和考察的数据构造中本领寄存与原数据物理构造一致的数据。简直怎样实行呢?开始不要规格化数据。第二将其放入数组中最小化读取乞求数。依照这种本领,dba会很痛快与你协作。 3. 维持涣散 此刻回顾看看第一步,你该当不妨领会设置一个领会步调不是件大略事了,并且普遍情景下,很难在第一次就实行适合诉求的最后产物。而在你将要举行领会的数据构造上同样生存这种题目。一句话,实行进程会有很反复无常数,你须要连接的变换你的步调。常常咱们都蓄意将变换度数降到最低。在一个数据堆栈实行进程中,实质是要领会进程毫无缺点,这也须要dba的介入。不要死抓住你的步调安排、代码、框图,或你创造的其它什么货色不截止,要按照这种变革而连接举行安排。 4. 将处置放在首位 在领会数据源上面你做的怎样呢?你能否觉得整理废物数据的处事特殊艰巨?并不是惟有你一部分如许想,做过一致处事的人都有这种管见。在一个普遍范围的组织中,动作数据堆栈实行进程的一局部,会有洪量的旧罕见据必需举行普遍性处置。以是领会数据源并耗费数个钟点编写变换步调将旧罕见据导出数据堆栈是所有数据堆栈实行进程中最繁重的一局部。而且这也是所有名目中最要害的一环,不妨占到所有名目周期和估算的四分之三。以是确定要提防周旋。 5. 从字字句句创造题目 与用户交谈是个很烦恼的工作,干什么这么说呢?由于很多用户在见到最后产物前都不领会本人想要怎么办的产物。设置数据堆栈运用步调是一个探究的进程,并且这个进程要重复举行。记住宅谓的"交易智能"是用户本人设置的,她们依照本人的领会来处置交易过程。所以那些用户即是贯穿数据和交易处置进程间的桥梁。她们所要的并不是数据自己,而是湮没在数据反面的智能性。你不妨让她们计划、推敲并给出树立性的看法。但万万不要让她们处置或让她们大肆设想和公布那些"有大概"的看法。结果,确定要随时提防用户得出的论断。 6. 维持超过 数据堆栈看上去没有保守的oltp形式积重难返,究竟如许。固然很多人投入数据堆栈的开拓中,但因为其框架与往日的体例天差地别,所以在发端的一段功夫数据堆栈的实行看上去十分凌乱。然而维持下来是很要害的。它具备两上面要害的效率。 第一,本领的超过性。它不妨盯梢名目中任何阶段的软硬件东西的安置和精确运用,以及开拓进程。即使这复合你的后台,你不妨对此多加提防。 第二,体制构造的超过性。它使得名目在各个阶段变换时,数据堆栈和它所扶助的体例的物理以及论理框架结构都具备连接性,不会爆发变换。这也是你能供给的。 7. 发出劝告 结果你要记取,你并不是独一走上新陆地的人。你范围的每一部分城市有底下一点或几点题目:不实际的憧憬、对本领的曲解、旧风气或坏风气、比赛动作,或不足对项手段断定度。固然交谈勾通等工作该当是名目司理控制的,但本质上你也要承担起沟通的负担。那么动作本领总监你该如何作呢?开始固然是要诚恳的周旋范围的人,但确定要树立威风,符合的发出劝告。当你创造名目进度慢慢、资源流逝,大概职工遗失目的,就要畅所欲言的说出来。赶快精确的赋予劝告在大局部情景下都是聪明之举。急遽上马的数据堆栈名目大概会出轨,但不要让波折的名目把你拉下马。

热门阅览

最新排行

Copyright © 2019-2021 大雀软件园(www.daque.cn) All Rights Reserved.