数据堆栈模子扶植根底及kimball筑模手法总结

母婴用户    2019-12-01 21:10     浏览 33333 

  

数据堆栈模子扶植根底及kimball筑模手法总结

  业务用户在这些业务处理性能度量值的分析方面具有浓厚的兴趣。设计中所有供选取的信息必须满足在第2步中定义的粒度要求。明显属于不同粒度的事实必须放在单独的事实表中。典型的事实是诸如订货量或者支出额这样的可加性数字数据。

  切块可以看成是切片的基础上,进一步确定各个维成员的区间得到的片段体,即是由多个切片叠合起来。

  在维度表中表示多个体系是不常见的。在理想情况下,属性名与值在跨多个体系的范围应该是惟一的。

  在设计的早期阶段,经常对可能需要的最大表即最大事实表的行数做出估计是很有益处的。

  在数据中心进行的向下探查操作不过是通过维度表添加一些标题,而向上探查就是删除行标题。可以通过来自多个显式体系的属性而进行向上或者向下探查操作,也可以按非体系部分的属性进行同样的操作。

  3.多维性(Multidimensional)包括对层次维和多重层次维的完全支持。

  事实表本身通常也由外关键字子集组成的自己的主关键字,这个关键字通常称作复合或者连接关键字。

  多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就惟一确定了一个变量的值。那么数据单元就可以表示为:(维1维成员,维2维成员,......,维n维成员,变量的值)。例如,在产品,地区,时间和销售渠道上各取维成员“牙膏”,“上海”,“1998年12月”和“批发”,就惟一确定了变量“销售额”的一个值(假设为100000),则该数据单元可表示为:(牙膏,上海,1998年12月,批发,100000)。

  设计者应该尽各种努力将文本度量值转换成维度,原因在于维度你能够与其它文本维度属性更有效地关联起来,并且消耗少得多的空间。不能将冗余的文本信息存放在事实表内。

  维度建模既可以用于关系数据库,有可以用于维度数据库。两者在可辩别的维度方面具有共同的逻辑设计,但在物理实现方面是不同的。

  钻取有向下钻取(Drill Down)和向上赚取(Drill Up)操作。

  OLAP是一种分析处理技术,它通过计算公式和转换规则从现有的数据中生存新的信息,并

  企业也时常关心自己的产品在不同地区的销售分布情况,这是从地理分布的角度来观察

  建模时一种以消除数据冗余为追求目标的设计技术,在这里,数据被划分成许多离散的实体,而每个实体形成关系数据库中的一个表。

  不同维层次的取值组合而成。例如,我们考虑时间维具有日期,月份,年这三个层次,分别在日期,月份,年上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。

  单价也是非加型事实。试图在任何维度范围内对单价进行求和,都会导致出现一些毫无意义的甚至显得荒谬的数值结果。

  提供时间相关的智能,例如:按日期划分的年,跨域给定时间段的日历,当前时期、财政的和内部的日历等;

  对于时间维的切片(时间取一个确定值),如果将时间维上的取值设定为一个区间(例如,取“1990年~1999年”),而非单一的维成员时,就得到一个数据切块,它可以看成时有1990年~1999年10个切片叠合而成的。

  粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面这个问题的答案:如何描述事实表的单个行?

  站在市场中观察产品的销售情况,并记录下每个商店每种产品每天的的销售数量和销售额。在各维度值(日期,产品,商店)的交点处就可以得到一个度量值。

  一旦将业务处理确定下来,数据仓库团队下一个就面临关于粒度确定的颜色课题。

  原子型数据可为分析方面提供最大限度的灵活性,因为它可以接受任何可能形式的约束,并可以以任何可能的形式出现。

  选定多维数组的一个二维子集的操作叫做切片,即选定多维数组(维1,维2,......,维n,变量)中的两个维,如维i和维j,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i,维j,变量)

  切片就是在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。

  将业务设想成一个将分别标记为产品、市场与时间的数据立方体,显得比较直观。

  当超出边界条件时提醒分析员,如销售情况已超出定义阈值的上限或下限时提醒分析员。

  如果展示环节是建立在关系数据库的基础之上的,则这些按维度形式建立起来的表格被称做星型图。

  它必须通过机构的各种渠道收集得到并精心组织起来,必须经过整理,具有质量保证并且

  提供强大的计算和比较分析能力,例如:分级,比较,归类百分比,极大值,极小值,平均值,按时期的比较等。

  不过,只要选取较高层面的粒度就意味着将自己限制到更少或者细节性可能更小的维度上了。具有较少粒度性的模型容易直接遭到深入到细节内容的不可预见的用户请求的攻击。如果不让用户存取原子型数据,则他将不可避免地在分析方面撞上南墙。

  数据仓库总需要一个明确的维度表。有许多日期属性不能由SQL函数提供支持,这包括财务盘点,时令,节假日与周末等。与企图在查询中给定这些非标准日历运算的做法不同,而更应该在一个日期维度表中去检索它们。

  能够想象得出,沿各个维度方向对立方体进行切割所得到的结果:立方体中的点对应于一个产品、市场和时间组合的度量值。

  4.以不同的方式来表现数据,如以地区,或者每一地区内按不同销售渠道,不同产品等。

  与其它多数维度不一样,日期维度表可以事先建立。这样的表可存放以日期表示的5到10年的历史数据行。

  数据仓库必须维决策的定制提供正确的数据支持,数据仓库有且仅有一个正确的输出--由

  事实表的一行对应一个度量值,一个度量值就是事实表的一行。事实表的所有度量值必须有相同的粒度。

  维度表一般是很不规范化的,通常也非常小(少于所需数据存储总容量的10%)。

  设计过程的第四步同时也是最后一步,在于仔细确定哪些事实要在事实表中出现。粒度定义在这里再次成为考虑问题的支点。只是需要支出,事实对于粒度必须是真实的。

  如果建立在维度数据库或者在线分析处理(OLAP,Online Analystic Processing)技术基础之上,则数据就存储在立方体中。

  聚集概要性数据作为调整性能的一种手段起着非常重要的作用,但它绝对不能作为用户存取最底层面的细节内容的替代品。

  所有事实表有两个或者两个以上的外关键字,外关键字用于连接到维度表的主关键字。

  日期,月份,季度,年等不同层次来描述,那么日期,月份,季度,年等就是时间维的层次;同样城市,地区,国家等构成了地理维的层次。

  称这多个描述方面为维的层次。一个维往往具有多个层次,例如,描述时间维时,可以从

  定义一些条件,一旦条件满足,系统会提醒分析员去做分析,如每日报告完成或月定货完成后通知分析员作分析。

  建立的第一个维度模型应该是一个最有影响的模型--它应该对最紧迫的业务问题做出回答,并且对数据的抽取来说使容易访问的。

  在基本维度框架范围内,可能需要知道其他诸如针对某种产品的促销这样的维度是否可以分配数据。这个内容可表示为另外一个设计原则。

  应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息,这样的数据不能再做更进一步的细分。

  人们观察数据的某个特定角度(即某个维)还可以在细节程度不同的多个描述方面,我们

  维度模型中每个事实表都有一个符合关键字,反过来,具有一个复合关键字的表也是一个事实表。

  业务处理过程是机构中进行的一般都由源数据收集系统提供支持的自然业务活动。

  应该用一组在每个度量上下文中取单一值而代表了所有可能情况的丰富描述,将事实表装扮起来。如果对粒度方面的内容很清楚,那么维度的确定一般是非常容易的。通过维度的选定,可以列出那些使每个维度丰满起来的离散的文本属性。

  OLAP是一项给数据分析人员以灵活,可用和及时的方式构造、处理和表示综合数据的技术。

  日期维度是几乎每个数据中心都必须提供的一个维度,因为实际上,每个数据中心都是时间系列的。事实上,日期通常是数据进行潜在分类排序的首选维度,这样做的目的是,是按时间间隔连续加载的数据能够顺次放到磁盘上的空白存储区中。

  将事实描述成是可连续取值的主要目的在于,作为一个指南帮助设计者区分出相对于维度属性来说的事实的实质。

  维度模型与规范化模型之间存在着一种自然的关系。单个规范化ER图通常分解为多个维度方案。

  一个维成员并不一定在每个维层次上都要取值,例如,“某年某月”,“某月某日”,“某年”等等都是时间维的维成员。

  数据仓库总线的基础:所有数据中心必须采用共同的维度和事实来建造,即要求它们时一致的。

  5.要包含数据元素之间的复杂的计算,如在某一地区的每一销售渠道的期望利润与销售收入之间的分析。

  要针对一系列商店或者一个时间跨度分析某种产品的平均售价,就必须在用销售总量取除销售总额之前,将相关销售额与销售量加起来。虽然数据仓库市场方面的报表生成器或者查询工具都应该自动地正确完成这个功能,但是很遗憾,其中一部分工具仍旧布恩那个很圆满地做到这一点。

  以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,

  OLAP:一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,

  一个多维数组可以表示为:(维1,维2,......,维n,变量)。例如,若日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量“销售额”,就组成了一个多维数组(地区,时间,销售渠道),如果在此基础行再扩展一个产品维,就得到一个四维的结构,其多维数组维(产品,地区,时间,销售渠道,销售额)。

  数据仓库可查询展示环节的数据必须是维度的、原子的和依附数据仓库总线结构的。

  日期维度指称按日期进行粒度定义的维度表。这有助于对时期维度和每天的时间维度进行区分。

  必须避免在事实表中出现空关键字,在这方面显得比较合适的设计是在对应的维度表中包括一行来标识该维度对度量值的不可用。

  当考虑潜在的事实时,可能会再次发现,对早先的粒度设想或者维度选取做出调整是非常必要的。

  产品的销售,所以地理分布也是一个维(地理维)。其他还有如产品维,顾客维等。

  一旦事实表的粒度被选定,则时期、产品与商店方面的维度就应该随之被确定下来。

  ODS经常需要更新,并在某种意义上讲就是操作数据的复制集成,其更新频率与集成程度随特定要求而不同。无论如何,这里的“O”都可以看成是“操作”字眼的同义词。

  在大多数情况下,文本度量值可以是某种事物的描述并且取自某个离散列表的值。

  设计工作的第一步使,通过将对业务需求的理解与对可用数据的理解组合起来而确定

  一个经过仔细考虑的粒度定义确定了事实表的基本维度特征。同时,经常也可能向事实表的基本粒度加入更多的维度,而这些附加的维度会在基本维度的每个组合值方面自然地取得惟一的值。

  通过将注意力集中放在业务处理过程方面,而不是业务部门方面,就能在机构范围内更加经济地提交一致的数据。

  元数据指的是数据仓库环境中除去数据本身之外的所有信息,它是数据仓库的百科全书的同义词。

  维度建模相对以往那种着力构造简单而可理解的数据库的技术手段而言,是一个新名称。

  数据仓库的内容必定使容易理解的,数据对于业务人员也必定使直观的、明显的,而

  1.快速性(Fast)5秒内对用户的大部分分析要求做出反应,小于30秒内。

  例如,旋转可能包含了交换行和列,或是把某一行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)。

  维的一个取值称为该维的一个成员。如果一个维是多层次的,那么该维的维成员是有各个

  向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,而向上钻取是获取概括性的数据。

  支持分析模型的概念:分析模型是一组选中的维及维的元素,计算逻辑,公式,分析例程、聚集数据,概况数据、导出数据等。

  数据仓库几乎总是要求在每个维度可能得到的最低粒度上对数据进行表示的原因,并不是因为查询想看到每个底层面的行,而是因为查询希望以很精确的方式对细节知识进行抽取。

  导航并分析,它采用沿单个或多个维的轴以及交叉表等来进行细剖和统揽的方法。

  一个基于SQL的日期关键字在典型情况下是8字节的,因而事实表各行的每个日期关键字要浪费4个字节。

  如果附加的维度因为导致生产另外的事实行而违背了这个基本的粒度定义,那么必须对粒度定义进行修改以适应这个维度的情形。

  原子型数据是高度维结构化。事实度量值越细微并具有原子性,就越能够确切地知道更多的事情,所有那些确切知道的事情都转换为维度。在这点上,原子型数据可以说是维度方法的一个极佳匹配。

  可以总是结合业务处理定义较高层面的粒度,这种粒度表示最具有原子性的数据的聚集。

  维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维

  用尽可能多的描述属性对这个维度进行填充时,应特别小心。一组丰富而完整的维度属性会转化为丰富而完整的用户数据分析能力。

  上集中观察数据。人的空间想象能力有限,一般很难想象思维四维以上的空间结构。所以,对于维数较多的多维数据空间,数据切片市十分有意义的。

  对应一个数据项来说,维成员是该数据项在某维中位置的描述。例如,对一个销售数据来说,时间维的维成员“某年某月某日”就表示该销售数据是“某年某月某日”的销售数据,

 时时彩五星独胆单期 天津快乐十分 博发彩票 云南体彩网 王者彩票官网 吉祥彩票官网 U彩彩票平台 澳洲幸运10 澳洲幸运5平台 小米彩票平台