【读书笔记】《大数据之路》——维度设计总结（3）

弊端：存储浪费，比如某个维度每天的变化量占总体数据量很小比重，但每天仍要存一份这个维度的数据（可以设置好生命周期，清理历史数据）通过将一部分不稳定的属性从主维度中移出，并将它们放置到拥有自己代理键的新表中。Kimball维度建模理论中，必须使用代理键作为每个维表的主键。......

醪糟小丸子 · 2022-08-14 20:43:43 发布

Kimball维度建模理论中，必须使用代理键作为每个维表的主键。

不使用代理键处理缓慢变化维的方式：快照维表——每天保留一份全量快照数据

优点：

弊端：存储浪费，比如某个维度每天的变化量占总体数据量很小比重，但每天仍要存一份这个维度的数据（可以设置好生命周期，清理历史数据）

历史拉链存储：利用维度模型中缓慢变化维的第二种处理方式，通过新增两个时间戳字段，将所有以天为粒度的变更数据记录下来（分区字段也算）。对于不变的记录不重复存储

极限存储方式：

透明化：底层数据存成拉链式的，上层创建视图，（比如底层需要限制时间戳字段查询一些记录，封装起来，上层也就是下游用户查这些记录的时候只用限制全量数据表的分区即可）
分月做历史拉链表：每个月月初重新做历史拉链表。

极限存储的优势：

劣势：

通过将一部分不稳定的属性从主维度中移出，并将它们放置到拥有自己代理键的新表中。

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

YOLOv8【卷积创新篇·第25节】Capsule Network胶囊卷积网络：让检测器拥有“空间想象力”！

导师“放养”，真的会毁掉一个人吗？

查看更多评论

已为社区贡献6条内容