admin管理员组文章数量:1026989
数仓建模—数据模型的 10 个常见错误
1 将模式设计视为一次性项目
构建数据资产是一个持续的过程。随着您的分析需求随着时间的推移而变化,架构也必须进行调整。将数据建模视为一次性活动是不现实的。想想那些因为源系统之一的数据结构发生变化而不得不更改列名、数据类型,甚至重建整个表的情况。
以同样的方式,您可以构建一个完全适合特定时间用例的模式。但是,当数据持续增长或源系统发生变化(新的 ERP、CRM、PIM 系统)时,由于下游工作负载或性能优化的必要变化,设计工作仍将继续。
2 构建太大的表和 ETL 流程
想象一下,正在构建用于营销成本归因的数据管道。与其将其实现为一个巨大的 ETL 流程并生成一个表,不如采用一个初始流程,首先将来自不同渠道的所有原始(尚未归属)成本合并到一个中间表中。然后,该表可以由一些执行归因的下游流程使用。
从长远来看,拆分和解耦数据转换将使整个流程更易于构建、调试和维护。
此外,中间表对于对原始数据感兴趣的最终用户(在进行任何计算和转换之前)非常有价值。如果最终表中的某些内容看起来不合理,可以更深入地研究上一步中的数据,以调查发生的情况及其原因。
3 选择(并坚持&
数仓建模—数据模型的 10 个常见错误
1 将模式设计视为一次性项目
构建数据资产是一个持续的过程。随着您的分析需求随着时间的推移而变化,架构也必须进行调整。将数据建模视为一次性活动是不现实的。想想那些因为源系统之一的数据结构发生变化而不得不更改列名、数据类型,甚至重建整个表的情况。
以同样的方式,您可以构建一个完全适合特定时间用例的模式。但是,当数据持续增长或源系统发生变化(新的 ERP、CRM、PIM 系统)时,由于下游工作负载或性能优化的必要变化,设计工作仍将继续。
2 构建太大的表和 ETL 流程
想象一下,正在构建用于营销成本归因的数据管道。与其将其实现为一个巨大的 ETL 流程并生成一个表,不如采用一个初始流程,首先将来自不同渠道的所有原始(尚未归属)成本合并到一个中间表中。然后,该表可以由一些执行归因的下游流程使用。
从长远来看,拆分和解耦数据转换将使整个流程更易于构建、调试和维护。
此外,中间表对于对原始数据感兴趣的最终用户(在进行任何计算和转换之前)非常有价值。如果最终表中的某些内容看起来不合理,可以更深入地研究上一步中的数据,以调查发生的情况及其原因。
3 选择(并坚持&
版权声明:本文标题:数仓建模—数据模型的 10 个常见错误 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1727394662a739793.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论