相数云数据建模,数据智能工作者的得力帮手

来源:原创      时间:2021-07-27

数据建模是数据平台的基石,是平台搭建过程中最最基础、也是最最重要的环节,为后续数据清洗(ETL)、开发数据报表等工作保驾护航。数据建模,需要在接入数据库后才能使用。该模型可以明确数据分析思路,运用适当的分析方法对数据的深层意义进行挖掘,可实现数据关联、分组汇总、追加合并和关系提取等功能。

在相数云2.0版本中,我们引入全新的“模型计算”功能,主要分为工具模型、数据建模、地理分析模型、行业领域模型、时空AI模型五个方向,从基础工具到机器学习全面覆盖,能够服务各式各样的场景需求。目前数据建模中,分组汇总和多表关联模型已经对企业版用户开放,我们今天为大家讲解这两个模型的使用方法。

首先,需要跟大家说明的是:

不同于地理分析模型和工具模型,在使用数据建模计算后,生成的新数据需要在“数据库”才能够查看并创建探索。

分组汇总是指对原始数据根据条件进行分组后,再对分组后的数据进行统计的分析操作。在相数云2.0中可以通过分组汇总模型中设置分组字段和汇总字段来实现。

需要注意的是:设置分组字段时,须选择展示数据性质、类别的字段;设置汇总字段时,须选择展示数据值大小的字段。

操作演示

我们以广东省全部高等院校教育资金投入情况(模拟数据)作为案例,数据中包含各高校的投入资金、详细地址、所属地市、区县等字段信息,计划用地市、区县作为分类字段,汇总全省各区县高校教育资金投入总额。

1.选择数据集所在的数据库。

2.将需要计算的数据集进行拖拽。完成拖拽后,下方将显示该数据集的全部字段信息。

3.将需要分组和汇总的字段分别拖拽到指定位置。

4.点击预览,检查无误后,输入表名,完成配置,开始计算。

6.查看计算后新生成的数据,得到各区县资金投入的统计情况。

当一个查询结果需要从两个或两个以上表中提取字段数据,此时需要使用的就是多表关联查询。相数云数据建模中的多表关联模型,可以在数据库内实现多表关联查询。

相数云目前支持的合并方式有三种:交集合并、左合并、右合并。其中交集合并是基于列的数据内合并(取交集);左合并是基于左关联数据集相关列的数据合并;右合并是基于右关联数据集相关列的数据合并。

操作演示

多表关联的操作方法与分组汇总相似,主要包含以下步骤:

1.在数据库信息选择需要关联数据集所在的数据库。

2.将相关联的两个数据集分别拖拽,选定数据集。

3.设置两个数据集需要展示的字段内容。

4.选择关联方式。

5.设置关联条件:选择两个数据集的公共字段,点击确定,可以预览数据。

6.输入表格名称,完成后置后进行计算。

我们在数据库中选择了2010年和2018年两份全国地市人口数据,将城区人口作为展示字段,使用交集合并,选择城市名称作为公共字段进行关联。

经过模型计算后,得到2010年到2018年全国城市城区人口的变化情况,方便后续探索。

以下是动态展示过程:

返回搜狐,查看更多

全部评论


登陆后方可参与评论