ETL功能介绍(筛选、连接、汇总、合并)
ETL属于数据集成的增强能力,ETL代表Extract(提取)、Transform(转换)、Load(加载),它涵盖了将数据从一个数据源提取出来,经过各种处理和转换,最后加载到另一个数据源的全过程。在数据集成中,除来源和目的地节点外,我们还提供了四个功能性节点,下面将对其进行详细介绍。

-
数据源
此节点用于配置读取数据,在一个同步任务中可以包含多个数据来源节点,例如在多表连接、数据合并节点中。
-
数据目的地
此节点用于配置写入数据,每个同步任务中只能存在一个数据目的地节点。
筛选过滤
使用该节点后,系统将在数据同步过程中对数据进行过滤,之同步过滤后的数据。任意节点之间均可添加「筛选过滤」节点,筛选条件可以为多个条件或条件组。
添加筛选过滤节点

配置筛选条件

多表连接
使用该节点后,可提供异构数据库之间的多表连接能力,同时支持HAP和外部数据库之间的连接。在查询中将多个表按照一定条件关联起来,从而获取更完整的数据集。
多表连接可以有效解决企业各业务系统之间数据不互通、缺乏关联性的问题,使数据成为真正有价值的资源。
-
更全面的数据:多表连接允许将分散的数据整合在一起,形成更完整、更全面的数据集,以提供更丰富、更详细的数据信息。
-
多维度的数据:通过将多个表关联起来设置不同关联关系,可以从不同维度和角度对数据进行深入分析。
使用步骤
1. 点击任意数据同步任务进入画布,鼠标停留在两个节点之间点击「+」添加“多表连接”节点

2. 添加后,会出现两个节点,读取数据源 和 多表连接
-
读取数据源:用于选择需要连接的数据源,可以是工作表也可以是外部数据库
-
多表连接:用于配置连接方式、连接条件

应用名称、表名称和字段名称中若包含特殊字符,不能选择或数据同步失败。 不允许包含的特殊字符有:
'~!@#$%^&*()-+=<>?:"|,./;'[]·!¥…()—《》?:“”【】、;‘,。『』「」,此外,还不允许包含空格。
3. 配置多表连接
需要先选择数据源,选择后回到多表连接节点配置相应的连接条件

4. 如果需要连接更多的表,还可以在多表连接后增加新的“多表连接”节点

三种连接方式
-
内连接: 左右互查,只合并命中条目
内连接是一种 一 一映射关系,两张表都有的才能显示出来。

-
左连接: 左查右,合并全部
左连接是左边表的所有数据都有显示出来,右边的表数据只显示共同有的那部分,没有对应的部分显示为NULL。

-
右连接: 右查左,合并全部
和左连接相反
