跳到主要内容

数据采集


数据采集是数据集成的起点,支持从多种数据源获取数据,为后续的数据处理和分析提供丰富的数据基础。 本模块提供三种标准化采集方式:数据库采集API采集文件采集,以满足不同业务场景下的数据接入需求。

功能入口

访问路径:我的应用 > 数据集成 > 数据采集

采集方式详解

数据库采集

支持从数据仓库或数据处理系统抽取结构化数据,提供两种采集模式。

  • 全量采集 用于首次获取数据源中的全部数据;
  • 增量采集 则仅获取自上次采集后发生变化的数据,仅同步上次采集后的增量数据,显著降低数据传输量并提升采集效率。

参数配置说明

类别选项功能描述
采集方式数据库采集/API采集/文件采集数据库采集:结构化数据批量抽取
API采集:基于RESTful接口实时数据获取
文件采集:文件批处理导入
源数据源数据仓库/数据处理指定数据抽取的源系统类型
目标数据源下拉选择支持数据仓库系统目标存储

API采集

通过标准化连接器配置实现:

  • 支持HTTP/HTTPS协议,兼容GET/POST/PUT/DELETE等请求方法
  • 可配置请求头、查询参数、请求体等交互要素
  • 提供响应数据解析与格式转换功能,确保数据标准化 适用于与外部平台、微服务等进行数据对接,实时获取动态数据。

文件采集

用户可将文件上传进行数据采集。

当前支持特性:

  • 文件格式:Excel(xlsx/xls)
  • 批量上传处理
  • 自动解析结构化数据

注:其他文件格式支持将在后续版本迭代中实现

运行日志

运行日志模块提供数据采集任务的完整执行监控与审计能力,支持用户实时追踪任务状态、分析执行效率并排查异常情况。

运行日志列表

  • 操作入口
    • 运行日志:跳转至详细执行报告

应用场景

  1. 任务监控:实时掌握采集任务执行状态
  2. 性能优化:通过耗时分析定位瓶颈环节
  3. 故障排查:快速定位数据丢失或异常原因
  4. 质量审计:验证数据采集的完整性与一致性

👇文档问题反馈