数据采集
数据采集是数据集成的起点,支持从多种数据源获取数据,为后续的数据处理和分析提供丰富的数据基础。 本模块提供三种标准化采集方式:数据库采集、API采集和文件采集,以满足不同业 务场景下的数据接入需求。
功能入口
访问路径:我的应用 > 数据集成 > 数据采集
采集方式详解
数据库采集
支持从数据仓库或数据处理系统抽取结构化数据,提供两种采集模式。
- 全量采集 用于首次获取数据源中的全部数据;
- 增量采集 则仅获取自上次采集后发生变化的数据,仅同步上次采集后的增量数据,显著降低数据传输量并提升采集效率。
参数配置说明
类别 | 选项 | 功能描述 |
---|---|---|
采集方式 | 数据库采集/API采集/ 文件采集 | 数据库采集:结构化数据批量抽取 API采集:基于RESTful接口实时数据获取 文件采集:文件批处理导入 |
源数据源 | 数据仓库/数据处理 | 指定数据抽取的源系统类型 |
目标数据源 | 下拉选择 | 支持数据仓库系统目标存储 |
API采集
通过标准化连接器配置实现:
- 支持HTTP/HTTPS协议,兼容GET/POST/PUT/DELETE等请求方法
- 可配置请求头、查询参数、请求体等交互要素
- 提供响应数据解析与格式转换功能,确保数据标准化 适用于与外部平台、微服务等进行数据对接,实时获取动态数据。
文件采集
用户可将文件上传进行数据采集。
当前支持特性:
- 文件格式:Excel(xlsx/xls)
- 批量上传处理
- 自动解析结构化数据
注:其他文件格式支持将在后续版本迭代中实现
运行日志
运行日志模块提供数据采集 任务的完整执行监控与审计能力,支持用户实时追踪任务状态、分析执行效率并排查异常情况。
运行日志列表
- 操作入口:
- 运行日志:跳转至详细执行报告
应用场景
- 任务监控:实时掌握采集任务执行状态
- 性能优化:通过耗时分析定位瓶颈环节
- 故障排查:快速定位数据丢失或异常原因
- 质量审计:验证数据采集的完整性与一致性
👇文档问题反馈
- 文档中是否有错别字、内容过期、难以理解等问题?点此反馈给我们