Files
------------/26-数据中台-模块规划.md
2026-03-31 01:22:34 +00:00

221 lines
12 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 数据中台 模块规划
---
## 1. 模块定位
数据中台是整个医养平台的**数据资产管理与智能分析体系**,负责汇聚全平台各业务系统产生的数据(结构化/半结构化/非结构化通过数据湖、数据仓库、主题库和专题库的分层架构为运营决策、AI模型训练、政府监管上报和区域医养事业评估提供高质量数据支撑。
数据中台不直接面向业务用户,而是作为**数据资产的统一管理层**对上层消费系统运营管理、AI服务、政府监管提供标准化数据服务。
---
## 2. 建设目标
1. 构建医养数据湖,统一汇聚全平台数据资产
2. 建立 ODS → 基准层 → 主题层 → 专题层的分层数仓体系
3. 建立数据治理平台(数据质量/数据血缘/数据目录)
4. 构建医疗知识图谱ICD-10/SNOMED CT/中医知识体系)
5. 构建 AI 大模型训练数据管理平台DeepSeek 垂直微调数据集管理)
6. 提供标准化的数据服务API报表查询/指标计算/数据导出)
---
## 3. 核心功能范围
### 3.1 一级模块
1. 数据湖基座
2. 数据仓库(分层体系)
3. 数据治理平台
4. 医疗知识图谱
5. AI大模型训练数据管理
6. 数据服务与API
### 3.2 二级功能清单
**数据湖基座**
- 全平台数据接入数据库CDC/Kafka流/文件上传)
- 多源异构数据统一存储(结构化表/JSON/文件/时序数据)
- 数据分区策略(按时间/机构/数据类型分区)
- 数据访问权限管理(列级/行级权限)
- 数据生命周期管理(冷热分层/自动归档)
**数据仓库分层体系**
- ODS层贴源层从各业务系统实时/批量同步原始数据
- 基准层DWD数据清洗/标准化/维度建模
- 主题层DWS老人域/机构域/服务域/健康域等主题宽表
- 专题层ADS运营指标/监管上报/AI训练集等面向具体场景的专题表
**数据治理平台**
- 数据目录(元数据管理,数据资产全景地图)
- 数据血缘(字段级来源追踪)
- 数据质量规则配置(完整性/一致性/时效性监控)
- 数据标准(统一字段命名、枚举值、编码规范)
- 数据问题工单(数据质量问题发现→修复→关闭闭环)
**医疗知识图谱**
- ICD-10疾病分类体系国家标准10000+节点)
- SNOMED CT 国际医学术语(⚠️ 待确认授权)
- 药品知识图谱(药品-适应症-禁忌-相互作用-价格)
- 中医知识体系(证候-方剂-药材-经络关系)
- 护理规范知识库(养老护理操作规范、评估量表)
- 知识图谱查询API供AI服务22号调用
**AI大模型训练数据管理**
- 标注任务管理(标注人员分配/质检/审核)
- 训练数据集版本管理(数据集切割/版本记录)
- 数据脱敏工具(患者隐私字段自动脱敏)
- 训练数据质量评估(标注一致性、数据分布分析)
- 与AI服务22号训练管道对接
**数据服务与API**
- 统一查询API支持SQL/REST两种接口
- 指标计算服务(平台关键指标实时/离线计算)
- 监管报表生成对接01号政府监管系统的数据上报
- 数据导出服务Excel/CSV/JSON格式导出审批
- 数据订阅推送(增量数据变化推送给订阅系统)
### 3.3 数据分层模型
```
┌─────────────────────────────────────────────────────────┐
│ 专题层ADS │ 运营看板 │ 监管上报 │ AI训练集 │ 选题分析 │
├─────────────────────────────────────────────────────────┤
│ 主题层DWS │ 老人主题 │ 机构主题 │ 服务主题 │ 健康主题 │
├─────────────────────────────────────────────────────────┤
│ 基准层DWD │ 清洗/标准化/维度建模(数据规范化处理) │
├─────────────────────────────────────────────────────────┤
│ 同步层ODS │ 全平台27个业务系统原始数据实时/批量同步 │
├─────────────────────────────────────────────────────────┤
│ 数据湖 │ 结构化+半结构化+非结构化数据统一存储 │
└─────────────────────────────────────────────────────────┘
```
---
## 4. 与现有 mall 的关系
**契合度D不适配**
| 能力需求 | mall 现状 | 结论 |
| ----------------------------- | --------- | ---------- |
| 数据湖架构Hadoop/对象存储) | 无 | 须独立建设 |
| 分层数仓ODS/DWD/DWS/ADS | 无 | 须独立建设 |
| 数据治理平台 | 无 | 须独立建设 |
| 医疗知识图谱 | 无 | 须独立建设 |
| AI训练数据管理 | 无 | 须独立建设 |
| OLAP分析引擎 | 无 | 须独立建设 |
mall 是通用电商平台不具备任何大数据处理和数据治理能力强行堆入会导致维护灾难OLTP与OLAP完全不同的技术栈和运维要求
---
## 5. 规划判断
**独立建设(大数据平台架构)**
云原生路线(推荐云部署,降低运维难度):
- **数据湖存储**阿里云OSS / 腾讯云COS对象存储
- **实时数据接入**Apache KafkaCDC流数据
- **批量数据同步**DataX / SeaTunnel从各业务系统导入
- **计算引擎**Apache Spark批计算+ Apache Flink流计算
- **数据仓库**ClickHouseOLAP分析或阿里云MaxCompute云数仓
- **数据治理**Apache Atlas / 自研
- **知识图谱**Neo4j图数据库
- **调度**Apache DolphinScheduler数据任务调度
- **可视化**Superset / 自研(数据探索)
---
## 6. 需新增业务能力
1. **数据标准体系**:统一全平台的字段命名规范、枚举值标准、编码规范
2. **医疗数据脱敏工具**:批量脱敏(姓名/身份证/手机号/病历关键信息)
3. **数据访问审批流程**:敏感数据(健康档案/医疗记录)的访问申请与审批
4. **数据质量监控**:每日自动检测数据完整性、一致性,异常自动告警
5. **监管数据上报格式**:按照民政/卫健委数据上报标准生成上报文件(⚠️ 待确认各地标准)
---
## 7. 需新增数据模型(数据治理侧)
| 模型 | 关键字段 |
| --------------------- | ----------------------------------------------------------------------------------------------- |
| `data_catalog` | id, table_name, layer(ods/dwd/dws/ads), description, owner, sensitivity_level, update_frequency |
| `data_lineage` | id, source_table, source_column, target_table, target_column, transform_logic, created_at |
| `data_quality_rule` | id, table_name, rule_type, rule_config(JSONB), alert_threshold, is_active |
| `data_quality_result` | id, rule_id, check_date, total_count, fail_count, fail_rate, status |
| `knowledge_node` | id, graph_type(icd10/drug/cm), code, name, properties(JSONB), created_at |
| `knowledge_relation` | id, source_node_id, target_node_id, relation_type, weight, source_doc |
| `dataset_version` | id, name, purpose(ai_train/report/export), snapshot_date, record_count, status, is_desensitized |
---
## 8. 需新增技术栈 / 第三方能力 / 中间件
| 类别 | 技术选型 | 用途 |
| ---------- | ----------------------- | ---------------------- |
| 数据湖存储 | 阿里云OSS / 腾讯云COS | 原始数据湖存储 |
| 数据同步 | DataX / SeaTunnel | 业务系统→数仓增量同步 |
| 流处理 | Apache Flink | 实时数据流处理与聚合 |
| 批处理 | Apache Spark | 大规模批计算任务 |
| OLAP引擎 | ClickHouse | 高性能分析查询 |
| 图数据库 | Neo4j | 医疗知识图谱存储与查询 |
| 任务调度 | Apache DolphinScheduler | 数据任务的DAG调度 |
| 数据治理 | Apache Atlas | 元数据管理与血缘追踪 |
| 数据可视化 | Apache Superset | 数据探索与自助分析 |
---
## 9. 外部系统对接关系
| 对接系统 | 方向 | 内容 |
| -------------------- | --------------------- | -------------------------------- |
| 全部27个业务系统 | 数据流入 | 业务数据同步到ODS层 |
| 政府监管系统01 | 数据流出 | 上报标准格式数据文件 |
| AI服务22 | 双向 | 知识图谱API供应 + 训练数据集供应 |
| 运营管理24 | 数据流出 | 经营分析指标供应 |
| ClickHouse分析库 | 数据流出 | ADS层面向分析的宽表 |
| SNOMED CT授权方 | 数据引入(⚠️ 待确认) | 国际医学术语授权 |
---
## 10. 风险与边界
| 风险 | 说明 | 应对 |
| -------------------------------- | ---------------------------------------------- | ---------------------------------------------------------- |
| 建设周期长 | 大数据平台建设周期往往在6-12个月以上 | P2优先级待核心业务系统稳定后再建 |
| 运维复杂度 | Kafka/Spark/Flink/ClickHouse等技术栈运维门槛高 | 优先选用云托管服务如阿里云DataWorks降低运维成本 |
| 数据隐私合规 | 医疗数据属于敏感个人信息PIPL/等保三级) | 数据分类分级 + 脱敏 + 访问审批 + 等保合规 |
| 数据标准不统一 | 各业务系统字段定义不统一,数据清洗工作量大 | 在业务中台25建立统一数据标准从源头控制数据质量 |
| 知识图谱授权 | SNOMED CT商业授权费用较高 | 先用ICD-10国标免费+自建医养知识图谱后续评估SNOMED CT |
| 边界:数据中台只做数据,不做业务 | 避免将业务逻辑放到数仓中实现 | 严格区分数据层和应用层的职责边界 |
---
## 11. 实施优先级与分期建议
**优先级P2**
| 分期 | 内容 | 前置条件 |
| ------ | ------------------------------------------- | ------------------------------- |
| 第一期 | ODS同步 + ClickHouse + 运营基础报表 | P0/P1业务系统产生足够数据后启动 |
| 第二期 | 数据治理 + 主题层建模 + 知识图谱ICD-10 | 数仓稳定运行3-6个月后启动 |
| 第三期 | AI训练数据管理 + SNOMED CT + 全链路数据血缘 | AI服务22建设期间同步 |
---
## 12. 结论
数据中台是医养平台的**数据智慧层**mall 完全不具备大数据处理和数据治理能力,**必须独立建设**。
建议初期不追求完整的大数据平台,而是以"ClickHouse + 基础运营报表 + 数据同步"为MVP在各业务系统积累足够数据后再逐步完善数仓分层和数据治理体系。优先使用云托管大数据服务降低运维负担待数据量规模化后再评估自建集群的必要性。