删除 26-数据中台-模块规划.md

2026-03-31 01:35:29 +00:00
parent d5d8cb6077
commit 9dc4de2d91
1 changed files with 0 additions and 220 deletions
--- a/26-数据中台-模块规划.md
+++ b/26-数据中台-模块规划.md
@@ -1,220 +0,0 @@
-# 数据中台 模块规划
-
---
-
-## 1. 模块定位
-
-数据中台是整个医养平台的**数据资产管理与智能分析体系**，负责汇聚全平台各业务系统产生的数据（结构化/半结构化/非结构化），通过数据湖、数据仓库、主题库和专题库的分层架构，为运营决策、AI模型训练、政府监管上报和区域医养事业评估提供高质量数据支撑。
-
-数据中台不直接面向业务用户，而是作为**数据资产的统一管理层**，对上层消费系统（运营管理、AI服务、政府监管）提供标准化数据服务。
-
---
-
-## 2. 建设目标
-
-1. 构建医养数据湖，统一汇聚全平台数据资产
-2. 建立 ODS → 基准层 → 主题层 → 专题层的分层数仓体系
-3. 建立数据治理平台（数据质量/数据血缘/数据目录）
-4. 构建医疗知识图谱（ICD-10/SNOMED CT/中医知识体系）
-5. 构建 AI 大模型训练数据管理平台（DeepSeek 垂直微调数据集管理）
-6. 提供标准化的数据服务API（报表查询/指标计算/数据导出）
-
---
-
-## 3. 核心功能范围
-
-### 3.1 一级模块
-
-1. 数据湖基座
-2. 数据仓库（分层体系）
-3. 数据治理平台
-4. 医疗知识图谱
-5. AI大模型训练数据管理
-6. 数据服务与API
-
-### 3.2 二级功能清单
-
-**数据湖基座**：
-
- 全平台数据接入（数据库CDC/Kafka流/文件上传）
- 多源异构数据统一存储（结构化表/JSON/文件/时序数据）
- 数据分区策略（按时间/机构/数据类型分区）
- 数据访问权限管理（列级/行级权限）
- 数据生命周期管理（冷热分层/自动归档）
-
-**数据仓库分层体系**：
-
- ODS层（贴源层）：从各业务系统实时/批量同步原始数据
- 基准层（DWD）：数据清洗/标准化/维度建模
- 主题层（DWS）：老人域/机构域/服务域/健康域等主题宽表
- 专题层（ADS）：运营指标/监管上报/AI训练集等面向具体场景的专题表
-
-**数据治理平台**：
-
- 数据目录（元数据管理，数据资产全景地图）
- 数据血缘（字段级来源追踪）
- 数据质量规则配置（完整性/一致性/时效性监控）
- 数据标准（统一字段命名、枚举值、编码规范）
- 数据问题工单（数据质量问题发现→修复→关闭闭环）
-
-**医疗知识图谱**：
-
- ICD-10疾病分类体系（国家标准10000+节点）
- SNOMED CT 国际医学术语（⚠️ 待确认授权）
- 药品知识图谱（药品-适应症-禁忌-相互作用-价格）
- 中医知识体系（证候-方剂-药材-经络关系）
- 护理规范知识库（养老护理操作规范、评估量表）
- 知识图谱查询API（供AI服务22号调用）
-
-**AI大模型训练数据管理**：
-
- 标注任务管理（标注人员分配/质检/审核）
- 训练数据集版本管理（数据集切割/版本记录）
- 数据脱敏工具（患者隐私字段自动脱敏）
- 训练数据质量评估（标注一致性、数据分布分析）
- 与AI服务（22号）训练管道对接
-
-**数据服务与API**：
-
- 统一查询API（支持SQL/REST两种接口）
- 指标计算服务（平台关键指标实时/离线计算）
- 监管报表生成（对接01号政府监管系统的数据上报）
- 数据导出服务（Excel/CSV/JSON格式导出审批）
- 数据订阅推送（增量数据变化推送给订阅系统）
-
-### 3.3 数据分层模型
-
-```
-┌─────────────────────────────────────────────────────────┐
-│  专题层ADS  │  运营看板  │  监管上报  │  AI训练集  │  选题分析  │
-├─────────────────────────────────────────────────────────┤
-│  主题层DWS  │  老人主题  │  机构主题  │  服务主题  │  健康主题  │
-├─────────────────────────────────────────────────────────┤
-│  基准层DWD  │  清洗/标准化/维度建模（数据规范化处理）         │
-├─────────────────────────────────────────────────────────┤
-│  同步层ODS  │  全平台27个业务系统原始数据实时/批量同步         │
-├─────────────────────────────────────────────────────────┤
-│  数据湖     │  结构化+半结构化+非结构化数据统一存储            │
-└─────────────────────────────────────────────────────────┘
-```
-
---
-
-## 4. 与现有 mall 的关系
-
-**契合度：D（不适配）**
-
-| 能力需求                      | mall 现状 | 结论       |
-| ----------------------------- | --------- | ---------- |
-| 数据湖架构（Hadoop/对象存储） | 无        | 须独立建设 |
-| 分层数仓（ODS/DWD/DWS/ADS）   | 无        | 须独立建设 |
-| 数据治理平台                  | 无        | 须独立建设 |
-| 医疗知识图谱                  | 无        | 须独立建设 |
-| AI训练数据管理                | 无        | 须独立建设 |
-| OLAP分析引擎                  | 无        | 须独立建设 |
-
-mall 是通用电商平台，不具备任何大数据处理和数据治理能力，强行堆入会导致维护灾难（OLTP与OLAP完全不同的技术栈和运维要求）。
-
---
-
-## 5. 规划判断
-
-**独立建设（大数据平台架构）**
-
-云原生路线（推荐云部署，降低运维难度）：
-
- **数据湖存储**：阿里云OSS / 腾讯云COS（对象存储）
- **实时数据接入**：Apache Kafka（CDC流数据）
- **批量数据同步**：DataX / SeaTunnel（从各业务系统导入）
- **计算引擎**：Apache Spark（批计算）+ Apache Flink（流计算）
- **数据仓库**：ClickHouse（OLAP分析）或阿里云MaxCompute（云数仓）
- **数据治理**：Apache Atlas / 自研
- **知识图谱**：Neo4j（图数据库）
- **调度**：Apache DolphinScheduler（数据任务调度）
- **可视化**：Superset / 自研（数据探索）
-
---
-
-## 6. 需新增业务能力
-
-1. **数据标准体系**：统一全平台的字段命名规范、枚举值标准、编码规范
-2. **医疗数据脱敏工具**：批量脱敏（姓名/身份证/手机号/病历关键信息）
-3. **数据访问审批流程**：敏感数据（健康档案/医疗记录）的访问申请与审批
-4. **数据质量监控**：每日自动检测数据完整性、一致性，异常自动告警
-5. **监管数据上报格式**：按照民政/卫健委数据上报标准生成上报文件（⚠️ 待确认各地标准）
-
---
-
-## 7. 需新增数据模型（数据治理侧）
-
-| 模型                  | 关键字段                                                                                        |
-| --------------------- | ----------------------------------------------------------------------------------------------- |
-| `data_catalog`        | id, table_name, layer(ods/dwd/dws/ads), description, owner, sensitivity_level, update_frequency |
-| `data_lineage`        | id, source_table, source_column, target_table, target_column, transform_logic, created_at       |
-| `data_quality_rule`   | id, table_name, rule_type, rule_config(JSONB), alert_threshold, is_active                       |
-| `data_quality_result` | id, rule_id, check_date, total_count, fail_count, fail_rate, status                             |
-| `knowledge_node`      | id, graph_type(icd10/drug/cm), code, name, properties(JSONB), created_at                        |
-| `knowledge_relation`  | id, source_node_id, target_node_id, relation_type, weight, source_doc                           |
-| `dataset_version`     | id, name, purpose(ai_train/report/export), snapshot_date, record_count, status, is_desensitized |
-
---
-
-## 8. 需新增技术栈 / 第三方能力 / 中间件
-
-| 类别       | 技术选型                | 用途                   |
-| ---------- | ----------------------- | ---------------------- |
-| 数据湖存储 | 阿里云OSS / 腾讯云COS   | 原始数据湖存储         |
-| 数据同步   | DataX / SeaTunnel       | 业务系统→数仓增量同步  |
-| 流处理     | Apache Flink            | 实时数据流处理与聚合   |
-| 批处理     | Apache Spark            | 大规模批计算任务       |
-| OLAP引擎   | ClickHouse              | 高性能分析查询         |
-| 图数据库   | Neo4j                   | 医疗知识图谱存储与查询 |
-| 任务调度   | Apache DolphinScheduler | 数据任务的DAG调度      |
-| 数据治理   | Apache Atlas            | 元数据管理与血缘追踪   |
-| 数据可视化 | Apache Superset         | 数据探索与自助分析     |
-
---
-
-## 9. 外部系统对接关系
-
-| 对接系统             | 方向                  | 内容                             |
-| -------------------- | --------------------- | -------------------------------- |
-| 全部27个业务系统     | 数据流入              | 业务数据同步到ODS层              |
-| 政府监管系统（01）   | 数据流出              | 上报标准格式数据文件             |
-| AI服务（22）         | 双向                  | 知识图谱API供应 + 训练数据集供应 |
-| 运营管理（24）       | 数据流出              | 经营分析指标供应                 |
-| ClickHouse（分析库） | 数据流出              | ADS层面向分析的宽表              |
-| SNOMED CT授权方      | 数据引入（⚠️ 待确认） | 国际医学术语授权                 |
-
---
-
-## 10. 风险与边界
-
-| 风险                             | 说明                                           | 应对                                                       |
-| -------------------------------- | ---------------------------------------------- | ---------------------------------------------------------- |
-| 建设周期长                       | 大数据平台建设周期往往在6-12个月以上           | P2优先级，待核心业务系统稳定后再建                         |
-| 运维复杂度                       | Kafka/Spark/Flink/ClickHouse等技术栈运维门槛高 | 优先选用云托管服务（如阿里云DataWorks）降低运维成本        |
-| 数据隐私合规                     | 医疗数据属于敏感个人信息（PIPL/等保三级）      | 数据分类分级 + 脱敏 + 访问审批 + 等保合规                  |
-| 数据标准不统一                   | 各业务系统字段定义不统一，数据清洗工作量大     | 在业务中台（25）建立统一数据标准，从源头控制数据质量       |
-| 知识图谱授权                     | SNOMED CT商业授权费用较高                      | 先用ICD-10（国标免费）+自建医养知识图谱，后续评估SNOMED CT |
-| 边界：数据中台只做数据，不做业务 | 避免将业务逻辑放到数仓中实现                   | 严格区分数据层和应用层的职责边界                           |
-
---
-
-## 11. 实施优先级与分期建议
-
-**优先级：P2**
-
-| 分期   | 内容                                        | 前置条件                        |
-| ------ | ------------------------------------------- | ------------------------------- |
-| 第一期 | ODS同步 + ClickHouse + 运营基础报表         | P0/P1业务系统产生足够数据后启动 |
-| 第二期 | 数据治理 + 主题层建模 + 知识图谱（ICD-10）  | 数仓稳定运行3-6个月后启动       |
-| 第三期 | AI训练数据管理 + SNOMED CT + 全链路数据血缘 | AI服务（22）建设期间同步        |
-
---
-
-## 12. 结论
-
-数据中台是医养平台的**数据智慧层**，mall 完全不具备大数据处理和数据治理能力，**必须独立建设**。
-
-建议初期不追求完整的大数据平台，而是以"ClickHouse + 基础运营报表 + 数据同步"为MVP，在各业务系统积累足够数据后再逐步完善数仓分层和数据治理体系。优先使用云托管大数据服务降低运维负担，待数据量规模化后再评估自建集群的必要性。