Files
medical-mall/docs/module-Planning/26-数据中台-模块规划.md

12 KiB
Raw Permalink Blame History

数据中台 模块规划


1. 模块定位

数据中台是整个医养平台的数据资产管理与智能分析体系,负责汇聚全平台各业务系统产生的数据(结构化/半结构化/非结构化通过数据湖、数据仓库、主题库和专题库的分层架构为运营决策、AI模型训练、政府监管上报和区域医养事业评估提供高质量数据支撑。

数据中台不直接面向业务用户,而是作为数据资产的统一管理层对上层消费系统运营管理、AI服务、政府监管提供标准化数据服务。


2. 建设目标

  1. 构建医养数据湖,统一汇聚全平台数据资产
  2. 建立 ODS → 基准层 → 主题层 → 专题层的分层数仓体系
  3. 建立数据治理平台(数据质量/数据血缘/数据目录)
  4. 构建医疗知识图谱ICD-10/SNOMED CT/中医知识体系)
  5. 构建 AI 大模型训练数据管理平台DeepSeek 垂直微调数据集管理)
  6. 提供标准化的数据服务API报表查询/指标计算/数据导出)

3. 核心功能范围

3.1 一级模块

  1. 数据湖基座
  2. 数据仓库(分层体系)
  3. 数据治理平台
  4. 医疗知识图谱
  5. AI大模型训练数据管理
  6. 数据服务与API

3.2 二级功能清单

数据湖基座

  • 全平台数据接入数据库CDC/Kafka流/文件上传)
  • 多源异构数据统一存储(结构化表/JSON/文件/时序数据)
  • 数据分区策略(按时间/机构/数据类型分区)
  • 数据访问权限管理(列级/行级权限)
  • 数据生命周期管理(冷热分层/自动归档)

数据仓库分层体系

  • ODS层贴源层从各业务系统实时/批量同步原始数据
  • 基准层DWD数据清洗/标准化/维度建模
  • 主题层DWS老人域/机构域/服务域/健康域等主题宽表
  • 专题层ADS运营指标/监管上报/AI训练集等面向具体场景的专题表

数据治理平台

  • 数据目录(元数据管理,数据资产全景地图)
  • 数据血缘(字段级来源追踪)
  • 数据质量规则配置(完整性/一致性/时效性监控)
  • 数据标准(统一字段命名、枚举值、编码规范)
  • 数据问题工单(数据质量问题发现→修复→关闭闭环)

医疗知识图谱

  • ICD-10疾病分类体系国家标准10000+节点)
  • SNOMED CT 国际医学术语(⚠️ 待确认授权)
  • 药品知识图谱(药品-适应症-禁忌-相互作用-价格)
  • 中医知识体系(证候-方剂-药材-经络关系)
  • 护理规范知识库(养老护理操作规范、评估量表)
  • 知识图谱查询API供AI服务22号调用

AI大模型训练数据管理

  • 标注任务管理(标注人员分配/质检/审核)
  • 训练数据集版本管理(数据集切割/版本记录)
  • 数据脱敏工具(患者隐私字段自动脱敏)
  • 训练数据质量评估(标注一致性、数据分布分析)
  • 与AI服务22号训练管道对接

数据服务与API

  • 统一查询API支持SQL/REST两种接口
  • 指标计算服务(平台关键指标实时/离线计算)
  • 监管报表生成对接01号政府监管系统的数据上报
  • 数据导出服务Excel/CSV/JSON格式导出审批
  • 数据订阅推送(增量数据变化推送给订阅系统)

3.3 数据分层模型

┌─────────────────────────────────────────────────────────┐
│  专题层ADS  │  运营看板  │  监管上报  │  AI训练集  │  选题分析  │
├─────────────────────────────────────────────────────────┤
│  主题层DWS  │  老人主题  │  机构主题  │  服务主题  │  健康主题  │
├─────────────────────────────────────────────────────────┤
│  基准层DWD  │  清洗/标准化/维度建模(数据规范化处理)         │
├─────────────────────────────────────────────────────────┤
│  同步层ODS  │  全平台27个业务系统原始数据实时/批量同步         │
├─────────────────────────────────────────────────────────┤
│  数据湖     │  结构化+半结构化+非结构化数据统一存储            │
└─────────────────────────────────────────────────────────┘

4. 与现有 mall 的关系

契合度D不适配

能力需求 mall 现状 结论
数据湖架构Hadoop/对象存储) 须独立建设
分层数仓ODS/DWD/DWS/ADS 须独立建设
数据治理平台 须独立建设
医疗知识图谱 须独立建设
AI训练数据管理 须独立建设
OLAP分析引擎 须独立建设

mall 是通用电商平台不具备任何大数据处理和数据治理能力强行堆入会导致维护灾难OLTP与OLAP完全不同的技术栈和运维要求


5. 规划判断

独立建设(大数据平台架构)

云原生路线(推荐云部署,降低运维难度):

  • 数据湖存储阿里云OSS / 腾讯云COS对象存储
  • 实时数据接入Apache KafkaCDC流数据
  • 批量数据同步DataX / SeaTunnel从各业务系统导入
  • 计算引擎Apache Spark批计算+ Apache Flink流计算
  • 数据仓库ClickHouseOLAP分析或阿里云MaxCompute云数仓
  • 数据治理Apache Atlas / 自研
  • 知识图谱Neo4j图数据库
  • 调度Apache DolphinScheduler数据任务调度
  • 可视化Superset / 自研(数据探索)

6. 需新增业务能力

  1. 数据标准体系:统一全平台的字段命名规范、枚举值标准、编码规范
  2. 医疗数据脱敏工具:批量脱敏(姓名/身份证/手机号/病历关键信息)
  3. 数据访问审批流程:敏感数据(健康档案/医疗记录)的访问申请与审批
  4. 数据质量监控:每日自动检测数据完整性、一致性,异常自动告警
  5. 监管数据上报格式:按照民政/卫健委数据上报标准生成上报文件(⚠️ 待确认各地标准)

7. 需新增数据模型(数据治理侧)

模型 关键字段
data_catalog id, table_name, layer(ods/dwd/dws/ads), description, owner, sensitivity_level, update_frequency
data_lineage id, source_table, source_column, target_table, target_column, transform_logic, created_at
data_quality_rule id, table_name, rule_type, rule_config(JSONB), alert_threshold, is_active
data_quality_result id, rule_id, check_date, total_count, fail_count, fail_rate, status
knowledge_node id, graph_type(icd10/drug/cm), code, name, properties(JSONB), created_at
knowledge_relation id, source_node_id, target_node_id, relation_type, weight, source_doc
dataset_version id, name, purpose(ai_train/report/export), snapshot_date, record_count, status, is_desensitized

8. 需新增技术栈 / 第三方能力 / 中间件

类别 技术选型 用途
数据湖存储 阿里云OSS / 腾讯云COS 原始数据湖存储
数据同步 DataX / SeaTunnel 业务系统→数仓增量同步
流处理 Apache Flink 实时数据流处理与聚合
批处理 Apache Spark 大规模批计算任务
OLAP引擎 ClickHouse 高性能分析查询
图数据库 Neo4j 医疗知识图谱存储与查询
任务调度 Apache DolphinScheduler 数据任务的DAG调度
数据治理 Apache Atlas 元数据管理与血缘追踪
数据可视化 Apache Superset 数据探索与自助分析

9. 外部系统对接关系

对接系统 方向 内容
全部27个业务系统 数据流入 业务数据同步到ODS层
政府监管系统01 数据流出 上报标准格式数据文件
AI服务22 双向 知识图谱API供应 + 训练数据集供应
运营管理24 数据流出 经营分析指标供应
ClickHouse分析库 数据流出 ADS层面向分析的宽表
SNOMED CT授权方 数据引入(⚠️ 待确认) 国际医学术语授权

10. 风险与边界

风险 说明 应对
建设周期长 大数据平台建设周期往往在6-12个月以上 P2优先级待核心业务系统稳定后再建
运维复杂度 Kafka/Spark/Flink/ClickHouse等技术栈运维门槛高 优先选用云托管服务如阿里云DataWorks降低运维成本
数据隐私合规 医疗数据属于敏感个人信息PIPL/等保三级) 数据分类分级 + 脱敏 + 访问审批 + 等保合规
数据标准不统一 各业务系统字段定义不统一,数据清洗工作量大 在业务中台25建立统一数据标准从源头控制数据质量
知识图谱授权 SNOMED CT商业授权费用较高 先用ICD-10国标免费+自建医养知识图谱后续评估SNOMED CT
边界:数据中台只做数据,不做业务 避免将业务逻辑放到数仓中实现 严格区分数据层和应用层的职责边界

11. 实施优先级与分期建议

优先级P2

分期 内容 前置条件
第一期 ODS同步 + ClickHouse + 运营基础报表 P0/P1业务系统产生足够数据后启动
第二期 数据治理 + 主题层建模 + 知识图谱ICD-10 数仓稳定运行3-6个月后启动
第三期 AI训练数据管理 + SNOMED CT + 全链路数据血缘 AI服务22建设期间同步

12. 结论

数据中台是医养平台的数据智慧层mall 完全不具备大数据处理和数据治理能力,必须独立建设

建议初期不追求完整的大数据平台,而是以"ClickHouse + 基础运营报表 + 数据同步"为MVP在各业务系统积累足够数据后再逐步完善数仓分层和数据治理体系。优先使用云托管大数据服务降低运维负担待数据量规模化后再评估自建集群的必要性。