Files

2026-03-31 01:22:34 +00:00

12 KiB

Raw Blame History

数据中台模块规划

1. 模块定位

数据中台是整个医养平台的数据资产管理与智能分析体系，负责汇聚全平台各业务系统产生的数据（结构化/半结构化/非结构化），通过数据湖、数据仓库、主题库和专题库的分层架构，为运营决策、AI模型训练、政府监管上报和区域医养事业评估提供高质量数据支撑。

数据中台不直接面向业务用户，而是作为数据资产的统一管理层，对上层消费系统（运营管理、AI服务、政府监管）提供标准化数据服务。

2. 建设目标

构建医养数据湖，统一汇聚全平台数据资产
建立 ODS → 基准层 → 主题层 → 专题层的分层数仓体系
建立数据治理平台（数据质量/数据血缘/数据目录）
构建医疗知识图谱（ICD-10/SNOMED CT/中医知识体系）
构建 AI 大模型训练数据管理平台（DeepSeek 垂直微调数据集管理）
提供标准化的数据服务API（报表查询/指标计算/数据导出）

3. 核心功能范围

3.1 一级模块

数据湖基座
数据仓库（分层体系）
数据治理平台
医疗知识图谱
AI大模型训练数据管理
数据服务与API

3.2 二级功能清单

数据湖基座：

全平台数据接入（数据库CDC/Kafka流/文件上传）
多源异构数据统一存储（结构化表/JSON/文件/时序数据）
数据分区策略（按时间/机构/数据类型分区）
数据访问权限管理（列级/行级权限）
数据生命周期管理（冷热分层/自动归档）

数据仓库分层体系：

ODS层（贴源层）：从各业务系统实时/批量同步原始数据
基准层（DWD）：数据清洗/标准化/维度建模
主题层（DWS）：老人域/机构域/服务域/健康域等主题宽表
专题层（ADS）：运营指标/监管上报/AI训练集等面向具体场景的专题表

数据治理平台：

数据目录（元数据管理，数据资产全景地图）
数据血缘（字段级来源追踪）
数据质量规则配置（完整性/一致性/时效性监控）
数据标准（统一字段命名、枚举值、编码规范）
数据问题工单（数据质量问题发现→修复→关闭闭环）

医疗知识图谱：

ICD-10疾病分类体系（国家标准10000+节点）
SNOMED CT 国际医学术语（⚠️ 待确认授权）
药品知识图谱（药品-适应症-禁忌-相互作用-价格）
中医知识体系（证候-方剂-药材-经络关系）
护理规范知识库（养老护理操作规范、评估量表）
知识图谱查询API（供AI服务22号调用）

AI大模型训练数据管理：

标注任务管理（标注人员分配/质检/审核）
训练数据集版本管理（数据集切割/版本记录）
数据脱敏工具（患者隐私字段自动脱敏）
训练数据质量评估（标注一致性、数据分布分析）
与AI服务（22号）训练管道对接

数据服务与API：

统一查询API（支持SQL/REST两种接口）
指标计算服务（平台关键指标实时/离线计算）
监管报表生成（对接01号政府监管系统的数据上报）
数据导出服务（Excel/CSV/JSON格式导出审批）
数据订阅推送（增量数据变化推送给订阅系统）

3.3 数据分层模型

┌─────────────────────────────────────────────────────────┐
│  专题层ADS  │  运营看板  │  监管上报  │  AI训练集  │  选题分析  │
├─────────────────────────────────────────────────────────┤
│  主题层DWS  │  老人主题  │  机构主题  │  服务主题  │  健康主题  │
├─────────────────────────────────────────────────────────┤
│  基准层DWD  │  清洗/标准化/维度建模（数据规范化处理）         │
├─────────────────────────────────────────────────────────┤
│  同步层ODS  │  全平台27个业务系统原始数据实时/批量同步         │
├─────────────────────────────────────────────────────────┤
│  数据湖     │  结构化+半结构化+非结构化数据统一存储            │
└─────────────────────────────────────────────────────────┘

4. 与现有 mall 的关系

契合度：D（不适配）

能力需求	mall 现状	结论
数据湖架构（Hadoop/对象存储）	无	须独立建设
分层数仓（ODS/DWD/DWS/ADS）	无	须独立建设
数据治理平台	无	须独立建设
医疗知识图谱	无	须独立建设
AI训练数据管理	无	须独立建设
OLAP分析引擎	无	须独立建设

mall 是通用电商平台，不具备任何大数据处理和数据治理能力，强行堆入会导致维护灾难（OLTP与OLAP完全不同的技术栈和运维要求）。

5. 规划判断

独立建设（大数据平台架构）

云原生路线（推荐云部署，降低运维难度）：

数据湖存储：阿里云OSS / 腾讯云COS（对象存储）
实时数据接入：Apache Kafka（CDC流数据）
批量数据同步：DataX / SeaTunnel（从各业务系统导入）
计算引擎：Apache Spark（批计算）+ Apache Flink（流计算）
数据仓库：ClickHouse（OLAP分析）或阿里云MaxCompute（云数仓）
数据治理：Apache Atlas / 自研
知识图谱：Neo4j（图数据库）
调度：Apache DolphinScheduler（数据任务调度）
可视化：Superset / 自研（数据探索）

6. 需新增业务能力

数据标准体系：统一全平台的字段命名规范、枚举值标准、编码规范
医疗数据脱敏工具：批量脱敏（姓名/身份证/手机号/病历关键信息）
数据访问审批流程：敏感数据（健康档案/医疗记录）的访问申请与审批
数据质量监控：每日自动检测数据完整性、一致性，异常自动告警
监管数据上报格式：按照民政/卫健委数据上报标准生成上报文件（⚠️ 待确认各地标准）

7. 需新增数据模型（数据治理侧）

模型	关键字段
`data_catalog`	id, table_name, layer(ods/dwd/dws/ads), description, owner, sensitivity_level, update_frequency
`data_lineage`	id, source_table, source_column, target_table, target_column, transform_logic, created_at
`data_quality_rule`	id, table_name, rule_type, rule_config(JSONB), alert_threshold, is_active
`data_quality_result`	id, rule_id, check_date, total_count, fail_count, fail_rate, status
`knowledge_node`	id, graph_type(icd10/drug/cm), code, name, properties(JSONB), created_at
`knowledge_relation`	id, source_node_id, target_node_id, relation_type, weight, source_doc
`dataset_version`	id, name, purpose(ai_train/report/export), snapshot_date, record_count, status, is_desensitized

8. 需新增技术栈 / 第三方能力 / 中间件

类别	技术选型	用途
数据湖存储	阿里云OSS / 腾讯云COS	原始数据湖存储
数据同步	DataX / SeaTunnel	业务系统→数仓增量同步
流处理	Apache Flink	实时数据流处理与聚合
批处理	Apache Spark	大规模批计算任务
OLAP引擎	ClickHouse	高性能分析查询
图数据库	Neo4j	医疗知识图谱存储与查询
任务调度	Apache DolphinScheduler	数据任务的DAG调度
数据治理	Apache Atlas	元数据管理与血缘追踪
数据可视化	Apache Superset	数据探索与自助分析

9. 外部系统对接关系

对接系统	方向	内容
全部27个业务系统	数据流入	业务数据同步到ODS层
政府监管系统（01）	数据流出	上报标准格式数据文件
AI服务（22）	双向	知识图谱API供应 + 训练数据集供应
运营管理（24）	数据流出	经营分析指标供应
ClickHouse（分析库）	数据流出	ADS层面向分析的宽表
SNOMED CT授权方	数据引入（⚠️ 待确认）	国际医学术语授权

10. 风险与边界

风险	说明	应对
建设周期长	大数据平台建设周期往往在6-12个月以上	P2优先级，待核心业务系统稳定后再建
运维复杂度	Kafka/Spark/Flink/ClickHouse等技术栈运维门槛高	优先选用云托管服务（如阿里云DataWorks）降低运维成本
数据隐私合规	医疗数据属于敏感个人信息（PIPL/等保三级）	数据分类分级 + 脱敏 + 访问审批 + 等保合规
数据标准不统一	各业务系统字段定义不统一，数据清洗工作量大	在业务中台（25）建立统一数据标准，从源头控制数据质量
知识图谱授权	SNOMED CT商业授权费用较高	先用ICD-10（国标免费）+自建医养知识图谱，后续评估SNOMED CT
边界：数据中台只做数据，不做业务	避免将业务逻辑放到数仓中实现	严格区分数据层和应用层的职责边界

11. 实施优先级与分期建议

优先级：P2

分期	内容	前置条件
第一期	ODS同步 + ClickHouse + 运营基础报表	P0/P1业务系统产生足够数据后启动
第二期	数据治理 + 主题层建模 + 知识图谱（ICD-10）	数仓稳定运行3-6个月后启动
第三期	AI训练数据管理 + SNOMED CT + 全链路数据血缘	AI服务（22）建设期间同步

12. 结论

数据中台是医养平台的数据智慧层，mall 完全不具备大数据处理和数据治理能力，必须独立建设。

建议初期不追求完整的大数据平台，而是以"ClickHouse + 基础运营报表 + 数据同步"为MVP，在各业务系统积累足够数据后再逐步完善数仓分层和数据治理体系。优先使用云托管大数据服务降低运维负担，待数据量规模化后再评估自建集群的必要性。

12 KiB Raw Blame History Unescape Escape

数据中台 模块规划