◆ ◆ ◆
什么是主数据?
主数据指的是共享的基础数据。
基础数据指从信息资源中提取出来的最基础的数据,是业务数据中相对固定、变换缓慢、被重复使用的核心数据。包括索引数据、标识数据、自然人数据、法人数据、机构数据、地理信息数据以及专业类术语与字典等。
所有业务系统都有自己的基础数据。建立这些基础数据,是为了保证该业务系统运行过程中数据表达的语义一致性。尤其是专业术语与字典,用来规范医疗卫生事件中所产生的信息含义的一致性问题,对于整体数据质量控制是关键性的一个重要环节。
在业务系统中生产、传输、存储、应用的基础数据严格约束了该类数据在本业务系统内的表达。这些约束对其他系统的相关数据无效,这一类相关数据其他系统有各自的约束条件。因此,这些基础数据离开本系统参与与其他业务系统交互时,就会出现因为约束条件不一致而导致的语义表达不一致。这种语义表达不一致主要反映在编码的不一致,因为绝大多数的基础数据都是由一对”值+代码(编码)“构成,计算机在处理这一类数据时,往往使用其代码(编码)来进行运算。代码不一致会导致计算结果的偏差,这是影响数据质量的最主要也是最重要的原因,而且没有之一。也是数据校验与数据稽核环节的一个目前解决得并不好的难题。
为了保证不同业务系统的基础数据在参与交互(数据交互、信息共享、业务协同)时能够取得语义表达的一致性(代码一致),就需要对参与交互的基础数据进行归一处理(代码对齐),即建立这些基础数据的公共约束条件,这就是主数据标准。主数据一定是标准化的。
主数据标准的编制要尽可能地利用既有而且比较成熟的国际标准、国家标准、行业标准,当然也要考虑因地制宜、因时制宜地设计一些自定义标准作为补充。
主数据分类列目,可以便于主数据溯源及跟踪管理。主数据标准分类列目的一些示例见图1:
图4主数据标准分类列目示例
必须强调说明三点:
1) 上述示例仅仅是举例说明,相关国际、国家标准、行业标准等不止这些类型,可供选择的范围是充裕的。
2) 对于同一个基础数据,可供选择参照的标准也往往不止一个。作为平台的主数据标准,原则上是选择其中的一个。如果某些业务需要共享的基础数据另有特别要求,也可以有限的设置少量的平行主数据标准,但对这一些主数据标准必须有明确的标识,严格约束其应用场景。例如药品名称编码,国家级的标准就有四五套,这些不同的编码算法各自满足不同部门的管理要求。
3) 选择作为本级平台的主数据标准时,要根据具体的应用需要,不要一味追求分级分层的过细的粒度。
在数据标准制订时也提到过,数据标准的粒度设计要因地制宜、因时制宜,要适度。因为过细的分类分层粒度不但会使数据编制的制定维护增加难度,而且会使贯彻执行数据标准的难度也大大提高,反而影响数据质量。例如,各地开展的垃圾分类工作都遇到了一些困难,我认为与分类标准不易掌握有关。要区分干垃圾与湿垃圾难倒多少英雄好汉,有害垃圾和可回收垃圾有时也很难精确区分。江苏省有个地方做得就很好,只分为易腐烂垃圾与不易腐烂垃圾两类,大家反映容易掌握区分,那里的垃圾分类工作就开展得很好。
◆ ◆ ◆
数据标准就是主数据吗?
至于大家问的比较多的关于主数据是不是就是数据标准的问题,行文到这里就应该比较清楚了。 主数据标准是数据标准的一部分,如果是说数据标准是一个集合,那主数据标准就是这个集合的子集,两者是包含关系。
那么主数据如何识别,如何进行标准管理,如何通过主数据管理来控制交互中基础数据的一致性,基础数据语义一致性?
◆ ◆ ◆
主数据管理中如何贯彻标准?
制定数据标准后,能否有效的贯彻标准,将决定平台的数据质量。本文试图通过主数据管理的讨论,来探索贯彻数据标准的方法。 主数据标准是具有基础性的数据标准,因此,主数据管理是贯彻数据标准最有效、最基础、最核心的方法。可以这样讲,如果平台的主数据质量可控,那么平台数据中心的数据质量就是可信、可用的。
主数据是平台共享的业务系统的基础数据。对通过平台交互,须执行同一标准的尚不属于基础数据的一些业务数据,即公共数据元,也可以采用主数据管理的方法,来保证交互过程中的一致性。
◆ ◆ ◆
主数据管理基本环节
1) 主数据识别
汇集通过平台交互的各业务系统的基础数据,筛选出两个以上业务系统共有的并参与交互的基础数据,作为平台主数据。
其中比较重要的通过平台注册服务进行注册与发布的主数据有:自然人主索引、自然人主数据,医疗卫生机构主数据,医疗卫生人员主数据和术语与字典。
2) 主数据标准化
主数据标准可以与平台的数据标准同时制定或先后制定。作为主数据的元数据,至少在数据元标准和数据元值域代码标准两项与平台的数据标准应该保持严格的一致。本质上,主数据标准是平台数据标准的一部分。
3) 主数据注册
标准化的主数据要通过平台的注册服务进行注册,通过平台的发布服务进行发布。主数据的版本管理通过发布服务实现。
自然人注册服务形成一个自然人注册库,它是平台上唯一的个人基本信息权威信息来源,用于医疗卫生信息系统确认一个自然人的身份,解决在跨越多个系统时居民身份唯一性识别的问题。
医疗卫生人员注册。为本区域内所有卫生管理机构的医疗服务提供者,包括全科医生、专科医生、护士、实验室医师、医学影像专业人员、疾病预防控制专业人员、妇幼保健人员及其他从事与居民健康服务相关的从业人员提供注册服务。系统为每一位医疗卫生人员分配一个唯一的标识,并提供给平台以及与平台交互的系统和用户所使用。
医疗卫生机构注册。为本区域内所有医疗机构,包括二三级医院、基层医疗卫生机构、疾病预防控制中心、卫生监督所、妇幼保健所等提供注册服务。系统为每个机构分配唯一的标识,可以解决居民所获取的医疗卫生服务场所唯一性识别问题,从而保证在维护居民健康信息的不同系统中使用统一的规范化的标识符,同时也满足区域卫生信息平台层与下属医疗卫生机构服务点层的互联互通要求。
建立术语和字典注册。用来规范医疗卫生事件中所产生的信息含义的一致性问题。术语和字典由平台管理者组织实施统一的注册、发布、更新维护。
4) 主数据订阅
平台须提供主数据订阅服务。通过平台交互并须遵循平台主数据标准的各业务系统均应订阅,以及时获取最新主数据标准版本,并通过对照实现与平台主数据的同步更新与一致。
5) 主数据对照及可视化
凡订阅平台主数据的业务系统,须对每一个相关基础数据建立与平台主数据的对照表,对照表必须可视化,以保证对照质量可控。
6) 主数据校验
对通过平台进行数据交换、信息共享和业务协同的业务系统的基础数据提供主数据依从性的评估。
◆ ◆ ◆
做好主数据管理的关键环节
1) 建立主数据管理机制
由于主数据管理涉及许多行政与业务管理部门,要依托现有的行政及业务管理机制构建一个有效的管理体系,并不是一件容易的事情。而仅仅依靠信息中心的力量是难以完成这项工作的。
2) 术语与字典主数据管理
尤其是对照、校验工作,对业务技能要求比较高,难度不可小觑。术语与字典往往是由代码(或具有分类分层级功能的编码)与名称构成一对属性标识的概念,其相关性评估具有挑战性。
数据本身是没有意义的,数据只是个符号,数据必须赋予其含义才有意义。数据的含义是语义,语义是数据在某个领域的解释和逻辑表示。语义具有主观性和领域性特征,语义对齐是消除同一事物在不同人、不同领域之间理解不同的语义异构的必要过程。用代码或编码来标识一个概念,是语义对齐的一种方法,也是制定数据元值域代码的初衷。然而,实践中一个代码或编码标识的概念往往是一个集合,这个集合的边界很难精准。因此,判断代码或编码标识的对象,是否归属于某概念的集合不是一件容易的事情。现在,绝大多数地方采用校验代码或编码是否在该值域代码列表中的方法,来进行术语与字典的值域代码校验。这个方法是不可靠的,因为技术上很容易通过改变代码或编码来通过校验,而这恰恰是数据造假的行为,会严重影响数据质量,使得数据不可信、不可用。尤其是在使用术语与字典的代码或编码进行统计分析等计算应用场景,数据质量将呈现整体不可用。
本体论、知识图谱、语义网、自然语言处理、语义距离计算、语义适配等,是解决以上问题的可以选择的技术路线,希望有更多的研究机构与企业能够开展研究,提供相关服务。
目录
前言
一、 全民健康信息化建设历史经验分享
(一) 全民健康信息互联互通问题的产生
(二) 平台概念的理解及建设意义
二、 对于健康医疗数据质量管理关键问题的认识
(一) 数据标准管理
(二) 主数据管理
(三) 主索引管理
三、 关于健康医疗数据质量控制的思考
(一) 数据质量管理与数据质量控制有区别吗?
(二) 如何进行数据质量控制?
(三) 数据质量管理与控制体系架构设计要点
本期专家介绍
钱子来:国内资深医疗信息化专家,医院管理专家,江苏省卫健委咨询专家,曾任南京市第一医院院长、南京市胸科医院院长、南京市医学研究所所长、南京医学情报研究所所长。
想要联系本期专家进行探讨的读者,请在后台联系工作人员,我们将在征求专家意见后,尽快为您服务。
致谢
特向以下人员致谢,感谢他们对本期内容作出的贡献:
汤娟华,常州市卫生健康数据管理中心,高级工程师
李莹莹,浙江数字医疗卫生技术研究院,高级咨询顾问
OMAHA HiTA:元数据 | 术语| 知识图谱
为了治愈,我们选择开放和共享返回搜狐,查看更多