15018752330

您所在的位置:首页 > 文献频道 > 文献频道详情

基于本体的中风病康复古今术语库构建方法研究

发表时间:2014-05-30     浏览次数:514次

文章摘要:目的 尝试解决中医药领域存在的古今概念差异、词义模糊、同义词、一词多义的问题,为利用古籍知识提供便利,进一步为中风病康复学科发展提供术语支撑。方法 以中风病康复为切入点,收集中风病康复古今的概念、术语、词串等,确定领域的关键概念,解析概念并分析领域中存在的语义关系,将分散的中风病康复知识有序组织起来,采用本体技术探索中风病康复术语库的构建方法。结果 通过收集中风病康复古今的概念、术语、词串等,应用本体构建工具尝试性建立小型古今术语库并可以对术语库进行查询与图形化显示。结论 本体作为形式化的知识表示体系,是构建领域知识的有效方法,有利于中风病康复领域古今概念的沟通,对中医药领域隐性知识的挖掘、发现与利用具有重要的意义。

本体(Ontology)作为知识表达与共享的载体,是通过描述和捕获领域知识,确定领域内共同认可的概念及概念间的关系,并加以形式化,用于领域内部不同主体之间交流与知识共享的规范说明,强调知识的共享与重用[1],是构建领域知识库的方法,也是实现语义网的基础。中医药学经过数千年的积淀和发展,形成了具备完整理论和实践基础的诊疗体系,在人类的卫生保健中发挥着重要作用。但由于语言的变迁、学科的融合、交流发展及地域、文化等因素影响,导致中医药学术语外延宽泛、内涵不清,一词多义、一义多词、词义演变等术语不规范现象普遍存在[2],特别是在古籍中这种现象更为明显。随着信息化的发展,中医药学术语的不规范性阻碍了人们对中医药学知识的共享与有效利用。本体的特点有利于克服中医药概念不规范性与语义屏障,对中医药领域隐性知识的挖掘、发现与利用具有重要的意义,越来越广泛地运用于中医药领域的研究中。
本研究以中风病康复为切入点,收集中风病康复古今的概念、术语、词串等,确定领域的关键概念,解析概念并分析领域中存在的语义关系,将分散的中风病康复知识有序组织起来,采用本体技术构建探索中医中风病康复术语库的方法。
1 本体的简要概述
1.1 本体的概念
本体最早是一个哲学上的概念,探讨事物客观存在的本质,是对客观存在的一个系统的解释或说明。本体的哲学内涵对人工智能、知识工程领域产生了深远的影响,在研究的过程产生各种不同的本体定义,目前得到最为广泛的认可的是1998年德国卡尔鲁厄大学的Studer提出Ontology的定义,即“共享概念模型的明确的形式化规范说明”[3],这个定义包括4个主要方面:概念模型、明确、形式化、共享性。
1.2 本体的构建方法
本体构建方法一直是本体研究中的一个热点问题,目前比较成熟的构建方法包括骨架法、TOVE法、七步法、METHONTOLOGY、IDEF-5、五步循环法、SENSUS、AFM法等。本研究采用的方法是骨架法[4]与七步法[5]相结合的方式,其流程见图1。图1 构建本体的基本流程
1.3 本体的构建工具
目前构建和维护本体的工具已有几十种,常见的有OntoEdit、Ontolingua、WebODE、WordMap、Protégé、KAON、OntoSaurus等。本研究采用斯坦福大学医学情报研究组开发的本体构建工具Protégé[6],由于其可以免费下载、公开源代码、支持中文而且不断升级,成为目前国内最广泛使用的本体构建工具。
2 构建中风病康复本体的关键问题
2.1 中风病康复范围与文本来源
中风病的内涵和外延的确定:从“中风”一词的沿革、发展、演变来看,“中风”有广义与狭义之分。广义中风既指外感又包括内伤;狭义中风主要指内伤。而现代对“中风”看法比较一致,采用“中风病”代替内伤中风,但对其所下的定义也不太一致。本研究采用《中国中医药学主题词表》对中风的界定“因气血逆乱、脑脉痹阻或血溢于脑所致,以昏仆、半身不遂、肢体麻木、舌蹇不语等为主要表现的脑神经疾病”,即包含以昏仆、半身不遂、肢体麻木、舌蹇不语等为主要症状的一系列疾病的总称(包括了现代医学中脑出血、脑血栓形成、脑栓塞、脑血管痉挛等神经系统的疾病),做为“中风”的概念。以明确“中风”的内涵,从而排除外风、外感重症等与中风病不对等的概念从而消除利用古籍所造成的偏差。
中医康复内涵与外延的确定:在中医古籍中“康复”一词,主要是针对伤病的痊愈和健康的恢复而言。如《尔雅?释诂》释之曰:“康,安也”,《尔雅?释言》曰:“复,返也。”在以残疾为对象的康复学中,“康复”的内涵已不再是痊愈与恢复了,而是指残疾者的残存功能和潜在能力在治疗和训练后获得了最大限度的发挥[7]。综合各家观点,本研究所采纳的中医康复定义是:在中医理论指导下,在疾病发生后至恢复期及在预防复发过程中采用以保存、改善和恢复患者的身心功能,提高生活质量为主要目的的一系列传统方法和措施,如药物、针灸、气功、推拿、食疗、药浴、情志调摄等各种干预措施的全过程[8]。
历代对中风病的研究成果分散于不同的书籍中,为较全面获取中风病的相关概念及术语,首先从《中华医典》的古籍中筛选出包括医论、医案、方剂、中药、针灸、推拿、食疗等中风病相关章节的文本,作为领域概念获取的最直接来源,构建一个中风病古籍文本加工平台。其次选择中风病康复现代相关书籍做为现代词汇的来源包括《中风康复研究》、《中风临床与康复》、《中风康复治疗》、《中华实用中风病大全》、《传统康复方法学》等。
2.2 中风病康复语义模型的建立
语义模型是表达领域概念、关系以及概念间关系的模型,是本体的核心架构,主要包括类、类属性与语义关系的定义。类是本体中最主要的知识单元,起提纲携领的作用,用于描述一类具有共同特征的实例对象。经分析中风病康复知识主要集中在中风病的证候、症状、病因病机、中医康复方法,此外考虑到中风病在古籍中存在着大量的术语,其中很大一部分描述与现代存在差异。为提供全面的中风病康复的内容,故设计一个古籍术语类以描述其原始的内涵,从而如实反映古代的观点,为下一步梳理学术脉络打下基础。因此设置了中医疾病、中医病因病机、中医症状、中医证候、中医康复方法、古籍术语6个顶层类。
类的属性是针对类特性的,从而区分不同类。如中医证候类证候名、别名、主症、兼症、舌象、脉象、证因、证机、病位、康复方法8个属性。语义关系是存在于抽象的类或具体的概念之间,用来表达生物医学领域中概念之间的重要关系[9]。中风病康复过程是在中医理论指导下,采用一系列传统方法和措施如药物、针灸、气功、推拿、食疗、药浴、情志调摄等以保存、改善和恢复中风病患者的身心功能,提高生活质量。这一过程中存在着多种重要关系,借鉴中医药一体化语言系统(TCML)的58种语义关系[10]结合本体的4种基本关系(part-of、kind-of、instance-of、attribute-of)解析了以下几种语义关系:①“isa”,表达概念的上下位关系;②“引起(causes)”,表达中医疾病与中医病因病机、中医证候与中医病因病机的关系;③“现象表达”,表达中医疾病与中医症状、中医证候与中医症状的关系;④“……的概念部分”,表达中医疾病与中医证候的关系;⑤“治疗(treat)”,表达中医康复方法与中医疾病、中医症状、中医证候的关系;⑥“由……组成”,表达中药疗法中方药与药物的关系;⑦“与……类似概念”,表达概念的术语的同义关系。
在定义本体的类、类属性、语义关系之后,各个实例根据填写相应的值,就构建了实例与实例间的语义关联,实现了网络的联系。图2以中风病“肝阳暴亢证”为例展示中医中风病康复的语义关系模型。
注: 代表isa的等级关系; 及 代表相关关系;1.引起;2.现象表达;3.……的概念部分;4.治疗;5.与……类似概念图2 中风病“肝阳暴亢证”语义模型
此语义关系模型平面以上为中风病康复的类及类层次结构,实线箭头表示isa的隶属关系。平面中术语为中风病康复本体的实例,所归属的子类显示在平面上方。术语之间的语义关系包括引起、现象表达、概念部分、类似概念,具体与“肝阳暴亢证”相关的概念表达如下:肝阳暴亢证有偏瘫、口眼歪斜、偏身麻木、语言不利、面红目赤等现象表达;肝阳暴亢证被镇肝熄风汤、菊花决明枕、芹菜枣仁汤等治疗;肝阳暴亢证是中风病的概念部分;肝阳暴亢证由暴怒引起;肝阳暴亢证与肝阳上亢证是类似概念。
综上所述,中风病康复的各个大类形成了一个有机的整体并能体现中医辨证论治的原则。通过对所收集概念、术语、词汇的解析,分析了中风病康复领域中存在的语义关系(等级关系与相关关系),通过语义关系联系概念、术语,形成了一个复杂的语义网络。
2.3 中风病康复术语的规范
对从文本集抽取的术语的规范包括多个步骤,图3描述了术语规范的基本过程。图3 中风病康复术语的规范
首先将从古籍与现代文本中采集的相关词条归类成病名、病因、病机、证候、症状、康复方法等,初步形成术语集。《中国中医药学主题词表》为国内外第一部被医学及中医药学信息界广泛采用的中医药学专业主题词表。词表具有词语标准化、规范化、收词完备、实用性强、与国际权威医学词表MeSH兼容等特点[12],是国内中西医大型数据库建设的支撑。因此,本研究首先通过《中国中医药主题词表》把已经规范的术语甄选出来,做为本体实例加工首选的概念词。如果该术语在词表中缺失,则通过相关的中医专业工具书查找补充并记录其定义。通过《中国中医药学主题词表》、中医专业工具书对术语的明晰后,接着是对术语的合并、整理与标注,主要包括多词一义的规范、古今术语的沟通、一词多义的标注。
2.3.1 多词一义的规范
多词一义的规范即对同义词与近义词的合并。历代中医药文献记载的自然语言中,存在着大量的字面形式不同、但含义相同的词,使同一主题的文献可能被分散在同义词及其他异形词之下,这种情况由于年代的久远表现得更加突出。如描述中风病症状神昏相关词汇就包括不识人、卒倒无知、神昏仆倒、昏愦、昏不知人、昏迷、昏冒、不醒人事、昏仆、迷蒙、昏厥、神识时明时昧、神识冒昧、神识恍惚、昏倒、人事不省、昏蒙等。在构建本体的过程中遵循清晰性原则,以《中国中医药学主题词表》、《中医名词术语精华词典》等工具书为标准,从同义词中优选“神昏:即神志昏迷不清,或不省人事——《中医名词术语精华词典》”作为概念对应的术语,在本体中加工为实例,其他作为它的同义词。从而形成“神昏”概念的同义词环(近义词列表),这样我们很容易联想或聚拢到相关概念的古今近义词。如在检索系统中,用户只需使用同义词环中的任一词就可检索到含所有同义词的文本集,相当于在检索过程中,同义词环中所有词的逻辑运算关系为OR,保证了检索的全面性。
2.3.2 古今术语的沟通
根据工具书对相关术语的解析搭建古代术语与现代术语沟通的桥梁,由于中风病发展的沿革或古籍文本语境的不同,中风病康复中一些古今的词汇虽被聚类到一组同义词中,但却存在差异。如何表现和汇聚现代术语与古籍词汇,并且使它们各自相关而又有所区别的关系,用自然语言明确、客观地表达出它们各自的定义,确保检索时不产生歧义,同时用结构化的计算机语言表达出来,这就是中风病中医康复本体实现的主要功能。如围绕“因气血逆乱、脑脉痹阻或血溢于脑所致,以昏仆、半身不遂、肢体麻木、舌蹇不语等为主要表现的脑神经疾病”这一概念,对应的现代规范术语为“中风病”。从古籍文本中抽取出来的关于中风病的相关词汇,包括偏风、偏枯、大厥、煎厥、薄厥、脑风、首风、风痱、风癔、风懿、仆击、暴厥、卒喉痹等,很多文献认为这些词在古籍中可以与“中风病”等同,但是经查阅相关书籍明确了定义后发现,它们各有侧重。
偏枯:病名。由营卫俱虚,真气不能充于全身,邪气侵袭于半身偏虚之处所致一侧上下肢偏废不用之证——《中医名词术语精华词典》。偏风:风邪侵袭而致的半身不遂之病——《内经词典》。猥腿风:古病证名,属中风(杂病),以肢体偏瘫、失言为主症——《中医名词术语精华词典》。卒喉痹:系中风失语的病证——《中医名词术语精华辞典》。瘖痱:古病名,出《素问脉解》,指舌喑不能语、足废不能用的病变——《实用中医词典》。风懿:此证由痰水制火,闭塞心窍,以致猝然昏倒、舌强不能言、喉中窒塞、噫噫有声——《中华医学大辞典》。风痱:因肾精亏虚,肾气厥逆,有音哑,两下肢痿废不用等症状的病——《内经词典》。在构建本体时我们把这些词做为“中风病”的同义词进行规范,形成同义词环,还对古籍术语进行定义和关联,将这些差别进一步表现出来。如偏枯、偏风与中风病偏瘫关联,卒喉痹与中风病语言障碍(失语)关联、风懿与痰湿蒙窍证关联等。此外,古籍术语出现的别字、通假字等词形变化,如瘖痱与阴俳、喑痱,猥腿风与腲腿风、腲腿,风懿与风癔,风痱与痱风等,在构建本体时再以同义词的方式进行规范,再次形成同义词环,进一步丰富了“中风病”的相关词汇。
2.3.3 一词多义的标注
一词多义是指同一个术语代表不同概念。如风痱既可代表疾病名称又可指穴位名称,中风病康复方剂中一词多义的现象较为普遍,主要是由于出处、组成不同造成其主治的病证也不一样。针对一词多义的情况应辨析其代表的不同概念,加以标识区别。以便在本体中使用概念唯一编码来实现同一表达形式却具有不同概念的术语,解决领域中一词多义现象,达到避免语义歧义的目的。
3 中风病康复本体的查询与可视化
3.1 应用Protégé进行简单的查询
在解决构建本体相关关键问题以后,利用Protégé完成中医中风病康复本体的构建并可对本体进行查询及查询式检验。Protégé中的Queries查询插件可以限定类名、类的属性进行查询,同时通过与、或、非的逻辑操作进行多个条件的查询。此外在插件中还可以存储查询语句,形成查询库。如在中医中风病康复本体中通过语义关系“治疗”进行查询,可以获得古今文本中与偏瘫康复治疗相关的术语:中药内服方包括木香汤、人参汤、大醒风汤等;中药外用方有神仙外应膏等;饮食疗法包括麻子粥、黄芪续断酒等;针灸处方包括关元、京骨、大巨等;针灸方法包括巨刺;导引疗法包括手足不遂候导引法、偏风候导引法、四肢拘挛不得曲伸导引法、风偏枯候导引法等。双击查询结果中的术语可进一步查看详细信息,如双击“偏风候导引法”能够查看到的详细内容:偏风候导引法是一种动功,其作法一手长伸,手掌向上,另一手握住下颌尽力向两侧转动,左右各快速牵引十四次;一脚落地而站,一手尽力向后伸展,另一手握住另一足掌心涌泉穴部位,手足尽力上引,左右各14次。Protégé基于插件的查询结果及显示界面比较简单,也可以通过与关系数据库联通,设计更完善的查询功能。
3.2 利用Protégé进行图形展示
Protégé提供了多种信息可视的插件包括TGVizTab、Ontoviz、Jambalaya等,其中Jambalaya以Shrimp作为其可视化内核,其主要特点是可以实现交互式导航和多层次结构,能够对图形中的特定元素进行缩放,支持用户在不同的层次浏览类及其关系。通过Jambalaya可以显示本体树状结构图并可对其进行维度的控制,此外Jambalaya还提供了辐射形、垂直树形、水平树形等显示模型,可以根据不同的需要进行选择。图4为中风病康复本体3类结构。图4 中风病康复本体类结构图
4 结语
本研究在中风病康复的范围下探索古今概念汇通的方法,尝试消除中医药领域中概念不规范性与语义屏障,为进一步挖掘古籍知识奠定基础,并为学科发展的术语研究提供了一种可借鉴的模式。但是术语库的构建是不断反复、不断完善的过程,需要在实际应用中与领域专家不断沟通以扩充和完善。在研究过程中发现一些问题,如基于古籍文本的概念与术语提取,存在着有概念但无相应的术语表达;很大一部分术语的定义缺失或存在复杂性,需请领域专家介入以提高术语集的质量,以期建立更适合中风病康复研究及隐性知识挖掘的术语集。目前多数术语库通过手工方式构建,如何在今后的研究过程实现本体自动化、智能化构建是研究的重点方向。
【参考文献】
[1] 张秀兰,蒋玲.本体概念研究综述[J].情报学报,2007,26(4):5.
[2] 朱建平.中医术语规范化与中医现代化国际化[J].中华中医药杂志, 2006,21(1):6-8.
[3] Studer Rudi, Richard Benjamins, Dieter Fensel. Knowledge Engineering:Principles and Methods[J]. Data & Knowledge Engineering,1998,25(1/2):161-197.
[4] 杨秋芬,陈跃新.Ontology方法学综述[J].计算机应用研究,2002(4):2-4.
[5] 李薇.基于本体的知识组织问题研究[D].长春:东北师范大学, 2007.
[6] Protégé[EB/OL].[2010-03-04].http://protege.stanford.edu/.
[7] 陈立典.传统康复方法学[M].北京:人民卫生出版社,2008.
[8] 李灵辉,林尔正,林玉婷,等.利用信息技术进行中医康复古籍文献整理研究的思考—试析中风康复古籍文献整理方法[J].中医药导报,2010, 16(10):103-104,107.
[9] 杨阳,崔蒙,李园白,等.语义关系在语言系统中的作用及现状分析[J].世界科学技术-中医药现代化,2009,11(4):4.
[10] 贾李蓉.中医药学语言系统语义关系初探[D].北京:中国中医科学院,2005.