朝花夕拾:一篇已经发表过文本知识挖掘的文章

上一篇 / 下一篇  2006-11-08 08:45:56 / 个人分类:论著

摘要  本文尝试根据书目文献数据库中主题词/副主题词之间的语义关联规则抽取知识。以阿斯匹林这一比较常用的药物作为文献集合的主题范围,选取经过验证的关联规则,将其运用到具体的文献之中,获得具体的药物与疾病之间的知识,并对这些知识进行检验,以评价这种知识挖掘方式的可靠性。

关键词:知识抽取 关联规则 主题词 医学文献检索系统

An exploratory research of knowledge acquisition with MeSH heading/subheading association rules in Medline system

Abstract We explored the method of knowledge acquisition by the semantic association rules among the subject heading/subheadings in a medical bibliographic system. A common drug –aspirin was used as a subject field of the literature set, a proved association rule was used upon the literature, knowledge about this drug and diseases is acquired. We compared the aquired knowledge with those of an authority pharmacopoeia to evaluate the reliability of this method.

Keywords: knowledge acquisition, association rule, subject heading, Medline

随着科学和技术的发展,大量的新信息和知识不断涌现,而文献作为知识的载体,更是显示出爆炸式的增长特点。以医学期刊为例,自第一份期刊出现以来,其数目呈指数增长,大约每10-15年翻一番,目前已经达两万多种。

相比之下,医生和研究人员可以用来阅读科学文献的时间却是固定的。如何能在有限的时间和物力、财力下,高效率地收集、管理、传播和利用科学信息和知识,成为人们首先要解决的难题。在这种情况下,人们自然考虑到需要使用自动化的系统来管理和获得医学信息和知识。怎样才能在海量的数据中成功、快捷地抽取所需要的信息成了人们关注的焦点[[1]]

在书目文献数据库中储存的大多是半结构化数据,例如,一个文档可能包含结构字段,如:标题、作者、分类等等,也可能包含大量非结构化的文本成分,如摘要和全文。在医学领域中的权威数据库Medline中的数据就属于这种半结构化数据。

Medline由美国国立医学图书馆编制,是公认的全球范围内检索医学期刊文献的首选工具。其网络版(PubMed)可以供公众免费使用。该数据库收录1966年以来美国等70多个国家出版的4,600多种期刊,到目前为止共包括文献记录一千四百万条,每条记录包括了文章的书目数据和作者所写的文摘,编制出的引文条目使用严格定义的结构[[2]]。更为重要的是对每一条记录都含有专业标引人员和各学科的专业人员为该篇论文提供的主题词/副主题词,平均每一条论文会提供10-12个左右的标引词。标引中所采用的受控词表是美国国立医学图书馆编制的《医学主题词表》(Medical Subject Heading,简称MeSH),MeSH表中的主题词被分类成为解剖、生物、疾病、药物等等类别,每一个主题词都标有分类号,主题词之间的等级体系可以通过分类号的层次表现出来;在标引中,同时使用副主题词来描述该主题具体内容的其他信息,例如,aspirin/adverse effects中的aspirin是主题词,而斜线后面的adverse effects则是进一步说明这一主题的某一个方面[[3]]。正是由于Medline数据库的权威性、全面性与标引的准确性,它成为许多针对半结构化数据库开展知识挖掘研究的首选对象。

尽管在同一篇文章中出现的MeSH的主题词之间没有明确的关系,但是我们还是可以通过分析这些主题词出现的具体情形(如检查每个主题词的副主题词)而推理出这些主题词之间的关系。例如,如果一篇MEDLINE数据库的文献记录中有X疾病的病因和Y药的副作用这两个主题词,人们自然会想到“Y药引起了X病”。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此,我们可以认为这些关系具有语义学上的意义,可以把它们当作医学知识的一种表现形式。[[4]]例如,如果一条记录中含有属于疾病类(MeSH表的树状结构表的C大类)的主题词A并且和副主题词“化学诱导”在一起,同时,该纪录还包括属于化学物质类(D大类)的主题词B并且和副主题词“副作用”在一起,那么,就可以建立一个规则:A疾病由B物质引起。这里所说的规则表示从具体的文献中抽象出来的普遍规则,如:

If     <Disease> / CHEMICALLY INDUCED and <Chemical> / ADVERSE EFFECTS 

        THEN   <Disease> is caused by <Chemical>.

方括号中的文字(<Disease>)代表了一类的主题词,而不是具体的某一种疾病或者化学物质。在通过大量的文献训练得到这些词对和规则之后,建立成一个类似矩阵的规则表。表中的行和列都对应于主题词和副主题词,行和列交叉处则为与这两个主题词/副主题词向对应的规则,空的表格表明或者未发现稳定的关系,或者没能检验到足够的引文以发现可能的关系。

本文以阿斯匹林这一比较常用的药物作为文献集合的主题范围,选取几个经过验证的关联规则(见表1),将其运用到具体的文献之中,获得具体的药物与疾病之间的知识,并对这些知识进行检验,以检验这种知识挖掘方式的可靠性。

1 药物副作用与疾病发生之间的关联规则

If

Aspirin/副作用

And

A/病因学△△

同时出现

则认为该药可以引起A

If

Aspirin/副作用

And

B/化学诱导△△△

同时出现

则认为该药可以引起B

注:副作用、病因学、化学诱导以及药物作用等副主题词在Medline数据库中的使用有一定的规则,它们只能与一定种类的主题词组配在一起使用。根据MeSH副主题词的组配规定:

可以与“副作用”相组配的主题词为用于诊断、治疗、预防或麻醉的药物,化学物质、生物和物理作用物,以及制造的产品在正常用量时引起的不良反应(包括:过敏或特异性反应);也用于诊断、治疗、预防、麻醉、外科手术及其它措施时的副作用或并发症,但不包括禁忌症。

△△可以与“病因学”相组配的主题词为用于疾病以探讨致病原因,包括表示微生物、环境和社会因素、起病因作用的个人习惯等概念的主题词;也包括致病机理。

△△△可以与“化学诱导”相组配使用的主题词为用于人或动物由于化学化合物引起的疾病,综合症,先天性异常或体征一类主题词。

材料和方法

1.  下载数据

登陆PumMed检索系统的网站(www.ncbi.nlm.nih.gov/pubmed),运用其中的主题词检索功能检索出其主题词中含有的“Aspirin/adverse effects”文献纪录。下载这些文献的书目数据,其中包括该文献的主要主题词和次要主题词及其副主题词等等,整个数据库中共5652条文献记录。

同时,为了方便进一步分析,还下载了该数据库的受控词表即MeSH表。该主题词表包括了全部的主题词和及其对应的主题词分类号。

2. 处理数据

使用FoxPro系统处理已经下载的文献数据。对于这些有关于阿斯匹林副作用的文献纪录,分别统计其中含有/chemically induced以及/etiology两种副主题词的主题词/副主题词组合出现的频次,如Gastrointestinal Hemorrhage/chemically inducedAsthma/ chemically inducedStomach Ulcer chemically induced等等,并将其按照频次降序排列,同时计算每一种主题词的可信度,在这里我们将可信度定义为该主题词出现的频次与论文总数的比率。最终形成与阿斯匹林副作用有关的疾病等类别的主题词的列表(表2和表3)。

同时,以文本格式的MeSH分类表为基础开发出MeSH主题词与分类号对应表,使用该表对表2和表3中的主题词标上相应的分类号,由于这些分类号是等级体系排列的,所以通过分类号可以发现主题词之间的上下位的体系关系。

3. 比较数据

利用药典和网络药学数据库对挖掘的正确性和有效性进行评价。查找《中华人民共和国药典:临床用药须知》95年版,摘录阿斯匹林的副作用、治疗应用的内容。登录美国网上处方药物索引网站(www.rxlist.com),查找阿斯匹林的临床药理学(CLINICAL PHARMACOLOGY)、过量(OVERDOSAGE)、警告(WARNINGS)以及副作用(ADVERSE REACTIONS)等项目,将阿斯匹林的治疗应用及可能引起的副作用列表(4)

根据分类号所体现的主题词之间的关系,对获得的主题词进行归类整理。将所获得的主题词按照表4的分类类目进行统计,对于一些暂时无法判定其类别的副作用归入不相关类,计算每类副作用出现的主题词数、主题词频次数,计算所占百分比。表5为主题词Aspirin/adverse effectsMeSH主题词/chemically induced这一组数据的结果。

对于挖掘结果的评价指标,我们规定凡是符合由《中华人民共和国药典》临床用药须知和美国网上处方药物索引网站上得到的阿斯匹林的副作用认为是正确的挖掘结果,符合阿斯匹林的适应症的为错误的挖掘结果,其他主题词归入不相关类(有可能是代表着未知的新知识)。比较通过数据挖掘获得的知识与通过药典等知识库所获得的知识之间的异同。

结果与分析

1.与阿斯匹林副作用同时出现的带有/化学诱导、/病因学两种副主题词的主题词的分布:

2和表3分别列出了与阿斯匹林副作用同时出现的带有/化学诱导和带有病因学两种副主题词的前30位和前29位主题词。

2中,和Aspirin/adverse effects在同一篇文献中出现的与chemically induced组配的主题词共196种,出现频次最高的是Gastrointestinal Hemorrhage,为494次,可信度(频次和文章数的百分比)为8.7%;频次最低的为1次。

2 Aspirin/adverse effects在同一篇文献中出现的与chemically induced组配主题词

序号

主题词

频次

可信度%(频次/文章数)

1

Gastrointestinal Hemorrhage

494

8.7

2

Asthma   

442

7.8

3

Stomach Ulcer

246

4.4

4

Hemorrhage

177

3.1

5

Peptic Ulcer

136

2.4

6

Reye Syndrome 

131

2.3

7

Kidney Diseases

112

2.0

8

Urticaria

103

1.8

9

Gastrointestinal Diseases

97

1.7

10

Gastritis

87

<
相关阅读:

TAG: 论著

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2009-01-08  
    123
45678910
11121314151617
18192021222324
25262728293031

数据统计

  • 访问量: 988
  • 日志数: 13
  • 图片数: 1
  • 建立时间: 2006-11-05
  • 更新时间: 2008-02-12

RSS订阅