二 发现关系

上一篇 / 下一篇  2006-11-20 08:24:23

 

信息抽取更加复杂的任务是在文本中发现概念之间的相互关系。例如,在确定文本中有基因和蛋白质名称的基础上,进一步确定它们之间的关系。例如,NgWong利用生物医学文献来寻找蛋白质的代谢路径。首先他们利用Fukuda的方法确定蛋白质名称,然后利用基于预先设定的规则确定蛋白之间的相互关系。

            生物医学文本中发现关系研究的背景

早在上个世纪80年代,芝加哥大学的信息科学荣誉教授Don R. SwansonMEDLINE数据库为样本开展了对科学文献之间隐藏着未被发现的联系的研究,人们由此首次认识到从文献中可以发现或者挖掘到以前未知的知识。

Don R. Swanson目前是美国芝加哥大学的信息科学荣誉教授,他于1986年首次在医学文献研究中发现了这种关系的存在,他推理的步骤是:

1)        雷诺氏病是一种治疗方法和病因都未知的血液循环紊乱,在有关雷诺氏病的文献集合中(称之为A文献集),记载了部分雷诺氏病患者血液中有某种异常,如血液粘度升高。

2)        有关食用鱼油的文献集合中(称之为C文献集),有文献记载食用鱼油能纠正这种异常,例如,它可以降低血液粘度。

3)        这两种文献集合之间没有重叠部分,也就是说,没有文献同时提到了雷诺氏病和食用鱼油,也没有文献同时引用了这两个文献集合中的文献。

4)      Swanson把这两种知识联系起来,得出食用鱼油(A)应该对雷诺氏病(C)患者有帮助的假设。而联系这两个文献集合的主要概念就是血液粘稠度,Swanson称之为B。正是通过B,两个互相表面没有直接联系的研究主题被联系到一起。

在这个假说提出大约两年后,有人通过临床实验证实了这一点。1988年,Swanson用他的方法提出了周期性偏头痛与镁缺乏之间的联系,后来这种关系也被临床证实。此后,他发现了很多具有隐藏联系的例子,当时他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘到以前未知的知识。

近年来,随着研究的深入,Swanson进一步扩展自己的研究范围,把自己的研究方向从发现无联系的事件(特定A与特定C之间),扩展到有微弱联系的事件。也就是说,我们可能知道AC在实验上有联系,但是不知道它们具体是怎样联系的,或者我们想看一看关于AC之间可能的关系。这时候,同样可以运用SwansonA-B-C的原理来发现AC之间的联系B。如一种饮食(A)与一种疾病(C)之间有着什么样的关系,如:“A物质,或者A物质缺乏,会影响到疾病C发生的危险度吗?”

在探究AC之间的潜在关系之前,应当首先进行传统的MEDLINE交集检索“A and C”,以判定在医学文献中是否有该问题的直接答案。但是,如果A影响了某种因子(X),这个因子X又影响了C,例如,有两篇文章的标题分别是:

①偏头痛与癫痫的关系

②前瞻性报告:镁缺乏鼠作为癫痫病的动物模型

通过标题或者文摘,我们可以发现偏头痛(A)与镁(C)之间的关系是通过癫痫(B)联系起来的。但是如果检索者事先不知道B,即使AC的文献中都分别提及了B,那么通过传统的数据库检索就不能判定是否有此类的B存在。那么在传统的检索中就不能发现AC之间隐藏着的这种联系。

根据上述原理,Swanson等开发出用于发现文献之间潜在联系的工具软件ARROWSMITH。该软件的作用是将AC两个主题的文献集合中共有的标题词列举出来,由此来反映两个表面上无联系的事件或者联系微弱的事件(如偏头痛与镁)之间的潜在的联系(癫痫)。用户在系统指导下进行两次PubMed检索,分别产生了两个文献集:AC文献集,将其传送给该程序之后,返回一个显示两个文献集中文献标题中共有的词汇的列表。该工具在网上运行,可以免费使用,其网址为http://arrowsmith.psych.uic.edu/

2001,Swanson 等利用ARROWSMITH开展了可作为生物武器的潜在病毒的研究,发现了还有很多病毒可作为潜在的生物学武器。能够成为生物武器的要受到诸多条件的限制,主要是要有很强的致病性和很强的传播性。但是同时涉及到病毒这两个特性的文章却特别少。于是,Swanson等人将这两个条件确定为AC,力图通过与AC有共同联系B找出更多符合条件的病毒。

根据这一设计,他们选定的一类是关于病毒毒力遗传方面(virulence- genetic)的文章,另一类是关于病毒疾病传播的文章,包括病毒的昆虫媒介传播(insect vectors),空气传播(air),以及它在空气中的稳定性(stability of viruses in air)。

将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)。

            利用主题词/副主题词之间的关系

MEDLINE数据库中的主题词和副主题词是由经过培训的专家通过阅读该文献的标题和文摘之后,在《医学主题词表》(Medical Subject Headings, MeSH)中选择的与该文章的主要论点最相关的主题词和副主题词。副主题词是对主题词的限定,把同一主题不同研究方面的特性文献分别集中起来。这种结构化的数据格式为对MEDLINE进行文本数据挖掘,从中抽取医学知识提供了得天独厚的条件。

运用数据库文献记录中的主题词/副主题词关联规则进行挖掘研究直接对MEDLINE系统中的主题词/副主题词的共现情况进行分析,从中挖掘出有意义的规则。在美国国立医学图书馆出版的MEDLINE标引手册中,明确提出对某些无法运用先组式主题词表达的概念可以采用主题词/副主题词概念组配的方法表现不同的逻辑关系,这些主题词/副主题词之间可以是因果关系,如“疾病/药物疗法”与“药物/治疗应用”,表达使用某种药物治疗某种疾病。也可以是相关关系、连锁关系、影响和被影响关系等等。正是基于在文献标引中的这种理论基础,美国哥伦比亚大学医学信息学系的J. Cimino等人认为:尽管在同一篇文章中出现的MeSH的主题词之间没有明确的关系,但是我们还是可以通过分析这些主题词出现的具体情形(如检查每个主题词的副主题词)而推理出这些主题词之间的关系。例如,如果一篇MEDLINE数据库的文献记录中有X疾病的病因和Y药的副作用这两个主题词,人们自然会想到“Y药引起了X病”。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此,我们可以认为这些关系具有语义学上的意义,因而,可以把它们当作医学知识的一种表现形式。随后又进一步将这种原理应用于建立知识库的可行性研究。此外,类似的研究还有:Srinivasan P等开发出了一个系统雏形MeSHmap,该系统主要调查分析MEDLINE系统的MeSH主题词与副主题词的分布和组配情况。在随后的研究中,他们又进一步将该系统应用于对于副主题词在同一篇文献中出现的分析中,如“药物治疗”和“治疗应用”,由此来分析药物和疾病之间的治疗关系。

上述方法运用MEDLINE数据库中主题词和副主题词的组配关系解释蕴藏在文献中的联系并将其以结构化的方式表达,利用的是数据库中比较规范的主题词和副主题词进行进一步的挖掘,而不需要进行自然语言处理,开辟了一条挖掘文本数据的捷径。但是,现有的研究在建立规则的时候必须由掌握医学知识的专业人员人工阅读大量的文献,因此需要耗费人力和物力。同时,这种通过关联分析获得的规则仅仅是二维的,不能建立和解释两个以上元数据组配时的规则。如何自动化地产生多维规则,成为当前运用主题词/副主题词关系进行文本挖掘研究的关键问题。


TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2008-11-24  
      1
2345678
9101112131415
16171819202122
23242526272829
30      

数据统计

  • 访问量: 906
  • 日志数: 13
  • 图片数: 1
  • 建立时间: 2006-11-05
  • 更新时间: 2008-02-12

RSS订阅

Open Toolbar