一体化医学语言系统
是由美国国立医学图书馆(NLM)1986年开始组织研究和开发的一项长期项目。其宗旨是帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息,使用户能够方便地把分离的信息系统(如计算机病案系统、书目文献数据库、事实数据库和专家系统等)集中起来。
该项目开发的成果是三种机读型的知识库,包括超级词表、语义网络和专家词典。这些知识库相互联系,结合使用的一个整体。其中超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。可以将其广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。专家词典则包括英语词汇数据库及其配套程序。
医学信息学的研究人员可以将这些知识库广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。而语义知识表征就是在UMLS系统上开发出来的。
MetaMap 标引
超级匹配标引(MetaMap Indexing,MMI)项目是主动标引项目(Indexing Initiative project)的一部分。在该项目中,MetaMap用于对生物医学文献,尤其是MEDLINE中的记录进行自动标引。MetaMap在给定的记录中寻找的概念,根据这些概念在文本中出现的位置(如标题)以及该概念的独特性排序,按照一定阈值选取标引词。目前美国国立医学图书馆的标引人员在MEDLINE标引中使用MMI生成的概念排序作为参考。
MataMap 和SemRep
MetaMap最初是为了改善MEDLINE检索而开发出来的,用通过MetaMap发现的超级词表概念来代替文本。这两个程序可以用于提供表15-1中B的语义表达。
专家系统在开始分析生物医学文本的时候,首先通过查询专家词典,判定输入的文本中每一个词汇条目的句法信息。用随机标签解决词性上的不确切,例如,对于ablation of pituitary gland(垂体腺切除)作如下分析:
[[head(ablation)] [prep(of), head(pituitary gland)]]
这种分析被称作不明确的句法分析(underspecified syntactic analysis),因为尽管这种分析可以正确的识别名词词组,但是没有提供整个句子的结构,也就是说,没有尝试在所生成的两个短语之间抽取出它们的关系。例如,对于输入的文本“pancreatic secretory trypsin inhibitor”(分泌型胰蛋白酶抑制物),不明确的句法分析作出如下处理:
[[mod(pancreatic), mod(secretory), mod(trypsin), head(inhibitor)]]
特别注意到,尽管识别出来名词短语的中心词(head)及其修饰语(mod),并没有指出这个短语的内部句法结构。开发者认为这种程度的分析已经足够开展语义解释了。
下一步处理调用MetaMap程序从超级词表中获取概念。该程序利用句法分析的结果,将每一个名词短语分别处理。例如,把对“ablation of pituitary gland”进行不明确句法分析的结果输入MetaMap,发现下列超级词表中的概念:
Excision, NOS (‘Therapeutic or Preventive Procedure’, ‘Research Activity’)
Pituitary Gland (‘Body Part, Organ, or Organ Component’)
MetaMap分四步完成上述任务:
1) 产生变形:对于输入的每一个词(或者多词的术语,如wood alcohol)都生成该词的变形词、同义词以及缩写词的列表。例如,aortic 和arteria aorta 都是aorta的变形。
2) 候选概念检索:在超级词表中检索出含有一个或者多个输入词的字串,这些字串就是匹配的候选概念。例如,“Aorta operations,” “Aorta, abdominal,” 和“Aneurysm, aorta, congenital”等概念都是aorta的候选概念。
3) 候选概念评价:根据集中程度、变异程度、覆盖面和内敛程度,对每一个候选概念都评价其与输入文本的密切程度。
4) 匹配信息:最后,把与输入文本各个部分相匹配的候选概念结合起来生成一个唯一的匹配的概念,重新计算评价总的匹配值;然后根据句法分析和MetaMap提供的超级词表中的概念,调用SemRep程序。该程序在结束的时候查询语义网络提供最终语义解释。例如,假设对“ablation of pituitary gland”进行解释,SemRep会注明对该输入的句法分析结果,它会查询一种规则,该规则认为介词“of”表示的是语义网络中的“LOCATION_OF”关系,然后进一步注明该谓词的语义网络关系是:
Semantic Type 1: ‘Body Part, Organ, or Organ Component’
Relation: LOCATIO N_OF
Semantic Type 2: ‘Therapeutic or Preventive Procedure’
参考对该输入的输出结果,注明文本短语“ablation”在超级词表中的概念是“Excision, NOS”,其语义类型是“Therapeutic or Preventive Procedure”,而“Pituitary Gland”的语义类型是“Body Part, Organ, or Organ Component”。由于这些语义类型与介词“of ( LOCATION _ OF )”适合使用的语义类型相匹配,而且由于相关的名词短语也是介词“of”所允许的项目,结果产生了该短语的语义解释,同时用相应的超级词表概念代替语义网络关系中的语义类型。最后生成下面的语义表达:
Pituitary Gland-LOCATION_OF-Excision, NOS
上述的方法可以作为很多科研项目的基础,用于探索应用文本的语义表达来改善生物医学信息管理。
第一节 MetaMap和SemRep两个程序可以用来处理生物医学信息处理中出现的问题,包括:MEDLINE纪录的自动标引、以概念为基础的扩展查询、超级词表中复杂字串的分析、解剖学文献中专门术语和关系的正确识别、以及生物医学文本中化学键联关系的抽取。EDGAR和ARBITER就是它们在具体学科领域中的应用。
EDGAR和ARBITER
EDGAR (Extraction of Drugs, Genes and Relations)是一个用于在MEDLINE中确定药物、基因关系的程序。它以前面几项工具为基础,以癌症治疗有关的药物和基因作为研究的主要领域,从文本中确认药物、基因和细胞株的名称。
ARBITER (Assess and Retrieve Binding Terminology)则可以从生物医学文本中抽取大分子键联关系,例如下面一段文字:
|
CC chemokine receptor 1 (CCR1) is expressed in neutrophils, monocytes, lymphocytes, and eosinophils, and binds the leukocyte chemoattractant and hematopoiesis regulator macrophage inflammatory protein (MIP)- 1alpha, as well as several related CC chemokines. |
经过该程序处理之后可以生成如下命题:
|
<CC chemokine receptor 1>
BINDS
<leukocyte chemoattractant> |
|
<CC chemokine receptor 1>
BINDS
<hematopoiesis regulator macrophage inflammatory protein-1alpha> |
|
<CC chemokine receptor 1>
BINDS
<related CC chemokine> |
上述两个程序是在MetaMap等工具的基础上开发出来的具体应用程序。此外,还有利用其他方法进行信息抽取的研究。例如,Blashke采用基于规则的方法研究了蛋白质间的相互关系。该系统从一个参考列表中确定蛋白质名称和它们之间的相互关系。它在文本中查找符合“protein A-action-protein B”的短语。他们用该种方法研究细胞循环的控制过程。