发布新日志

  • GOAnnotator:将蛋白质基因注释与文本证据联系起来

    2008-02-12 15:20:45

    利用基因本体的术语给蛋白质进行注释是一项复杂的工作,手工GO注释准确但费时,因此人们提出了利用文本挖掘系统抽取出相关文本自动进行注释。Daraselia N等提出了一种利用文本挖掘中相似度计算的方法,将本体中原有的未经处理的文字与从文献中抽取出来的文本连接起来。文本的选择基于该文本与未合成文本中术语的相似度,除了将未合成的注释具体化,被抽取的文本也产生了新的注释。另外,该方法利用GO的分类体系达到较高的精度。我们的方法被集成到了GOAnnotator,这是一个辅助UniPort蛋白质GO注释合成过程的工具。结论:GO合成器登录GOAnnotator输入66个带有未合成注释的蛋白质,GOAnnotator提供正确率达到93%的正确证据文本。这种高精度的结果主要是由于利用了GO分类体系来选择与来自GOA中未合成的注释的GO术语相类似的GO术语。我们的方法是第一个达到高精度的,急需得到GO合成器的有效支持。GOAnnotator已经作为万维网上的工具免费使用:http://xldb.di.fc.ul.pt/rebil/tools/goa/

       Couto FM, Silva MJ, Lee V, Dimmer E, Camon E, Apweiler R,Kirsch H, Rebholz-Schuhmann D.

     GOAnnotator: linking protein GO annotations to evidence text.J Biomed Discov Collab. 20061:19.

  • 每周一文摘(4)

    2008-01-24 11:41:52

    《美国科学院院报》论文的主题结构和主题突现

    科学研究具有高度的动态性,新的科学领域不断演进,而其他的领域则变得越来越增加或者丧失重要性,融合或者分离。由于科学出版物数目的持续增长,科学家很难掌握自己学科领域的概貌和发展动态,然而,对热点主题解,研究前沿的出现,或者某一领域研究关注点变化的了解掌握则是实验室、政府研究所和公司在做出资源分配决策的时候必不可少的。本文介绍了利用突现诊断算法、共词分析和图形技术来生成可以用于确定主要研究主题和趋势图的方法。该方法应用于分析和勾勒出1982-2001年间发表于《美国科学院院报》上的全部论文集的概貌。有6位领域的专家检查和评论了概貌图,以重建《美国科学院院报》所覆盖的主要研究领域的变革。

    PMID: 14978278 [PubMed - indexed for MEDLINE]

    Proc Natl Acad Sci U S A. 2004 Apr 6;101 Suppl 1:5287-90. Epub 2004 Feb 20

    Mapping topics and topic bursts in PNAS.

    Mane KK, Börner K.

    School of Library and Information Science, Indiana University, 10th Street and Jordan Avenue, Bloomington, IN 47405, USA.

     

  • 每周一文摘(3)

    2008-01-19 13:55:32

    MeInfoText:将基因甲基化与文本挖掘获得的癌症信息关联起来

     

    背景:DNA甲基化是一种重要的基因组的表观遗传修饰。异常的DNA甲基化会导致抑瘤基因的沉默并且在各种人类癌症细胞中常见。随着越来越多的表观遗传研究以电子格式发表,人们希望从生物医学文献中抽取出相关信息。为了便于开展表观遗传研究,我们开发了MeInfoText系统以提供文本中的基因甲基化信息。描述:MeInfoText根据从大量的文献中挖掘出来的相关关系信息,显现出基因甲基化与癌症之间相关性的信息,即各种类型人类癌症的基因甲基化概况,以及特定的某一类型肿瘤的基因甲基化的概况。此外,MeInfoText还提供搜集自因特网上的蛋白质间相互作用以及生物通路的集成信息。MeInfoText还提供因异常甲基化而与癌症发生有关的一组基因的通路聚类信息。系统还从每一个有关甲基化的文摘中搜集了抽取到的证据,其中用高亮来标注其关键词和基因名。该数据库目前存放在:http://mit.lifescience.ntu.edu.tw/,。结论:MeInfoText是一个提供综合性的基因甲基化和癌症相关关系信息的单一的数据库。它对现有的DNA甲基化信息起到补充的作用,并将有益于表观遗传研究和预防癌症。

    MeInfoText: associated gene methylation and cancer information from text mining

    Yu-Ching Fang , Hsuan-Cheng Huang  and Hsueh-Fen Juan

    BMC Bioinformatics 2008, 9:22doi:10.1186/1471-2105-9-22

    Published: 14 January 2008

    全文链接:http://www.biomedcentral.com/1471-2105/9/22

  • 通过矩阵分解从生物医学文献中抽取未知的基因关系

    2008-01-18 13:48:40

    背景

    构建出基于医学文献的基因相互作用网络是文本挖掘在生物信息学中最为重要的应用。从生物医学文献中抽取潜在的基因关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。最近,基于奇异值分解(singular value decomposition)的潜在语义标引(latent semantic indexing)已经应用于基因检索上。然而,用于降低秩矩阵的因子K的取值仍然是一个悬而未解的问题。

    结果

    本文介绍了一种将基因关系的先验知识加入到LSI/SVD中来确定因子数的方法。我们还探讨了利用非负矩阵因子分解(non-negative matrix factorization NMF)通过利用已知的基因关系从生物医学文献中抽取未能识别的基因关系。基于NMF和LSI/SVD的基因检索方法现实出较好的性能。

    结论

    使用某个特定基因的已知的基因关系,我们确定了用于减少矩阵秩的因子数,并且采用LSI/SVD或者GR/NMF方法检索到与该基因相关的未识别的基因。

  • 每周一文摘(1)

    2008-01-17 10:15:11

    [将本人感兴趣的文摘翻译出来,争取每周一篇]

    利用本体为基础的文本挖掘方法生物学关系抽取及查询应答从MEDLINE文摘中

    摘要:

    生物学文本数据存储量的急剧增长使得造成了人类方便有效地获取所需信息上的困难。问题的出现是由于大多数信息都隐含在无结构或者半结构的文本中,这些文本计算机无法轻易地理解。本文介绍了一个基于本体的生物学信息抽取与查询应答系统(Biological Information Extraction and Query AnsweringBIEQA),该系统首先通过对一组存储在生物学本体中的概念进行文本挖掘,然后应用自然语言处理技术和共现分析技术挖掘出概念间可能的生物学关系。系统用文本挖掘方法将每一对生物学概念间频繁出现的生物学关系抽取出来。挖掘出来的关系都标有成员隶属程度的模糊值,该值等于该关系出现频次占整个文献集合中关系频次的比例,称作模糊生物学关系。把从文本集合中抽取出来的模糊生物学关系与其他诸如关系中出现的生物学条目等相关信息存储于数据库中。数据库与问询处理模型集成在一起。查询处理模型带有界面,指导用户生成不同精确度的正规检索策略。

     

    Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining

    Muhammad Abulaisha, and Lipika Deyb, ,

    Data & Knowledge Engineering
    Volume 61, Issue 2, May 2007, Pages 228-262

  • 二 发现关系

    2006-11-20 08:24:23

     

    信息抽取更加复杂的任务是在文本中发现概念之间的相互关系。例如,在确定文本中有基因和蛋白质名称的基础上,进一步确定它们之间的关系。例如,NgWong利用生物医学文献来寻找蛋白质的代谢路径。首先他们利用Fukuda的方法确定蛋白质名称,然后利用基于预先设定的规则确定蛋白之间的相互关系。

                生物医学文本中发现关系研究的背景

    早在上个世纪80年代,芝加哥大学的信息科学荣誉教授Don R. SwansonMEDLINE数据库为样本开展了对科学文献之间隐藏着未被发现的联系的研究,人们由此首次认识到从文献中可以发现或者挖掘到以前未知的知识。

    Don R. Swanson目前是美国芝加哥大学的信息科学荣誉教授,他于1986年首次在医学文献研究中发现了这种关系的存在,他推理的步骤是:

    1)        雷诺氏病是一种治疗方法和病因都未知的血液循环紊乱,在有关雷诺氏病的文献集合中(称之为A文献集),记载了部分雷诺氏病患者血液中有某种异常,如血液粘度升高。

    2)        有关食用鱼油的文献集合中(称之为C文献集),有文献记载食用鱼油能纠正这种异常,例如,它可以降低血液粘度。

    3)        这两种文献集合之间没有重叠部分,也就是说,没有文献同时提到了雷诺氏病和食用鱼油,也没有文献同时引用了这两个文献集合中的文献。

    4)      Swanson把这两种知识联系起来,得出食用鱼油(A)应该对雷诺氏病(C)患者有帮助的假设。而联系这两个文献集合的主要概念就是血液粘稠度,Swanson称之为B。正是通过B,两个互相表面没有直接联系的研究主题被联系到一起。

    在这个假说提出大约两年后,有人通过临床实验证实了这一点。1988年,Swanson用他的方法提出了周期性偏头痛与镁缺乏之间的联系,后来这种关系也被临床证实。此后,他发现了很多具有隐藏联系的例子,当时他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘到以前未知的知识。

    近年来,随着研究的深入,Swanson进一步扩展自己的研究范围,把自己的研究方向从发现无联系的事件(特定A与特定C之间),扩展到有微弱联系的事件。也就是说,我们可能知道AC在实验上有联系,但是不知道它们具体是怎样联系的,或者我们想看一看关于AC之间可能的关系。这时候,同样可以运用SwansonA-B-C的原理来发现AC之间的联系B。如一种饮食(A)与一种疾病(C)之间有着什么样的关系,如:“A物质,或者A物质缺乏,会影响到疾病C发生的危险度吗?”

    在探究AC之间的潜在关系之前,应当首先进行传统的MEDLINE交集检索“A and C”,以判定在医学文献中是否有该问题的直接答案。但是,如果A影响了某种因子(X),这个因子X又影响了C,例如,有两篇文章的标题分别是:

    ①偏头痛与癫痫的关系

    ②前瞻性报告:镁缺乏鼠作为癫痫病的动物模型

    通过标题或者文摘,我们可以发现偏头痛(A)与镁(C)之间的关系是通过癫痫(B)联系起来的。但是如果检索者事先不知道B,即使AC的文献中都分别提及了B,那么通过传统的数据库检索就不能判定是否有此类的B存在。那么在传统的检索中就不能发现AC之间隐藏着的这种联系。

    根据上述原理,Swanson等开发出用于发现文献之间潜在联系的工具软件ARROWSMITH。该软件的作用是将AC两个主题的文献集合中共有的标题词列举出来,由此来反映两个表面上无联系的事件或者联系微弱的事件(如偏头痛与镁)之间的潜在的联系(癫痫)。用户在系统指导下进行两次PubMed检索,分别产生了两个文献集:AC文献集,将其传送给该程序之后,返回一个显示两个文献集中文献标题中共有的词汇的列表。该工具在网上运行,可以免费使用,其网址为http://arrowsmith.psych.uic.edu/

    2001,Swanson 等利用ARROWSMITH开展了可作为生物武器的潜在病毒的研究,发现了还有很多病毒可作为潜在的生物学武器。能够成为生物武器的要受到诸多条件的限制,主要是要有很强的致病性和很强的传播性。但是同时涉及到病毒这两个特性的文章却特别少。于是,Swanson等人将这两个条件确定为AC,力图通过与AC有共同联系B找出更多符合条件的病毒。

    根据这一设计,他们选定的一类是关于病毒毒力遗传方面(virulence- genetic)的文章,另一类是关于病毒疾病传播的文章,包括病毒的昆虫媒介传播(insect vectors),空气传播(air),以及它在空气中的稳定性(stability of viruses in air)。

    将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)。

                利用主题词/副主题词之间的关系

    MEDLINE数据库中的主题词和副主题词是由经过培训的专家通过阅读该文献的标题和文摘之后,在《医学主题词表》(Medical Subject Headings, MeSH)中选择的与该文章的主要论点最相关的主题词和副主题词。副主题词是对主题词的限定,把同一主题不同研究方面的特性文献分别集中起来。这种结构化的数据格式为对MEDLINE进行文本数据挖掘,从中抽取医学知识提供了得天独厚的条件。

    运用数据库文献记录中的主题词/副主题词关联规则进行挖掘研究直接对MEDLINE系统中的主题词/副主题词的共现情况进行分析,从中挖掘出有意义的规则。在美国国立医学图书馆出版的MEDLINE标引手册中,明确提出对某些无法运用先组式主题词表达的概念可以采用主题词/副主题词概念组配的方法表现不同的逻辑关系,这些主题词/副主题词之间可以是因果关系,如“疾病/药物疗法”与“药物/治疗应用”,表达使用某种药物治疗某种疾病。也可以是相关关系、连锁关系、影响和被影响关系等等。正是基于在文献标引中的这种理论基础,美国哥伦比亚大学医学信息学系的J. Cimino等人认为:尽管在同一篇文章中出现的MeSH的主题词之间没有明确的关系,但是我们还是可以通过分析这些主题词出现的具体情形(如检查每个主题词的副主题词)而推理出这些主题词之间的关系。例如,如果一篇MEDLINE数据库的文献记录中有X疾病的病因和Y药的副作用这两个主题词,人们自然会想到“Y药引起了X病”。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此,我们可以认为这些关系具有语义学上的意义,因而,可以把它们当作医学知识的一种表现形式。随后又进一步将这种原理应用于建立知识库的可行性研究。此外,类似的研究还有:Srinivasan P等开发出了一个系统雏形MeSHmap,该系统主要调查分析MEDLINE系统的MeSH主题词与副主题词的分布和组配情况。在随后的研究中,他们又进一步将该系统应用于对于副主题词在同一篇文献中出现的分析中,如“药物治疗”和“治疗应用”,由此来分析药物和疾病之间的治疗关系。

    上述方法运用MEDLINE数据库中主题词和副主题词的组配关系解释蕴藏在文献中的联系并将其以结构化的方式表达,利用的是数据库中比较规范的主题词和副主题词进行进一步的挖掘,而不需要进行自然语言处理,开辟了一条挖掘文本数据的捷径。但是,现有的研究在建立规则的时候必须由掌握医学知识的专业人员人工阅读大量的文献,因此需要耗费人力和物力。同时,这种通过关联分析获得的规则仅仅是二维的,不能建立和解释两个以上元数据组配时的规则。如何自动化地产生多维规则,成为当前运用主题词/副主题词关系进行文本挖掘研究的关键问题。

  • 术语识别(续)

    2006-11-18 08:31:59Digest 1

                           一体化医学语言系统

    是由美国国立医学图书馆(NLM1986年开始组织研究和开发的一项长期项目。其宗旨是帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息,使用户能够方便地把分离的信息系统(如计算机病案系统、书目文献数据库、事实数据库和专家系统等)集中起来。

    该项目开发的成果是三种机读型的知识库,包括超级词表、语义网络和专家词典。这些知识库相互联系,结合使用的一个整体。其中超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。可以将其广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。专家词典则包括英语词汇数据库及其配套程序。

    医学信息学的研究人员可以将这些知识库广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。而语义知识表征就是在UMLS系统上开发出来的。

                           MetaMap 标引

    超级匹配标引(MetaMap IndexingMMI)项目是主动标引项目(Indexing Initiative project)的一部分。在该项目中,MetaMap用于对生物医学文献,尤其是MEDLINE中的记录进行自动标引。MetaMap在给定的记录中寻找的概念,根据这些概念在文本中出现的位置(如标题)以及该概念的独特性排序,按照一定阈值选取标引词。目前美国国立医学图书馆的标引人员在MEDLINE标引中使用MMI生成的概念排序作为参考。

                           MataMap SemRep

    MetaMap最初是为了改善MEDLINE检索而开发出来的,用通过MetaMap发现的超级词表概念来代替文本。这两个程序可以用于提供表15-1B的语义表达。

    专家系统在开始分析生物医学文本的时候,首先通过查询专家词典,判定输入的文本中每一个词汇条目的句法信息。用随机标签解决词性上的不确切,例如,对于ablation of pituitary gland(垂体腺切除)作如下分析:

    [[head(ablation)] [prep(of), head(pituitary gland)]]

    这种分析被称作不明确的句法分析(underspecified syntactic analysis),因为尽管这种分析可以正确的识别名词词组,但是没有提供整个句子的结构,也就是说,没有尝试在所生成的两个短语之间抽取出它们的关系。例如,对于输入的文本“pancreatic secretory trypsin inhibitor”(分泌型胰蛋白酶抑制物),不明确的句法分析作出如下处理:

     [[mod(pancreatic), mod(secretory), mod(trypsin), head(inhibitor)]]

    特别注意到,尽管识别出来名词短语的中心词(head)及其修饰语(mod),并没有指出这个短语的内部句法结构。开发者认为这种程度的分析已经足够开展语义解释了。

    下一步处理调用MetaMap程序从超级词表中获取概念。该程序利用句法分析的结果,将每一个名词短语分别处理。例如,把对“ablation of pituitary gland”进行不明确句法分析的结果输入MetaMap,发现下列超级词表中的概念:

    Excision, NOS (‘Therapeutic or Preventive Procedure’, ‘Research Activity’)

    Pituitary Gland (‘Body Part, Organ, or Organ Component’)

    MetaMap分四步完成上述任务:

    1)        产生变形:对于输入的每一个词(或者多词的术语,如wood alcohol)都生成该词的变形词、同义词以及缩写词的列表。例如,aortic arteria aorta 都是aorta的变形。

    2)        候选概念检索:在超级词表中检索出含有一个或者多个输入词的字串,这些字串就是匹配的候选概念。例如,“Aorta operations,” “Aorta, abdominal,” “Aneurysm, aorta, congenital”等概念都是aorta的候选概念。

    3)        候选概念评价:根据集中程度、变异程度、覆盖面和内敛程度,对每一个候选概念都评价其与输入文本的密切程度。

    4)        匹配信息:最后,把与输入文本各个部分相匹配的候选概念结合起来生成一个唯一的匹配的概念,重新计算评价总的匹配值;然后根据句法分析和MetaMap提供的超级词表中的概念,调用SemRep程序。该程序在结束的时候查询语义网络提供最终语义解释。例如,假设对“ablation of pituitary gland”进行解释,SemRep会注明对该输入的句法分析结果,它会查询一种规则,该规则认为介词“of”表示的是语义网络中的“LOCATION_OF”关系,然后进一步注明该谓词的语义网络关系是:

    Semantic Type 1: ‘Body Part, Organ, or Organ Component’

    Relation: LOCATIO N_OF

    Semantic Type 2: ‘Therapeutic or Preventive Procedure’

    参考对该输入的输出结果,注明文本短语“ablation”在超级词表中的概念是“Excision, NOS”,其语义类型是“Therapeutic or Preventive Procedure”,而“Pituitary Gland”的语义类型是“Body Part, Organ, or Organ Component”。由于这些语义类型与介词“of ( LOCATION _ OF )”适合使用的语义类型相匹配,而且由于相关的名词短语也是介词“of”所允许的项目,结果产生了该短语的语义解释,同时用相应的超级词表概念代替语义网络关系中的语义类型。最后生成下面的语义表达:

    Pituitary Gland-LOCATION_OF-Excision, NOS

    上述的方法可以作为很多科研项目的基础,用于探索应用文本的语义表达来改善生物医学信息管理。

    第一节       MetaMapSemRep两个程序可以用来处理生物医学信息处理中出现的问题,包括:MEDLINE纪录的自动标引、以概念为基础的扩展查询、超级词表中复杂字串的分析、解剖学文献中专门术语和关系的正确识别、以及生物医学文本中化学键联关系的抽取。EDGARARBITER就是它们在具体学科领域中的应用。

                           EDGARARBITER

    EDGAR (Extraction of Drugs, Genes and Relations)是一个用于在MEDLINE中确定药物、基因关系的程序。它以前面几项工具为基础,以癌症治疗有关的药物和基因作为研究的主要领域,从文本中确认药物、基因和细胞株的名称。

    ARBITER (Assess and Retrieve Binding Terminology)则可以从生物医学文本中抽取大分子键联关系,例如下面一段文字:

     

    CC chemokine receptor 1 (CCR1) is expressed in neutrophils, monocytes, lymphocytes, and eosinophils, and binds the leukocyte chemoattractant and hematopoiesis regulator macrophage inflammatory protein (MIP)- 1alpha, as well as several related CC chemokines.

    经过该程序处理之后可以生成如下命题:

    <CC chemokine receptor 1>

    BINDS

    <leukocyte chemoattractant>

    <CC chemokine receptor 1>

    BINDS

    <hematopoiesis regulator macrophage inflammatory protein-1alpha>

    <CC chemokine receptor 1>

    BINDS

    <related CC chemokine>

    上述两个程序是在MetaMap等工具的基础上开发出来的具体应用程序。此外,还有利用其他方法进行信息抽取的研究。例如,Blashke采用基于规则的方法研究了蛋白质间的相互关系。该系统从一个参考列表中确定蛋白质名称和它们之间的相互关系。它在文本中查找符合“protein A-action-protein B”的短语。他们用该种方法研究细胞循环的控制过程。

  • 一 概念识别

    2006-11-18 08:25:14

    围绕着PubMed检索系统开展的生物医学文本挖掘主要应用于如下几个方面:

              概念识别

    信息抽取是指在非结构化的自然语言文本中定位相应的结构化数据单元,从而使自由文本数据成为相应的结构化数据,它是文本挖掘的前期步骤和基础。

    信息抽取的一个基本应用是识别文本中出现的概念,这是许多研究项目的基础。例如一个系统要在文献中确定基因与蛋白质的相互作用,首先该系统要判定哪些词表示基因,那些代表蛋白质。一个有效的系统必须能够扫描文档,并提取出相关的概念。

                概念识别的发展背景

    最早开展识别文档中的蛋白质名称研究的是Fukuda。他开发了基于规则的系统PROPER(PROtein Proper-noun phrase Extracting Rules),该系统通过分析词的上下文、词的语法属性、词串自身的特点(如出现大写字母,数字和精确蛋白质名称的特殊后缀等)来判定该词是否是蛋白质名称。这种在生物医学文献中提取蛋白质名称的方法不需要预先准备特定的词典,不受名称是已知的还是新定义的影响,而且不受判别对象是单词还是词组的限制。因此,这种方法从句子中提取物质名称的准确性比较高。

    Hatzivassiloglou采用监督的机器学习方法来判断文档中的词是mRNA、基因、还是蛋白质。他发现朴素贝叶斯分类和决策树算法的效果相似,但是朴素贝叶斯算法的计算强度较低。他们还发现对于数据的前期处理可以影响系统的性能。

    相关的研究还有Yuka T等建立了一个以本体论为基础的面向生物学的词表,以此来从文献中识别生物学名称;Collier N等运用隐马尔科夫模型技术从MEDLINE摘要和分子生物学文本中自动提取专有名词;Wilbur W等采用以k-grams训练的贝叶斯分类器来识别化学物质名称,这些改进都进一步提高了物质名称识别的准确度和特异度。

                生物医学文本数据挖掘的基础和工具:语义知识表征项目

    语义知识表征项目(Semantic Knowledge RepresentationSKR)是由美国国立医学图书馆在1998年开始启动的一项科研项目。对文本中所包含知识进行正确表达是真正掌握医学信息的核心。语义知识表征项目的目标是有效而可靠地管理隐含在自然语言文本中的信息。该项目利用美国国立医学图书馆现有的资源,尤其是一体化医学语言系统(UMLS)的知识库和SPECIALIST系统所提供的自然语言处理工具,开发出可以表达生物医学文本的实用程序。

    该系统表述文本中的信息的方法可以通过下面的例子说明:

    第二节       15-1 医学文本的语义表达

    A

    We used hemofiltration to treat a patient with digoxin overdose complicated by refractory hyperkalemia.

    B

    Hemofiltration-TREATS-Overdose

    Digoxin-CAUSES-Overdose

    Overdose-OCCURS_IN-Patients

    Hyperkalemia-COMPLICATES-Overdose

     

    A是一段医学文献中的自由文本(我们使用血液过滤方法来治疗难治性高血钾的地高辛过量),B是对文本A中所包含知识的表达。B中所列出的每一个条目称作命题(proposition),每一个命题中大写的谓词(如TREATSCAUSES等)表示的是个体之间的关系,这种关系都是在UMLS语义网络中所规定的;每一个体也是来自于UMLS超级词表中的规范化的概念。B中的命题的集合组成了对文本A的语义表达,从上面例子可以看出,尽管这种表达并不完全,但是还是把文本中的主要概念及其关系表达出来了。

    语义知识表征有下面几个部分组成(如图):

     

     

     

          

      语义知识表征的组成成分

                          

  • 第三节 文本数据挖掘在生物医学领域中的应用

    2006-11-17 22:21:41

    在生物医学相关的数据高速增长的同时,生物医学文献也正在以爆炸的速度增长着。到2005年为止,世界上最为权威的医学文献数据库PUBMED已收录世界上70多个国家4800多种期刊上的超过1300万条文献,而且以每天增加2000条文献的速度增长着。出版物的巨大数量使得人们在巨大的文献集中发现和获取感兴趣的信息变得愈加困难,对于如此巨大数量的信息(特别是那些跨学科的知识),仅仅凭借专业研究人员的个人能力是根本无法达到满意效果的。

    存储在医学文献中的知识对生物医学的医疗实践、教学和科研都有重要的意义。但是传统的印刷型生物学文献数量巨大,缺乏结构化特征,存在着难以被计算机自动处理分析的“瓶颈”。近年来随着计算机网络技术的发展,期刊文献出现了网络版本,在医学书目数据库(如PubMed)中也收集了大量的生物医学文献摘要,另外在互联网中也出现了如High-Wire