第三节 文本数据挖掘在生物医学领域中的应用

上一篇 / 下一篇  2006-11-17 22:21:41

在生物医学相关的数据高速增长的同时,生物医学文献也正在以爆炸的速度增长着。到2005年为止,世界上最为权威的医学文献数据库PUBMED已收录世界上70多个国家4800多种期刊上的超过1300万条文献,而且以每天增加2000条文献的速度增长着。出版物的巨大数量使得人们在巨大的文献集中发现和获取感兴趣的信息变得愈加困难,对于如此巨大数量的信息(特别是那些跨学科的知识),仅仅凭借专业研究人员的个人能力是根本无法达到满意效果的。

存储在医学文献中的知识对生物医学的医疗实践、教学和科研都有重要的意义。但是传统的印刷型生物学文献数量巨大,缺乏结构化特征,存在着难以被计算机自动处理分析的“瓶颈”。近年来随着计算机网络技术的发展,期刊文献出现了网络版本,在医学书目数据库(如PubMed)中也收集了大量的生物医学文献摘要,另外在互联网中也出现了如High-WirePubMed Central这样的全文数据库。为开展生物医学相关的文本挖掘提供了广阔的舞台。

在客观需求和条件具备的双重推动下,生物医学领域中的文本挖掘成为目前数据挖掘领域中比较活跃的领域之一,甚至有人将这个领域命名为KDiBL (Knowledge Discovery in Biomedical Literature)。文本挖掘在生物医学领域中的应用,除了可以提高信息管理(文本聚类与分类)的效率之外,更大的意义在于可以通过对文本分析研究帮助人们发现在文本中隐含的知识,从而提高人们对生物医学现象的认识。例如,运用分子生物学文献的挖掘技术来分析海量的生物学数据,可以帮助分子生物学专业人员理解分子生物学实验室研究数据分析结果。因此,生物医学文本挖掘具有更为浓重的知识发现色彩。

PubMed是存储当代生物医学研究高水平文献的权威资源,许多相关研究表明PubMed数据库中富含医学和生物信息知识,是生物学和医学科学研究的重要知识来源,因此PubMed已经成为生物医学文本挖掘的主要语料集。此外,专题生物信息学数据库(如Gene CardsSWISS PROT)中的文本注释也可以作为生物医学文本挖掘的主要数据资源之一。另外如一体化医学语言系统(Unified Medical Language SystemsUMLS)和基因本体(Gene OntologyGO) 等术语概念知识库的建设为基于文献的文本挖掘提供有力的概念术语知识支持,从而从深层次自然语言处理的角度提高文本挖掘的能力。

围绕着PubMed检索系统开展的生物医学文本挖掘主要应用于如下几个方面:


TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2008-11-24  
      1
2345678
9101112131415
16171819202122
23242526272829
30      

数据统计

  • 访问量: 898
  • 日志数: 13
  • 图片数: 1
  • 建立时间: 2006-11-05
  • 更新时间: 2008-02-12

RSS订阅

Open Toolbar