DNA的生物资讯学指导

生物资讯学影响了DNA序列资料的运用、搜寻与资料挖掘工作,并发展出各种用于储存并搜寻DNA序列的技术,可进一步应用于计算机科学,尤其是字串搜寻算法、机器学习以及数据库理论。字串搜寻或比对算法是从较大的序列或较多的字母中,寻找单一序列或少数字母的出现位置,可发展用来搜寻特定的核苷酸序列。在其他如文本编辑器的应用里,通常可用简单的算法来解决问题,但只有少量可辨识特征的DNA序列,却造成这些算法的运作不良。序列比对则试图辨识出同源序列,并定位出使这些序列产生差异的特定突变位置,其中的多重序列比对技术可用来研究种系发生关系及蛋白质的功能。由整个基因组所构成的资料含有的大量DNA序列,例如人类基因组计划的研究对象。若要将每个染色体上的每个基因,以及负责调控基因的位置都标示出来,会相当困难。DNA序列上具有蛋白质或RNA编码特征的区域,可利用基因识别算法辨识出来,使研究者得以在进行实验以前,就预测出生物体内可能表现出来的特殊基因产物。