<<理解生物信息学>> 阅读笔记 第二部分 序列联配
<<理解生物信息学>>阅读笔记 第二部分 序列联配
第四章 产生和分析序列联配
这一章主要介绍不同序列之间的联配. 其目的是为了发现同源性和比较新序列与数据库中的序列, 看看他们是否存在相似之处.
背景: 虽然在数据库中存着上千万的核酸, 蛋白质序列, 但是大多数蛋白质目前还不知道其结构或者功能, 目前的主要挑战是将序列化信息转化为有用的生物知识
序列联配的原理
设计序列间的比较是困难的:
- 目前存在大量可搜索到的信息
- DNA和蛋白质序列在进化的过程中存在多种方式的改变
点突变会造成氨基酸的不同, 插入和删除更会导致序列长度发生变化, 还有更加复杂的情况, 如两个不同基因不过序列的融合. 大多情况下, 突变会使其中一个副本不在表达, 或者不能生成有功能的蛋白质(基因和假基因).
总体来说, 能使基因序列长度发生变化的突变掩盖地底层序列相似性的能力较强. 因此需要联配来揭示序列之间的最大相似性.
联配是在两个或更多序列的相同区域寻找最大相似性的任务
联配方法是联配工具的核心, 4.1到4.5主要讲关进步骤(如下图), 4.6~4.10将介绍一些常用的联配工具.
graph LR A[产生和分析序列联配] --> B[寻找相似性] B --> C[评估相似性] C --> D[打分方法] D --> E[联配中的空缺]
- 比较序列
即使是来自两个密切相关物种的同一蛋白质或基因序列也很少是相同的. 理想情况下, 在比较序列时, 当这些序列来自同一个共同祖先时, 从祖先衍生的碱基或者氨基酸进行联配, 相反没有此类信息时, 最好的方法是最大化联配区域的相似性.
假设有两个氨基酸序列: THISSEQUENCE 和 HATSEQUENCE, 联配他们应当使得尽可能多的字母对齐:
T H I S S E Q U E N C E
T H A T S E Q U E N C E
ok, 这很简单, 但是如果我们要比较THATSEQUENCE 和 THISISAIENQUENCE, 其中一个序列插入了三个氨基酸I-S-A, 如何解决这一问题呢? 我们可以引入空缺(gap), 得以最大限度的保留他们之间的相似性, 像这样:
T H - - - - A T S E Q U E N C E
T H I S I S A - S E Q U E N C E
两条序列间不可能只有一个联配, 尤其是当彼此之间不太相符时, 最好的联配也不都是显而易见的, 联配的核心是算法
- 联配可以揭示序列之间的同源性
序列比较的根本问题是, 这种序列之间的相似性究竟是由于偶然产生的, 没有什么生物学意义; 还是由于从一个共同祖先序列衍生的, 并具有同源性.
同源性和相似性
相似性是一个描述性的词汇, 表示两个序列有一定程度的相似
同源性在分子生物学中通常表示从同一祖先而来, 具体通常表现为序列之间的相似性
同源意味着拥有共同的祖先, 因此意味着两个同源的蛋白质极大概率拥有相同的功能, 相似的结构. 自然选择更倾向于接受保持蛋白质折叠和功能的序列突变, 而那些破坏折叠和功能的突变将会被淘汰.
But 1. 相似或者相同的联配残基可能仅仅是由于两个序列相对较近的分歧产生的, 所以不能过高估计同源性, 2. 变异和选择可能会产生新功能的蛋白质即使序列上只有相对较小的突变, 3. 相反, 有些序列之间相似度很低, 但是保留了共同的蛋白质折叠和功能, 不能排除其同源性.
因此, 我们需要一种方式用于检测联配和拟合度和优劣, 此方式包含各个联配方案的最重要特点, 并且必须是定量的, 由此设计了打分方法.
最后我们需要一种方式能区分联配是由于偶然产生的还是由于同源性产生的.
- 比较蛋白质序列比比较DNA序列更容易检测同源性
这是显而易见的, 有很多原因导致了这个结果:
- 与只有4种碱基的DNA序列相比, 蛋白质序列有20种氨基酸, 因此蛋白质序列包含的信息更加丰富
- 遗传密码是冗余的, 具有简并性
- …
不过很多情况下只能使用DNA来进行比较.