<<理解生物信息学>> 阅读笔记第二部分序列联配

<<理解生物信息学>>阅读笔记第二部分序列联配

第四章产生和分析序列联配

这一章主要介绍不同序列之间的联配. 其目的是为了发现同源性和比较新序列与数据库中的序列, 看看他们是否存在相似之处.

[{"url":"/img/understandBioinformatics/4-1.jpg","alt":"4-1"}]

背景: 虽然在数据库中存着上千万的核酸, 蛋白质序列, 但是大多数蛋白质目前还不知道其结构或者功能, 目前的主要挑战是将序列化信息转化为有用的生物知识

联配方法是联配工具的核心, 4.1到4.5主要讲关进步骤(如下图), 4.6~4.10将介绍一些常用的联配工具.
  graph LR
A[产生和分析序列联配] --> B[寻找相似性]
B --> C[评估相似性]
C --> D[打分方法]
D --> E[联配中的空缺]
  

即使是来自两个密切相关物种的同一蛋白质或基因序列也很少是相同的. 理想情况下, 在比较序列时, 当这些序列来自同一个共同祖先时, 从祖先衍生的碱基或者氨基酸进行联配, 相反没有此类信息时, 最好的方法是最大化联配区域的相似性.

假设有两个氨基酸序列: THISSEQUENCE 和 HATSEQUENCE, 联配他们应当使得尽可能多的字母对齐:

T H I S S E Q U E N C E

T H A T S E Q U E N C E

ok, 这很简单, 但是如果我们要比较THATSEQUENCE 和 THISISAIENQUENCE, 其中一个序列插入了三个氨基酸I-S-A, 如何解决这一问题呢? 我们可以引入空缺(gap), 得以最大限度的保留他们之间的相似性, 像这样:

T H - - - - A T S E Q U E N C E

T H I S I S A - S E Q U E N C E

两条序列间不可能只有一个联配, 尤其是当彼此之间不太相符时, 最好的联配也不都是显而易见的, 联配的核心是算法

序列比较的根本问题是, 这种序列之间的相似性究竟是由于偶然产生的, 没有什么生物学意义; 还是由于从一个共同祖先序列衍生的, 并具有同源性.

同源性和相似性

相似性是一个描述性的词汇, 表示两个序列有一定程度的相似

同源性在分子生物学中通常表示从同一祖先而来, 具体通常表现为序列之间的相似性

同源意味着拥有共同的祖先, 因此意味着两个同源的蛋白质极大概率拥有相同的功能, 相似的结构. 自然选择更倾向于接受保持蛋白质折叠和功能的序列突变, 而那些破坏折叠和功能的突变将会被淘汰.

But 1. 相似或者相同的联配残基可能仅仅是由于两个序列相对较近的分歧产生的, 所以不能过高估计同源性, 2. 变异和选择可能会产生新功能的蛋白质即使序列上只有相对较小的突变, 3. 相反, 有些序列之间相似度很低, 但是保留了共同的蛋白质折叠和功能, 不能排除其同源性.

因此, 我们需要一种方式用于检测联配和拟合度和优劣, 此方式包含各个联配方案的最重要特点, 并且必须是定量的, 由此设计了打分方法.
最后我们需要一种方式能区分联配是由于偶然产生的还是由于同源性产生的.

这是显而易见的, 有很多原因导致了这个结果: