笔记 14 生物信息学数据库
14.1 数据结构
- 列代表特征 行代表条目
 - 每个条目有一个唯一性特征
 - 数据表可通过列链接成为关系数据库
 
14.2 Pubmed 搜索
- PubMed search tags
- [AD] – Affiliation (company or school)
 - [ALL] – All fields (eliminates defaults)
 - [AU] or [AUTH] – Author
 - [1AU] – First author
 - [ECNO] – Enzyme Commission Numbers
 - [EDAT] – Entry date (YYYY/MM/DD)
 - [ISS] - Issue # of journal
 - [JOUR] - Journal (Title, Abbreviation , ISSN)
 - [LA] – Language
 - [PDAT] – Publication date (YYYY/MM/DD)
 - [PT] – Publication type
 - [SUBS] – Substance name
 - [TIAB] – Title/Abstract
 - [TW] – Text words
 - [UID] – Unique identifiers (primary keys)
 - [VOL] or [VI] – Volume of journal
 
 - MeSH terms [MH][MAJR][SH]
- 被 MeSH 索引的关系数据库
 - 保守性检索 有层级关系
 
 - 时间段搜索 冒号分割 YYYY/MM/DD:YYYY/MM/DD
 - 序列长度搜索 [SLEN] 可以是蛋白 可以是核酸
 - 蛋白分子量搜索 [MOLWT]
 - 物种搜索 [ORGN]
 - Nucleotide 序列蛋白数据库
 - MMDB 3D结构数据库
 - Genome 基因组数据库
 - OMIM 人类孟德尔遗传数据库 用来探索等位基因问题
 - 分类数据库 用来界定分类
 - GEO 基因芯片的实验数据
 - SNP 基因指纹数据库
 
14.3 动态规划
- 用于序列比对
 - 对角线得分 按总分评价比对结果
 - 可全局 可局部
 - 序列比对指标是特异性与相似性
 - 特异性指精确匹配比率
 - 相似性指精确匹配加化学相似性比率 结构相近则相似
 - FASTA 慢准 BLAST 快
 - 三种情况 匹配 不匹配 间隔
 - 间隔罚分
 
14.4 得分矩阵
- 考虑突变的比对
 - 蛋白的自然突变率矩阵PM1
 - 矩阵自相乘得到外推矩阵 PM10 PM250 取对数为打分矩阵
 - 取不同矩阵源于研究目的对多样性的判断
 
14.5 E 值
- 表示序列的同源性 比对得分的稀有性
 - 两个参数 数据库大小(N) 比对得分(S) E = N/S
 - 数据库越大越可能随机碰到相同序列 得分越高越可能同源
 - E值很小说明同源性很高 E值很大什么说明不了
 - 一般阈值1e-04
 
14.6 PSI-BLAST
- 先用BLAST在一定E值上建库
 - 计算新库的氨基酸概率 再与全库比对得分 得到统计显著性
 - 可以发现BLAST未发现的序列 建立蛋白家族
 
14.7 蛋白
- Profiles 定量描述
 - Patterns 定性描述
 - Signature 蛋白保守序列
 - motif 少于20个氨基酸 指示二级结构
 - Domains 超过40个氨基酸 蛋白的球状区
 - 共同点 保守
 - 正则表达式表示保守区
- E-X(2,4)-[FHM]-X(4)-{P}-L
 - E后随意两个,三个,四个然后FHM其中一个,然后随意四个,然后一个不是P,最后为L
 - 可以精确可以模糊
 - 没有E值
 
 
14.8 蛋白结构预测
- 分子量 道尔顿(Da)描述质量
 - 等电点 蛋白不带电的pH值
- 小于7 酸性 中性带负电
 - 大于7 碱性 中性带正点
 
 - 网站计算
 - 蛋白定位 分泌 胞内 核内
- MITOPRED 预测线粒体蛋白
 
 
14.9 细菌基因组
14.10 病毒
- 三种 RNA DNA 逆转录病毒 突变快
 - RNA病毒三种 双链 正链 负链
 - 逆转录基因组简单 Gag Pol Env
 - 凝集素等决定病毒亚型
 
14.11 单核苷酸多态性(SNP)
- 至少1%种群中存在的DNA单核苷酸变化
 - 后果
- 编码区改变影响表型
 - 不改变蛋白序列的编码区可能影响mRNA加工
 - 启动子或调控区可能影响表达
 - 其他区没有影响 可作为染色体标记- 类型
 - 不改变氨基酸
 - 改变氨基酸
 - 非编码区
 
 - 数据库
- dbSNP
 - SNPEffect SNPs对蛋白的影响
 - SNPedia SNPs的临床效应
 - 1000 基因组外显子计划 第二代测序的发展
 
 
14.12 真核基因预测
- CDS是mRNA的子集
 - CDS可能比mRNA外显子少
 - 基因预测只能发现编码区外显子
 - 有些转录变化不改变蛋白序列:UTR区与同义密码子
 
14.13 DNA指纹
- 重复 突变会影响限制性片段长度
 - VNTR 用来排除嫌犯
 - PCR 用来扩增相关片段
 - CODIS 区域在美国用来鉴定身份
 
14.14 Ensembl
- 外显子基因组学数据库
 - 可选择人类 鼠 斑马鱼等常见物种