
学会看帮助信息
+函数名 ,比如 seq
seq(2,20,2)意思是从2(第一个参数)开始,每次加2(第三个参数),一只到大于20停止
rep(2,10)意思是2重复10次
rep(seq(2,20,2), rep(2,10))看起来比较复杂,看下面这个比较简单:
rep(1:4, c(2,1,2,1))
1、2、3、4四个数(1:4就是1、2、3、4的意思),第一个数重复2次,第二个重复1次,第三个重复2次,第四个重复1次,一一对应,按顺序的
如果rep(a,b)中的a、b两个参数的个数不一样就会报错了
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711outhtml
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=7714
Obs/Exp:101
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
NCBI 分类学数据库(taxonomy database)不是分类学或系统发育信息的信息源(primary source),而且也没有自己的一套完整的分类学系统,相反它只是努力整合各种各样来源的系统发育和分类学的知识,包括发表的文献、基于网络的数据库、序列提交者的建议以及来自NCBI 外部的分类学专家。因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”(Wheeler et al, 2000)。
获取序列所对应的分类学信息有两种方法。
一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件,其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_protdmpgz 和gi_taxid_nucldmpgz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。
对于Windows 用户还有一个文件称为taxdumpzip 文件。文件解压缩后包括1 个prt 文件和6 个dmp 文件。Gencodedmp 文件保存有不同的密码子表,与同目录的gcprt 联合使用;mergeddmp 是保存有合并的taxid 号的对应表;nodesdmp 是结点信息;divisiondmp 是较大的几个分类;namesdmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。
利用ftp 地址的连接利用>
如果该基因编码的蛋白质在PDB数据库里有ID,基因注释里要有PDB id的。基因名字中一般不能用PDB数据库编号的,基因名字有自己通用的命名法则,可以和蛋白质名字类似或大小写的区别。
所以,NCBI数据库中的基因名字一般情况下不可以是蛋白质的PDBID。
基因是基因,蛋白质是蛋白质,基因名字和蛋白质名字不是一回事。NCBI数据库是一个超级大的数据仓库,里面有蛋白质数据库、蛋白质结构数据库、基因序列数据库、基因组序列数据库、蛋白质表达及基因芯片数据库等等,种类非常多。
以上就是关于ncbi中geo数据库中rep1和rep2的区别全部的内容,包括:ncbi中geo数据库中rep1和rep2的区别、生物信息学数据库常用的三种序列格式、谁知道怎样在NCBI中找数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)