- 論壇徽章:
- 0
|
本帖最后由 aids260 于 2010-03-20 22:17 編輯
#!/usr/local/bin/perl
#done by zmyin aids260@163.com
($input1,$input2,$output)=@ARGV;
open I1,"$input1"||die"$!";
open I2,"$input2"||die"$!";
open O,">>$output"||die"$!";
chomp(@name=<I1>);
$n;
$/=">";
@a;$b;$c;$d;
@cds_seq=<I2>;
$i=0; #cds計數(shù)
foreach $n(@name){
$d=$n;
foreach $b(@cds_seq){
$b=~/(\w+-TA)/;
$c=$1;
if($d eq $1){
$b=~s/>$//;
$b=">".$b;
print O $i;
$i++;
last;
}
}
}
print O "$i full cds\n";
close I1;
close I2;
close O;
上邊是我的源程序,使用命令是 exact-cds-sequence.pl cds-name.txt silkcds.fa cds-sqe.txt
其中exact-cds-sequence.pl是程序名稱 后邊三個參數(shù),前兩個是已有的文件名,最后一個是生成的結(jié)果
我把圖片和 cds-name.txt silkcds.fa 兩個文件都傳上去了,我的目的是(如上傳的圖片所示)把cds-name.txt 的一些基因的名字
比如“BGIBMGA000062-TA”
在silkcds.fa 文件中找到 BGIBMGA000062-TA的名字以及它的全部序列,比如是:
>BGIBMGA000062-TA cds:novel sequence:nscaf1071:1239819:1245122:+ gene:BGIBMGA000062 protein:BGIBMGA000062-PA
ATGAAGTTAGTTCAGTTTTCATACAAAGATAGTCCAAAAAATATACGTGT
GGGCTACCTGGAAGGAGATGATATTGTAGATATTAATAAGGCGGACTCCA
GTTTGCCGACCACTTTGCTCCAAATACTCAGGAATGGAGACTTAGAAAAA
GTGAAGAAGTTGAAATCAACAAAACCAGCAACTATACCACTATCATCAGT
CACTCTAACTGCACCCATACATGGTGTAGATAAAATCCTCTGTATCGGCT
TGAACTACAAGGATCACTGCCAAGAGCAGAATCTCACCCCACCTCCTGTG
CCGATGGTGTTCAGTAAATTTTCAAGCACCATCATTGGACCTGATCAGCC
TGTTAGGATCAGAACTGATGTTACTAAGAAGGTGGACTGGGAGGTGGAGC
TGTGCGTGGTGGTGGGGCGCGAGGCCAGCTGCGTGCGCGAGGAGGACGCG
CTGCAGCACGTGGCCGGGTACACCGTCGCGCAGGACATCAGCGCCAGGGA
CTGGCAGAAAGAGAAGAACATGGGGCAGTTCCTGCTAGGGAAGTCCATGG
ACACGTTCTGTCCGCTGGGCCCGTGCGTGCTGACGAGCGACGAGGTGGGC
GCGGCCGTGGAGCTGCGCGTGTCCTGCTCGCTCAACGGGGTCCTCAAGCA
GAGCAGCAGCACGGCGCAGCTAGTGCACTCCATCCCGAGCCTGCTGCACA
GGATCTCCTCCGTGATGACCCTGGTCCCCGGCGACCTGATCCTGACGGGC
ACCCCGGGGGGCGTGGGCATGTACCGGCAGCCCCCGGAGTACCTGCAGCC
CGGGGACGTGCTCACCAGCGAGATCGAGAAGATCGGCGCCTTCGACGTTC
GCATCGAGAAGTTTTAG
把這些輸入到文件cds-sqe.txt中 |
-
問題.jpg
(227.81 KB, 下載次數(shù): 76)
下載附件
2010-03-20 22:05 上傳
圖片
-
-
文件.rar
2010-03-20 22:09 上傳
點擊文件名下載附件
695.85 KB, 下載次數(shù): 51
參數(shù)里的2個文件
|