亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 6009 | 回復: 13
打印 上一主題 下一主題

菜鳥求助~如何獲取1條核苷酸翻譯后最長的那條蛋白序列 [復制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2014-08-13 11:19 |只看該作者 |倒序瀏覽
本帖最后由 cxrfly 于 2014-08-13 14:36 編輯

一條核苷酸序列,如U1,它對應的翻譯氨基酸序列具有53條(U1_1  to U1_53);如另外一條U2,對應的氨基酸序列有18條(U2_1 to U2_'18')。類似這樣的核苷酸序列有2萬條,對應的氨基酸序列在一個文件里。現(xiàn)在我想提取每條核苷酸對應的可能氨基酸翻譯中最長的那條氨基酸序列及其ID號(即類似U1或者U2各自對應的最長氨基酸序列),如何實現(xiàn)阿?

菜鳥,剛學Perl,還不太會寫腳本阿。求好心大俠是否幫我寫一個?急阿~

>U1_1 [3 - 104]
VLDLFVAHHYIRRQRARHKIGQISHFWVITQLRI
>U1_2 [1 - 111]
KYSIFSLRIIIFEDSELATKSVRSAIFGSSLSFGSKK
>U1_3 [2 - 118]
STRSFRCASLYSKTASSPQNRSDQPFLGHHSASDLKSEA
>U1_4 [125 - 193]
SRRSTFELGLHPPWRTWNFGHQV
>U1_5 [108 - 215]
KVRRDDLAGRHSSWDCTLPGGHGILVIRFDEHMALL
>U1_6 [115 - 222]
GVMISQVDIRVGTAPSLEDMEFWSSGLMSTWLCSKK
>U1_7 [200 - 232]
AHGFALRNKRH
>U1_8 [219 - 314]
EINATDALVSEHEWFDVRVPDNNCAVAFNVSM
>U1_9 [226 - 330]
TPLTRSFPNMNGSMYAFQTITVRWPSTCRCKICCT
>U1_10 [287 - 364]
LCGGLQRVDVKSAARRTWPLCSPSRQ
>U1_11 [368 - 403]
IPSQNFLRLRRL
>U1_12 [318 - 536]
NLLHVERGRCVRHHVSEFQAKTFCDYVACSGFRALASVFIPVYPPCIASRTHVERQDMVV
EHFHAHTIHGITQ
>U1_13 [407 - 559]
WLQSFGLCIYSSVSTMHRQSHACRTARYGGRTLPCAYHSWHHAVGASGSSR
>U1_14 [334 - 606]
NVAVVFAITSVNSKPKLSAITSLVVASELWPLYLFQCIHHASPVARMSNGKIWWSNTSMR
IPFMASRSRGFWVISLIGTGLLVSTTTSAIR
>U1_15 [581 - 673]
FQPRLQQSDRSSPRQSTVRRRSALPSASDTQ
>U1_16 [677 - 718]
ESRYAVYEYFLPDT
>U1_17 [540 - 731]
GLLGHLVNRNGAVSFNHDFSNPIGVLHASRQFVEDQRCHLLQTPSRNLDTPCTSIFSQIH
DIPL
>U1_18 [722 - 826]
YPVVTGVGTAIFSGLGQLASPFHNPSSNAYFPARP
>U1_19 [610 - 843]
EFSTPVDSSSKISAAICFRHPVGISIRRVRVFSPRYMISRCDGCRYSNFLRPWTTCISLS
QPFFKCIFSRSALSRCSS
>U1_20 [735 - 872]
RVSVQQFSQALDNLHLPFTTLLQMHIFPLGPESLFQLTNTHLLPHH
>U1_21 [847 - 894]
RIHTSFHTTDIPLDIV
>U1_22 [830 - 940]
VVVPADEYTPPSTPLTYRWTLYDTIGLSYVVASSCLG
>U1_23 [944 - 976]
FATASTSSRAL
>U1_24 [898 - 1038]
HDRSFLRRGFFLPRMICNCFNFISSSLTSSRNSISWKRRSFLALFGS
>U1_25 [980 - 1042]
LRPATRSVGSDVHFLPCSDRS
>U1_26 [1084 - 1152]
VSVFVTSGAFTHWNGVTGSSSVP
>U1_27 [876 - 1193]
HTAGHCMTRSVFLTSWLLLASDDLQLLQLHLELFDFVPQLDQLEATFISCLVRIVVEFLL
LELRLCRLMSQRIRHIWCIYPLEWGYRQQFRAIVSDIVVHCAQKHL
>U1_28 [1156 - 1194]
SPISSSIALRSTS
>U1_29 [1061 - 1195]
VEVVQTHESAYSSHLVHLPTGMGLQAAVPCHSLRYRRPLRSEAPP
>U1_30 [1180 - 1133] (REVERSE SENSE)
AQWTTISETMARNCCL
>U1_31 [1194 - 1081] (REVERSE SENSE)
GGASERNGRRYRRLWHGTAACNPIPVGKCTRCDEYADS
>U1_32 [1077 - 1018] (REVERSE SENSE)
VCTTSTQEEETQLRSEQGKK
>U1_33 [1084 - 1001] (REVERSE SENSE)
LMSLHNLNSRRRNSTTIRTRQEMNVASN
>U1_34 [997 - 965] (REVERSE SENSE)
SSCGTKSKSSR
>U1_35 [1014 - 916] (REVERSE SENSE)
TSLPTDRVAGRSQRARDEVEAVANHPRQEEATT
>U1_36 [955 - 803] (REVERSE SENSE)
SSCKSSEARRSHDVRKTDRVIQCPAVCQWCGRRCVFVSWNNDSGPSGKICI
>U1_37 [912 - 790] (REVERSE SENSE)
ERPIVSYNVQRYVSGVEGGVYSSAGTTTQGRAGKYAFEEGL
>U1_38 [799 - 761] (REVERSE SENSE)
RRVVKGRCKLSKA
>U1_39 [757 - 665] (REVERSE SENSE)
ENCCTDTRHNGISCIWEKILVHGVSRFLLGV
>U1_40 [786 - 598] (REVERSE SENSE)
KGDASCPRPEKIAVPTPVTTGYHVSGRKYSYTAYRDSYWVSEADGSADLRRTVDWRGELL
SDC
>U1_41 [643 - 554] (REVERSE SENSE)
SSTNCRLAWRTPIGLLKSWLKLTAPFRLTR
>U1_42 [528 - 436] (REVERSE SENSE)
CHEWYAHGSVRPPYLAVRHACDWRCMVDTLE
>U1_43 [520 - 395] (REVERSE SENSE)
MVCAWKCSTTISCRSTCVRLAMHGGYTGINTEAKALKPLQAT
>U1_44 [411 - 364] (REVERSE SENSE)
SHYKRRNRRKFWLGIH
>U1_45 [391 - 359] (REVERSE SENSE)
SQKVLAWNSLT
>U1_46 [360 - 304] (REVERSE SENSE)
RDGEHNGHVLRAADFTSTR
>U1_47 [355 - 218] (REVERSE SENSE)
WRTQRPRSTCSRFYIDTLKATAQLLSGTRTSNHSCSETSASVAFIS
>U1_48 [300 - 190] (REVERSE SENSE)
RPPHSYCLERVHRTIHVRKRARQWRLFLRAKPCAHQT
>U1_49 [214 - 107] (REVERSE SENSE)
SKAMCSSNLMTKIPCPPGRVQSQLECRPARSSRLTF
>U1_50 [183 - 91] (REVERSE SENSE)
PKFHVLQGGCSPNSNVDLRDHHASLFRSEAE
>U1_51 [64 - 32] (REVERSE SENSE)
PILWRARCLRI
>U1_52 [1193 - 3] (REVERSE SENSE)
EVLLSAMDDDIGDYGTELLPVTPFQWVNAPDVTNTLTHESAQPQLKKKKLNYDPNKARNE
RRFQLIELRDEVKELEMKLKQLQIIRGKKKPRRKKDRSCHTMSSGMSVVWKEVCIRQLEQ
RLRAERENMHLKKGCEREMQVVQGLRKLLYRHPSQRDIMYLGENTRTRRIEIPTGCLKQM
AALIFDELSTGVENSYRIAEVVVETNSPVPINEMTQKPLLRDAMNGMRMEVFDHHILPFD
MRATGDAWWIHWNKYRGQSSEATTSDVIAESFGLEFTDVMANTTATFYVQQILHRHVEGH
RTVIVWNAYIEPFMFGNERVSGVYFLEQSHVLIKPDDQNSMSSREGAVPTRMSTCEIITP
HFLDPKLSDDPKMADLTDFVASSLSSNIMMRNEKIEY
>U1_53 [69 - 1] (REVERSE SENSE)
SDRFCGELAVFEYNDAQRKDRVL
>U2_1 [2 - 52]
FTEPTSIDELLASRFPQ
>U2_2 [3 - 56]
LQSQLLSMSSSHHVSLNK
>U2_3 [56 - 154]
ISTSAGSMYFRAKCSPFRVGCAKATRFLFTCMP
>U2_4 [28 - 159]
APRITFPSINKHLGWFHVFSRKVQPISCRLREGNEVLVHMHAVN
>U2_5 [163 - 213]
LFAHDGHHSGRNAFPAE
>U2_6 [60 - 245]
APRLVPCIFAQSAAHFVSAARRQRGSCSHACRKLTFRARRPPFGSQCFSCGMRGAPKSGR
CQ
>U2_7 [217 - 258]
GVHPNLADANNGGF
>U2_8 [249 - 356]
RRVLNRQTQSQHHSQLRRSPRPSSTAQSSSKWSCPE
>U2_9 [158 - 400]
IDFSRTTATIRVAMLFLRNEGCTQIWQMPITAGFESADAVTAPFAATEVSASEFDCTIQF
EVVLSRVKASVMRSVLTHPTT
>U2_10 [262 - 441]
IGRRSHSTIRSYGGLRVRVRLHNPVRSGLVQSKGFRDALRIDTSNDLMVLNVDKVAALQK
>U2_11 [387 - 443]
HIQRLDGPECRQSGCAAET
>U2_12 [443 - 297] (REVERSE SENSE)
RFCSAATLSTFRTIKSLDVSIRSASRKPLLWTRPLRTGLCSRTRTRRPP
>U2_13 [275 - 144] (REVERSE SENSE)
LRLPIQNPPLLASARFGCTPHSAGKALRPEWWPSCAKSQFTACM
>U2_14 [441 - 52] (REVERSE SENSE)
FLQRSHFVYIQDHQVVGCVNTERITEAFTLDKTTSNWIVQSNSDAETSVAANGAVTASAD
SKPAVIGICQIWVHPSFRRKSIATRMVAVVREKSIYGMHVNKNLVAFAQPTRNGLHFARK
YMEPAEVLIY
>U2_15 [442 - 41] (REVERSE SENSE)
VSAAQPLCLHSGPSSRWMCQYGAHHGSLYSGQDHFELDCAVELGRGDLRSCEWCCDCVCR
FKTRRYWHLPDLGAPLIPQEKHCDPNGGRRARKVNLRHACEQEPRCLRAADTKWAALCAK
IHGTSRGAYLLRET
>U2_16 [140 - 21] (REVERSE SENSE)
TRTSLPSRSRHEMGCTLRENTWNQPRCLFIEGNVMRGAHR
>U2_17 [37 - 2] (REVERSE SENSE)
CEELIDRSWLCK
>U2_18 [48 - 1] (REVERSE SENSE)
GKRDARSSSIEVGSVN


論壇徽章:
32
處女座
日期:2013-11-20 23:41:20雙子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00處女座
日期:2014-07-22 17:30:47獅子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥豬
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58處女座
日期:2014-12-02 09:17:52程序設計版塊每日發(fā)帖之星
日期:2015-06-16 22:20:002015亞冠之塔什干火車頭
日期:2015-06-20 23:28:22
2 [報告]
發(fā)表于 2014-08-13 11:49 |只看該作者
不懂生物,看不懂

論壇徽章:
0
3 [報告]
發(fā)表于 2014-08-13 12:29 |只看該作者
回復 2# yestreenstars


    會寫腳本就可以了,大俠留步

論壇徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亞冠之德黑蘭石油
日期:2015-07-15 08:46:452015亞冠之平陽省
日期:2015-11-08 16:27:53白銀圣斗士
日期:2015-11-14 09:58:12
4 [報告]
發(fā)表于 2014-08-13 13:10 |只看該作者
你這些是一個序列相關(guān)的在一個文件里,還是全部都在一起?

論壇徽章:
32
處女座
日期:2013-11-20 23:41:20雙子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00處女座
日期:2014-07-22 17:30:47獅子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥豬
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58處女座
日期:2014-12-02 09:17:52程序設計版塊每日發(fā)帖之星
日期:2015-06-16 22:20:002015亞冠之塔什干火車頭
日期:2015-06-20 23:28:22
5 [報告]
發(fā)表于 2014-08-13 13:38 |只看該作者
回復 3# cxrfly

看不懂你的需求
   

論壇徽章:
0
6 [報告]
發(fā)表于 2014-08-13 14:01 |只看該作者
本帖最后由 iamlimeng 于 2014-08-14 08:40 編輯

今后請樓主自己先寫代碼再來問,不要總是伸手,那樣永遠不會有提高!

論壇徽章:
0
7 [報告]
發(fā)表于 2014-08-13 14:30 |只看該作者
回復 4# b114213903


    所有2萬多個核苷酸序列對應的所有氨基酸翻譯都在一個文件(即一個氨基酸序列文件),想從這個文件里取出每個核苷酸對應的最長的氨基酸序列。

論壇徽章:
0
8 [報告]
發(fā)表于 2014-08-13 14:30 |只看該作者
回復 6# iamlimeng


    大俠,我錯了,回頭努力提高自己。這次比較急切

論壇徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亞冠之德黑蘭石油
日期:2015-07-15 08:46:452015亞冠之平陽省
日期:2015-11-08 16:27:53白銀圣斗士
日期:2015-11-14 09:58:12
9 [報告]
發(fā)表于 2014-08-13 15:26 |只看該作者
  1. #!/usr/bin/perl
  2. use Bio::SeqIO;
  3. use strict;

  4. my $file=shift @ARGV or die "Usage:\t$0\tseq_file\n";
  5. my $SeqIO=Bio::SeqIO->new(-file=>"$file",-format=>"fasta") or die "Open seq_file failed!\n";
  6. my ($flag,$length,%ids,@out)=();
  7. while(my $seq=$SeqIO->next_seq()){
  8.         (my $id= $seq->id)=~s/\_[\s\S]+$//;
  9.         my $tag=$seq->id;
  10.         my $len=$seq->length;
  11.         if(! $ids{$id}){
  12.                 $ids{$id}++;
  13.                 if($length and $flag){
  14.                         my $pos=$flag."\t".$length;
  15.                         push @out,$pos;
  16.                 }
  17.                 $length=$len;
  18.                 $flag=$tag;
  19.         }else{
  20.                 if($length<$len){
  21.                         $length=$len;
  22.                         $flag=$tag;
  23.                 }
  24.         }
  25. }
  26. my $pos=$flag."\t".$length;
  27. push @out,$pos;

  28. while(my $pos=shift @out){
  29.         print $pos,"\n";
  30. }
復制代碼

論壇徽章:
0
10 [報告]
發(fā)表于 2014-08-13 17:04 |只看該作者
回復 9# b114213903


    能否一起把對應的氨基酸序列和ID一起生成一個文件阿?謝謝
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP