2005-02-20
org.kosen.entty.User@445da1c6
이현정(dydfla)
- 2
안녕하세요.
저번에 sequencing이 잘 안되서 blast search하는데 어려움을 겪고 있다고 글 올린 사람입니다.
저번에 답글 많이 올려 주셨는데요, 감사하단 말을 이제서야 드리네요..
많은 도움이 됐습니다.
정말 감사 드려요.
그런데 한가지 더 궁금한게 생겼어요..
제가 지금 search하는게 제대로 하는 건지 의문이 생겨서요..
search 결과를 한 예로 말씀 드리자면,
gi|51646743|emb|CR738901.1|
CR738901 NCI_CGAP_GCB1 Homo sapiens cDNA clone IMAGp998C153248 ;
IMAGE:1289414 5', mRNA sequence. Length = 499
이렇게 나오고 옆 부분에 파란색 아이콘이 있는데 [U]로 표기 돼 있으며 이것이 가리키는게 unigene인데,,,
search sequence가 짧아서 그런지 길이가 한 700bp이상 되는 것과 search 결과가 좀 다르게 나오거든요,
상대적으로 long sequence로 search 했을 경우엔 unigene을 확인하지 않아도 어떤 protein임을 바로 나오는데 short sequence 일 경우 전부 mRNA의 일부로 나오며 unigene을 확인해야만히 protein명을 얻을 수 있습니다.
이 unigene으로 나와 있는 protein이 제가 찾은 protein이라고 생각할 수 있을까요??
그리고 한 가지 더,,, sequencing을 한 결과물, sequence를 보면 enzyme site가 없는게 종종 있어요.
전에도 말씀 드렸듯이 제가 two hybrid system을 이용하여 interaction한다고 얻은 sample을 prep하여 sequencing 맡겼습니다.
two hybrid system에서 bait로 사용할 plasmid는 cloning했구요. 여기서 prey는 상업적으로 판매하는 human fetal brain cDNA library를 amplify하여 사용했구요.
cDNA library infromation을 보면 명확히 두 enzyme site를 이용하여 vector에 library를 insertion했다고 하는데 sequencing결과 짧게 읽힌 sample경우엔 두 enzyme site가 없구요, 제대로 읽혔다고 하는 것 중에서도 몇개는 enzyme site가 없거나 한,두개 차이나는게 있거든요...
대체 뭐가 문제인지 모르겠습니다.
여태껏 많은 시행착오 겪으면서 문제점을 많이 해결했다고 생각했는데 그게 아닌가봐요~
저번 답글에 yeast DNA→E.coli로 옮겨서 prep하라고 하셨는데 물론 여태껏 그렇게 해서 culture하여 전부 kit사용해 prep후 맡겼는데도 결과엔 큰 변화가 없네요... 어떻하면 좋을까요?
한번만 더 조언 부탁드립니다. ㅠ.ㅜ
날씨가 굉장히 쌀쌀한데 다들 감기 조심하시구요, 즐건 주말 보내세요.
그럼 빠른 답변 기다리겠습니다.
- blast search
- sequencing analysis
지식의 출발은 질문, 모든 지식의 완성은 답변!
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 2
-
답변
전주홍님의 답변
2005-02-20- 0
BRIC에서 정리한 UniGene에 대한 설명을 아래에 소개하였습니다. Bait에 따라 조금씩 다르지만 yeast two-hybrid screen을 해보면 EST가 상당 수 걸려나옵니다. 예전엔 이 EST를 기반으로 다시 Blast search를 해서 최대한 큰 클론을 만들려고 노력했었죠... 운이 좋으면 거의 모든 ORF를 포함할 수 까지 있었구요 (Unigene DB가 구축되면서 나오면서 이런 수고가 많이 줄어들었죠...) 그렇지 않으면 Y2H에서 잡은 sequence를 probe로 이용하여 고전적인 cDNA library screening을 해서 새로운 유전자를 잡아 올리기도 했죠... 일단은 yeast transformation과정부터 얘기를 풀어나가겠습니다. 아마도 cDNA library DNA를 yeast에 transformation하여 library screen을 하는 방법을 사용하시는 것 같습니다. 일반적으로 회사에서 제공하는 library의 diversity는 2백만-3백만 정도입니다. 이를 모두 screen할려면 yeast transformation efficiency가 매우 좋아야 하죠... 그런데 여기서 조심해야될 점은 yeast cell의 수와 DNA의 양과의 관계입니다. Yeast에는 bacteria와 달리(Rep. Ori. 에 따른 plasmid incompatibility) 하나의 세포내에 여러개의 library plasmid를 존재할 수가 있습니다. Yeast 세포수는 작은데 DNA를 과도하게 사용하면 흔히 나타나죠...제 경험으로는 하나의 yeast에 4개 정도의 각기 다른 plasmid가 존재했던 적도 있지요... 그렇기 때문에 하나의 yeast에서 plasmid를 추출한 후 bacteria competent cell에 다시 transformation하여 하나의 선택배지에 plating을 하고 colony가 생기면 주로 colony PCR로 size를 확인하여 몇개의 library DNA가 존재하는 지 확인을 합니다. 만약 2개라면 각각을 Bait가 들어 있는 yeast에 도입하여 재차 growth 및 color assay를 확인을 하는 절차를 거칩니다. 그러니 무지 일이 많아 지는 거죠... Clontech사에서 공급하는 pretransformed library는 mating으로 library를 screening하는데 회사에서 조건을 잘 확립했기 때문에 여기에서는 거의 하나의 yeast에는 하나의 prey DNA가 들어가 있더군요... 또한 Retransformation assay는 Y2H에서 필수적으로 수행해야 하는 과정으로 false-positive를 많이 줄일 수 있습니다. 왜냐하면 yeast의 mutation 빈도가 높은데 이는 color assay에 영향을 미치는 경우가 많습니다. 가장 널리 사용하는 Y2H는 단백질-단백질 상호작용을 전사인자 활성을 통한 Reporter system으로 찾아내는 cell-based assay이기 때문에 우리가 control하지 못하는 많은 factor들이 실험에 영향을 미칩니다. Retransformation assay에서 확인이 되어야 (특히 하나의 bait와 하나의 prey로 실험을 했을 때) 결과를 어느정도 신뢰할 수 있습니다. 그렇게 자주 있는 일은 아니지만 enzyme site에 변이가 일어난 것을 가끔 관찰할 수 있습니다. sequencing을 해보면 deletion이 일어나기도 합니다. 이는 cDNA library를 합성한 후 일반적으로 linker를 부착하고 prey vector에 cloning을 하면 GAL4 TAD와 ORF가 일치할 확률이 6분의 1 밖에 되지 않기 때문에 Clontech를 비롯한 여러회사에서는 directional cloning 방법을 사용하여 3분의 1의 확률로 ORF가 맞도록 설계되어 있습니다. Y2H library제작과정에서의 문제인지 yeast나 bacteria에서 생긴 변이인지는 모르겠지만 한번씩 rearrangement가 일어난 것을 관찰할 때가 있습니다. 물론 이 같은 내용은 anal biochem, biotechniques 등에 보고가 된 바도 있습니다. 하시는 일이 잘 되시기를 바랍니다. 가려운 곳을 긁어주지는 못한 것 같아서 죄송합니다. UniGene: GenBank sequence들의 unique gene database -------------------------------------------------------------------------------- 1. 개요 현재의 GenBank의 EST division(dbEST)에 모인 EST(Expressed Sequence Tag)는 1,247,603개로 작년의 658,698개의 두배로 뛰어 올랐다. 이 들 EST data는 100개 이상의 서로 다른 생물 종으로 부터 나온 것으로써 가장 많은 EST를 얻어낸 5개의 생물종은 human(65%), mouse(18%), nematode(5%), Arabidopsis(3%), rice(2%)의 순이다. GenBank는 새로운 유전자의 대부분을 차지하는 이 ESTs data를 유용한 형태로 정리하여 사용하기 위해 UniGene collection을 만들어 서비스 하고 있다 UniGene은 현재 human과 mouse의 unique genes의 묶음들로 제공된다. NCBI에서 사용한 방법은 GenBank의 primate division에 모인 human sequences들과 human ESTs들을 모아 유사성이 많은 3'UTRs(untranslated regions)을 공유하는 유전자들을 묶음으로 분류하였다. 이 방법을 사용하여 800,000개의 human ESTs를 41,000개의 묶음으로 분류하여 각각은 하나의 대표적인 human gene으로 간주하였다. UniGene cluster는 해당 유전자가 어느 정도 연구가 되었는가에 따라 cluster를 이루는 유전자의 숫자가 달라진다. 즉, hemoglobin subunit이나 serum albumin precursor같이 연구가 많이 된 유전자의 UniGene cluster는 가장 큰 cluster를 이루고 있다. 물론, 현재는 그 대상은 가장 많은 EST data를 얻은 human과 mouse의 유전자로 국한되어 있지만 NCBI에 의하면 다른 생물 종에 대한 UniGene collection을 계속 만들 계획이라고 한다. UniGene은 2달에 한 번 update되며 NCBI의 FTP site의 Data repository/unigene directory에서 file download가 가능하다. Web외의 다른 검색 도구는 제공되지 않는다. 2.용도 UniGene database는 genome mapping을 위한 후보 유전자를 찾거나 새 EST등록시의 비교, 검색의 기준이 될 수 있다. 즉, 새로운 EST를 찾았을 때 UniGene cluster의 유전자 중 어느 것과도 유사성이 없다면 이 EST는 새로운 유전자이며, 또 하나의 UniGene cluster가 될 수 있는 것이다. large-scale expression analysis의 소재로 사용된다. genome mapping center들과의 연계하에 transcript map을 만들 수 있다. UniGene을 이용해 만들어진 transcript map을 사용하면 해당 유전자의 chromodome상 위치를 확인할 수 있다. 질병 유전자를 찾는 연구에 사용될 수 있다. 유전자 polymorphism의 연구에 사용될 수 있다. 3. UniGene collection DB 검색 방법 대표로 human UniGene을 대상으로 사용법을 알아보자. 잘 만들어진 database를 활용하려면 얻고자 하는 대상을 효과적으로 검색하여 주는 기능이 필요할 것이다. 1) 먼저 Search Terms을 이용한 검색이 가능하다. 즉, “Search for:“뒤의 빈 box에 검색 단어를 넣고 Enter키를 눌러 검색을 실시한다. 검색어는 한 개의 이상의 단어들로 된 것으로 유전자의 definition lines, gene symbols, protein names와 같은 plain text 로 부터 나온 단어들과 Accession number로 검색이 가능하다. 현재로서는 논리적 연산자로 “AND“검색만이 가능하다. 따라서 여러개의 단어를 입력한 경우 그 단어를 모두를 포함하는 유전자 목록을 결과로 얻게 된다. 이 때 “AND“는 따로 입력하지 않아도 된다. 검색어에 사용될 수 있는 다른 단어는 @functions 으로 @gene(symbol), @chr(num), @lib(id)이 있다. @gene(symbol)은 유전자의 등록자가 지정한 유전자의 symbol을 이용한 검색이며, @chr(num)은 mapping된 유전자의 chromosome number로 검색이 가능하다. @lib(id)는 해당 entry에 EST가 있을 경우 그 대상 cDNA library의 id를 이용한 검색이다. Library id에 대한 정보는 Hs UniGene page의 왼쪽 아래에 있는 Library Browser에 가면 각 조직에서 나온 library들이 알파벳순으로 정리되어 있는 데 이곳의 Lib. id를 참고 한다. 2) 다음으로 Chromosome에 따른 검색이다. Hs UniGene page의 왼쪽의 작은 세로 box의 중간에 1에서 22까지 그리고 X, Y의 chromosome번호가 있다. 각각을 click하면 해당 chromosome에 mapping 된 UniGene들을 볼 수 있다. 또는, 앞에서 설명한 @chr(num)을 Search Terms으로 이용한 검색에서도 같은 결과를 볼 수 있다. 3) Library에 따른 검색방법이다. EST project 에 사용된 cDNA libraries별로 UniGene을 검색할 수 있다. 왼쪽 box의 맨 어래에 있는 Library Browser에서 원하는 library를 선택하여 그 library로 부터 나온 UniGene set을 검색할 수 있다. 이 방법도 역시 @lib(id)를 Search Terms으로 이용한 검색으로 같은 결과를 확인할 수 있다. 4. UniGene collection DB 내용분석 세가지 검색 방법을 이용하여 원하는 UniGene set로의 접근이 이루어지면 각 해당 UniGene set에 대한 세부 정보를 찾아보게 된다. 검색 방법에 따라 UniGene을 배열해 보여주는 방법에는 약간의 차이는 있지만 각UniGene set에 대한 세부 정보는 검색 방법에 상관없이 동일하다. 그 UniGene과 가장 유사성이 있는 protein을 “BEST SWISS-PROT HIT“ 으로 보여준다. MAPPING INFORMATION(UniGene의 chromosome상 위치 정보), EXPRESSION INFORMATION(조직, 기관별 발현 정보)을 알 수 있다. 해당 UniGene set에 포함되는 유전자(mRNA/Gene/EST)들을 GenBank accession number로 연결해서 sequence와 유전자 특성(Feature)를 볼 수 있다. page중간의 “Download sequences“ button을 누르면 해당 UniGene cluster에 속한 유전자들의 sequence를 FASTA format으로 download받을 수 있다. 하나의 UniGene cluster에 포함되는 각 유전자(mRNA/Gene/EST)에 대해서는 P(알려진 protein과 유사성이 있슴), A(poly A signal이 있슴), S(mapping된 Sequence-tagged site가 있슴), C(CGAP library에서 나온 clone임)의 symbol을 표시해 유전자 대한 간단한 정보를 제공한다. Chromosome별로 UniGene을 검색시는 원하는 chromosome번호를 click시 그 chromosome상에 mapping되는 UniGene set를 나열해 보여준다. 각 UniGene cluster에 대한 세부 사항은 위의 설명과 같다. Library Browser로 검색시는 원하는 Library의 BIOLOGICAL SOURCE(Donor, Tissue)와 그 library에서 밝혀진 유전자의 갯수, LIBRARY CONSTRUCTION DETAILS(Strategy, Vector, Cloning sites), SUBMITTOR'S COMMENTS와 함께 UniGene cluster인 “GENES OF INTEREST“의 항목을 찾을 수 있다. 각 UniGene Cluster의 세부 사항은 위의 설명과 같다. UniGene DB의 또 다른 유용성은 NCBI의 그외 다른 database의 정보들과의 효과적인 연결을 제공하고 있다는 것으로 해당 UniGene의 number로 접속할 경우 mapping, expression, ENTREZ file, 유사 protein, 유전병 유전자등의 정보를 바로 알 수 있도록 되어 있다. -------------------------------------------------------------------------------- -
답변
이현정님의 답변
2005-02-21- 0
매번 이렇게 답변 해주셔서 감사드립니다. 좋은 하루 보내세요~ (^^*)