Ana səhifə

Предсказание генов во фрагменте генома бактерии Yersinia bercovieri


Yüklə 51.2 Kb.
tarix09.06.2016
ölçüsü51.2 Kb.
Предсказание генов во фрагменте генома бактерии Yersinia bercovieri.
Введение.
Известно, что участок гена, кодирующий белок, начинается старт-кодоном (он же кодирует метионин) и заканчивается стоп-кодоном. Такие участки называют ещё открытыми рамками считывания (open reading frames или ORF) последовательностей. Понятно, что не любой такой участок гена будет кодировать какой-то белок. Целью этой работы является поиск всех открытых рамок считывания определённого участка генома (4000 нуклеотидных пар) бактерии Yersinia bercovieri, которые действительно кодируют белки. Критерием того, что данная открытая рамка кодирует белок, является наличие последовательностей у других родственных организмов семейства Enterobacteriales, к которому принадлежит Yersinia bercovieri, белков, гомологичных последовательности, получившейся при трансляции этой открытой рамки считывания (в предположении, что она кодирует белок).
Ход работы.
1) Сначала из исходного файла, содержащего неаннотированные последовательности, был извлечён указанный участок длиной в 4000 нуклеотидов. Эта операция была проделана при помощи команды seqret с использованием её параметра sask:
seqret /home/export/samba/public/tmp/yb.fasta:*96 –sask
Поскольку название нужной мне последовательности единственное из всех заканчивалось символами “96”, в качестве имени последовательности можно было задать *96. Соответственно вырезан был участок с началом в нуклеотиде 1 и с концом в нуклеотиде 4000; последовательность была сохранена без изменения направления.
2) Затем был произведён поиск команды, которая бы нашла на этом участке все открытые рамки считывания. Для этого была использована программа wossname:
wossname ORF
В результате в числе команд была найдена подходящая (getorf), которая затем и была применена в поиске открытых рамок считывания:
getorf -sequence aalc01000096.fasta -minsize 240 -outseq orfout.fasta -find 1 -table 11
Здесь параметр sequence означает исходный файл (в который был сохранён участок генома, выданный seqret), параметр minsize – минимальная длина последовательности, которую мы будем считать геном предполагаемого белка: 240 нуклеотидов, а значит, полагаем, что все гипотетические белки будут длиннее 78 аминокислот. Параметр outseq означает имя выходного файла. В выходной файл программа записывает уже транслированные открытые рамки считывания, то есть последовательности аминокислот; трансляция начинается со старт-кодона и заканчивающиеся стоп-кодоном – это определяет значение 1 параметра find, параметр table определяет тип генетического кода для трансляции.
3) Далее из банка данных SwissProt были извлечены все белки таксона Enterobacteriales, и из них затем созданы индексные файлы для поиска BLAST’ом с помощью последовательного исполнения команд seqret и formatdb:
seqret sw-org:enterobacteriales
позволяет сохранить последовательности всех белков из Enterobacteriales (sw-org:enterobacteriales указывает на то, что нужно извлечь все последовательности из записей SwissProt, у которых в поле OC или OS указано слово Enterobacteriales). Файл, куда были записаны эти данные, был назван enterobacteriales.fasta. Далее были созданы индексные файлы:
formatdb -i enterobacteriales.fasta -p T -n enterobacteriales
Здесь параметр i обозначает имя входного файла, параметр p со значением T указывает, на то, что последовательность белковая, а n – базовое имя создаваемых индексных файлов.
4) Теперь уже можно произвести поиск транслированных рамок считывания по банку из таксона Enterobacteriales. Для удобства работы был написан скрипт, позволяющий одним нажатием кнопки выполнить задание. Для этого были использованы средства Excel. Командой grep были выделены все названия транслированных рамок считывания (строчки, начинающиеся с символа “>”):
getorf -sequence aalc01000096.fasta -minsize 240 -outseq stdout -find 1 -table 11|grep ">" > orf_info.txt
Затем эти данные были экспортированы в Excel, где потом были дописаны необходимые столбцы с будущими командами для скрипта, а ненужные столбцы – удалены; получившиеся строки были вставлены в новый текстовый файл, из которого затем были удалены лишние знаки табуляции. Команды скрипта представляли собой конвейер из команд seqret, blastall и grep (с параметром ‘c’, чтобы на выходе получить файл с количеством гомологов по каждой из открытых рамок).
Текст скрипта:
seqret orfout.fasta:AALC01000096_1 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" > grep.txt

seqret orfout.fasta:AALC01000096_2 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_3 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_4 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_5 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_6 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_7 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_8 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_9 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt

seqret orfout.fasta:AALC01000096_10 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt



seqret orfout.fasta:AALC01000096_11 -outseq stdout|blastall -d enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >> grep.txt
Комментарий к скрипту: команда seqret выдаёт по очереди каждый из транслированных ORF’ов в стандартный выход интерпретатора командной строки bash, этот стандартный выход является стандартным входом для следующей команды – blastall (параметр i; остальные параметры: d – базовое имя индексных файлов, p – используемая программа среди программ BLAST, e – порог E-value, o – куда перенаправляется результат – в данном случае опять в стандартный выход, а затем на вход команде grep). Выход команды grep перенаправляется в файл grep.txt; чтобы файл каждый раз не перезаписывался, а значения писались друг под другом в тот же файл, для второй и последующих команд знак перенаправления записывается “>>”.
Собранная в конечном итоге информация об открытых рамках считывания представлена в таблице 1.
Таблица 1. Информация об открытых рамках считывания фрагмента генома бактерии Yersinia bercovieri (AALC01000096).

Название рамки считывания

Первый нуклеотид

Последний нуклеотид

Направление

Число сходных последовательностей из Enterobacteriales:SwissProt, где E-value < 0,01

AALC01000096_1

20

292

прямое

0

AALC01000096_2

1228

1884

прямое

0

AALC01000096_3

2645

3007

прямое

0

AALC01000096_4

2911

2624

обратное

0

AALC01000096_5

3678

2422

обратное

9

AALC01000096_6

825

466

обратное

3

AALC01000096_7

704

420

обратное

0

AALC01000096_8

429

1

обратное

6

5) Наконец, положение предполагаемых генов было изображено в виде схемы:


1<-----------429 466<-----------837 2422<-----------3768
Как видно из таблицы, все кодирующие гены считываются с этой последовательности в обратном направлении и не перекрываются.
Интерес вызыает тот факт, что на комплементарной цепи, где располагаются кодирующие последовательности, есть довольно длинный участок, лишённый рамок считывания (2421 – 826), причём не только тех, которые не имеют гомологов. Это довольно необычное явление для бактерий, поскольку у них гены обычно располагаются подряд, без промежутков. Возможно это связано с мутацией в одном из нуклеотидов старт-кодона, или в этом месте встроилась какая-нибудь плазмида, несущая ген, не описанный среди тех последовательностей, по которым вёлся поиск.


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©kagiz.org 2016
rəhbərliyinə müraciət