В данном задании я буду проводить анализ секвенирования микробного сообщества, который включает в себя следующие шаги:
- Проведение оценки качества данных и их очистка.
- Проведение обработки данных с использованием пайплана dada2 для получения таблицы ASV на уровне родов и видов.
- Анализ полученных таблиц:
- рассчет индексов биоразнообразия, сравнение результатов между группами образцов
- анализ на специфические таксоны (LefSE) с использованием платформы microbiom
- Формирование гипотезы о типе отсеквенированного микробиомного сообщества
Для анализа я выбрала набор данных №3 data.
Прежде всего необходимо скачать данные с гугл диска и создать необходимые папки:
conda activate bi_env
mkdir metagenomics_SPBU
cd metagenomics_SPBU/
mkdir Task3
cd Task3
ls
Посмотрим на качество наших данных с помощью fasQC
mkdir fastqc_res1
fastqc -o fastqc_res1 *fastq.gz
cd fastqc_res1/
Полученные файлы сохранены в папке fastqc_res1
После визуального анализа полученных графиков можно сделать вывод:
- качество прямых ридов падает к концу до значения чуть менее 20
- качество обратных ридов страдает в некоторых случаях в начале рида, а также стабильно ухудшается (при чем для большей части ридов на подходе к концу)
- Per base sequence content не соответствует обычному виду: очень большие скачки в графике для соседних позиций оснований
- GC-контент представлен распределенияем с несколькими пиками, что может свидетельствовать о каких-то контаменциях образцов
- в обратных ридах часто встречаются на конце неопределенные основания
- не обнаружено адаптеров
Далее необходимо провести обрезку ридов, чтобы не работать с некачественными данными. Я буду использовать TrimmomaticPE для обрески спаренных ридов Зададим следующие параметры обрезки:
- LEADING:22
- TRAILING:22
- SLIDINGWINDOW:4:24
- MINLEN:36 Для удобства я буду использовать snakemake. Snakefile с командой находится в репозитории
Создадим папку trimmed для хранения обрезанных последовательностей
Далее проведем обрезку последовательностей:
cp /home/alisa/metagenomics_SPBU/Task3/*gz .
snakemake --cores=all -p
rm *_001* #убираем необрезанные файлы из папки
mkdir unpair_trim/
mv *unpaired* unpair_trim/ #перемещаем неспаренные риды в отдельную папочку
Посмотрим на результаты тримминга:
Input Read Pairs: 45330 Both Surviving: 39229 (86.54%) Forward Only Surviving: 3642 (8.03%) Reverse Only Surviving: 955 (2.11%) Dropped: 1504 (3.32%)
Input Read Pairs: 42061 Both Surviving: 38732 (92.09%) Forward Only Surviving: 1428 (3.40%) Reverse Only Surviving: 1138 (2.71%) Dropped: 763 (1.81%)
Input Read Pairs: 50056 Both Surviving: 42448 (84.80%) Forward Only Surviving: 5430 (10.85%) Reverse Only Surviving: 585 (1.17%) Dropped: 1593 (3.18%)
Input Read Pairs: 52523 Both Surviving: 44773 (85.24%) Forward Only Surviving: 5155 (9.81%) Reverse Only Surviving: 838 (1.60%) Dropped: 1757 (3.35%)
Input Read Pairs: 57063 Both Surviving: 51964 (91.06%) Forward Only Surviving: 2309 (4.05%) Reverse Only Surviving: 1529 (2.68%) Dropped: 1261 (2.21%)
Input Read Pairs: 54928 Both Surviving: 46630 (84.89%) Forward Only Surviving: 5796 (10.55%) Reverse Only Surviving: 680 (1.24%) Dropped: 1822 (3.32%)
Input Read Pairs: 56311 Both Surviving: 48972 (86.97%) Forward Only Surviving: 4632 (8.23%) Reverse Only Surviving: 1004 (1.78%) Dropped: 1703 (3.02%)
Input Read Pairs: 53322 Both Surviving: 47808 (89.66%) Forward Only Surviving: 3056 (5.73%) Reverse Only Surviving: 1138 (2.13%) Dropped: 1320 (2.48%)
Input Read Pairs: 61817 Both Surviving: 55815 (90.29%) Forward Only Surviving: 3182 (5.15%) Reverse Only Surviving: 1256 (2.03%) Dropped: 1564 (2.53%)
Input Read Pairs: 67072 Both Surviving: 59660 (88.95%) Forward Only Surviving: 3875 (5.78%) Reverse Only Surviving: 1785 (2.66%) Dropped: 1752 (2.61%)
Input Read Pairs: 74203 Both Surviving: 68186 (91.89%) Forward Only Surviving: 2927 (3.94%) Reverse Only Surviving: 1556 (2.10%) Dropped: 1534 (2.07%)
Input Read Pairs: 74417 Both Surviving: 68317 (91.80%) Forward Only Surviving: 3127 (4.20%) Reverse Only Surviving: 1584 (2.13%) Dropped: 1389 (1.87%)
В целом, сохранен достаточно большой процент ридов (более 90% почти в каждом образце)
Далее снова посмотрим на качество последовательностей посде тримминга. Будем смотреть именно на спаренные последовательности
cd ..
mkdir fastqc_res2
fastqc -o fastqc_res2 ./trimmed/*fastq.gz
Полученные файлы сохранены в папке fastqc_res2
После визуального анализа полученных графиков можно сделать вывод:
- качество прямых и обратных ридов немного падает к концу, но в целом соответствует значению более 20
- Per base sequence content не соответствует обычному виду: очень большие скачки в графике для соседних позиций оснований
- GC-контент представлен распределенияем с несколькими пиками
- в обратных ридах на концах встречаются неопределенные основания
Распакуем обрезанные последовательности gunzip trimmed/*gz
Далее работа будет проходить по пайплайну dada2, в скрипте на R
В результате мы получили ASV table и результаты таксономического анализа. Также я создала файл metadata.csv, в котором хранятся данные образцов. Все это ледит в папке analysis
Чтобы проанализировать полученные результаты я отправляюсь в раздел Marker Data Profiling на сайте microbiom
Rarefaction Curve Analysis
Rarefaction Curve Analysis - помогает понять, насколько полно исследовано сообщество и как изменяется количество обнаруженных видов при увеличении числа семплов.
По оси X отображается количество семплов, а по оси Y — количество уникальных видов. График позволяет оценить, насколько сообщество насыщено видами.
Анализ кривой: Кривая стабилизируется и выходит на плато достаточно быстро, это может указывать на то, что для полного охвата разнообразия в данном сообществе достаточно имеющихся данных.
Alpha diversity
Результаты, посчитанные мной в R:
Wilcoxon rank sum exact test
data: rich$Chao1[1:6] and rich$Chao1[7:12]
W = 15, p-value = 0.6991
alternative hypothesis: true location shift is not equal to 0
Wilcoxon rank sum exact test
data: rich$Shannon[1:6] and rich$Shannon[7:12]
W = 14, p-value = 0.5887
alternative hypothesis: true location shift is not equal to 0
Wilcoxon rank sum test with continuity correction
data: rich$Simpson[1:6] and rich$Simpson[7:12]
W = 15.5, p-value = 0.7457
alternative hypothesis: true location shift is not equal to 0
Основываясь на полученных данных можно утверждать что различия в альфа-разнообразии между контрольными и тестовыми образцами не несут статистической значимости.
Для расчета статистики я использовала U-критерий Манна-Уитни,так как в выборках всего по 6 наблюдений, поэтому лучше использовать непараметрический критерий
Beta diversity
График по семействам:
Основываясь на полученных данных, можно сказать, что различия в обилии микроорганизмов между контролем и тестом не выявлено.
Данный анализ позволяет определтить ключевые микроорганизмы, стабильно присутствующие в образцах. Это понадобится для дальнейшего определения микробного сообщества.
Linear Discriminant Analysis Effect Size (LEfSe)
Linear Discriminant Analysis Effect Size (LEfSe) — это метод для выявления статистически значимых различий между группами. Используется для выявления таксонов, которые значительно различаются между разными группами.
Таким образом, в наших контрольных данных присутствует род Bifidobacterium и Ruminococcus, а в тестовых - Catenibacterium и Granulicatella. И эти различия являются статистически значимыми.
Чтобы выяснить какое микробное сообщество было отсеквенировано нужно обратиться к данным, полученным из анализа Core Microbiom
Данные в виде таблицы представлены в репозитории.
-
Faecalibacterium sp.
У людей по всему миру широко распространены Faecalibacterium - они были обнаружены в 85% образцах микробиоты кишечника, а представители рода Faecalibacterium считаются повсеместно распространенными в желудочно-кишечном тракте здоровых людей [1]
-
Collinsella and Bifidobacterium
Collinsella and Bifidobacterium являются важными бактериями в развитии микробиоты кишечника. У пожилых людей по мере старения наблюдается снижение уровня популяций бифидобактерий в кишечнике [2]
-
Streptococcus
Род Streptococcus включает около 100 видов грамположительных бактерий, обитающих в различных средах и имеющих множество различий. Одни стрептококки патогенны, а другие являются нормальными обитателями полости рта и желудочно-кишечного тракта [3]
Судя по перечисленным родам, сообщество представляет собой микробиом кишечника. Такие роды, как Faecalibacterium, Bifidobacterium, Collinsella, Streptococcus, Prevotella и другие, обычно ассоциируются с микробиотой кишечника. Присутствие этих родов позволяет предположить, что данное сообщество может быть связано с желудочно-кишечным трактом.
"Examples of taxonomic gut microbiota composition. In the box are cited examples of bacteria belonging to Phyla Firmicutes and Bacteroidetes, representing 90% of gut microbiota" [4]
[1] Rebeca Martín, David Rios-Covian, Eugénie Huillet, Sandrine Auger, Sarah Khazaal, Luis G Bermúdez-Humarán, Harry Sokol, Jean-Marc Chatel, Philippe Langella, Faecalibacterium: a bacterial genus with promising human health applications, FEMS Microbiology Reviews, Volume 47, Issue 4, July 2023, fuad039, https://doi.org/10.1093/femsre/fuad039
[2] Eija Könönen, 250 - Anaerobic Cocci and Anaerobic Gram-Positive Nonsporulating Bacilli. Mandell, Douglas, and Bennett's Principles and Practice of Infectious Diseases (Eighth Edition), Pages 2781-2786.e2. https://doi.org/10.1016/B978-1-4557-4801-3.00250-2
[3] R. Hutkins, Y.J. Goh, STREPTOCOCCUS | Streptococcus thermophilus, Encyclopedia of Food Microbiology (Second Edition), Academic Press, 2014, Pages 554-559, ISBN 9780123847331, https://doi.org/10.1016/B978-0-12-384730-0.00325-6
[4] Rinninella E, Raoul P, Cintoni M, Franceschi F, Miggiano GAD, Gasbarrini A, Mele MC. What is the Healthy Gut Microbiota Composition? A Changing Ecosystem across Age, Environment, Diet, and Diseases. Microorganisms. 2019 Jan 10;7(1):14. doi: 10.3390/microorganisms7010014. PMID: 30634578; PMCID: PMC6351938.











