Hw14 by grishchenkoira · Pull Request #3 · grishchenkoira/BSAT

grishchenkoira · 2024-02-29T08:12:25Z

No description provided.

… of this one

…STQ-seq

…n to new file

…_Tool.py

…essor.py

…r.py

…ocessor.py

…cessor.py

…t.py

…gbk_to_fasta

IvanKozlov98

Фильтратор: 3/5 (на тестовом примере не сработал)
Биол. последовательности: 14/19

Штраф за отсутствие pr после дедлайна: -2

Таким образом, 15 баллов за эту часть.

IvanKozlov98 · 2024-02-29T08:19:27Z

+
+    write_filtered_sequences_to_fastq(filtered_seq, unfiltered_seq, new_file_name)
+
+    return ('Sequences are filtered!')


не соответствует типу в декларации функции

IvanKozlov98 · 2024-02-29T08:42:48Z

+    if quality_threshold > 40:
+        raise ValueError(f'Wrong quality threshold!')
+
+    records = list(SeqIO.parse(input_path, "fastq"))


Это будет работать только с небольшими fastq-файлами.
Представьте, что вам попался файл-метагенома и нужно сделать фильтрацию.
Если переписывать все данные в питоновский объект -- программа лопнет :)
В данном случае это просто не нужно: читаете очередную запись, узнаем ок/(не ок), если ок - записываем её в выходной файл и приступаем к следующей записи.

IvanKozlov98 · 2024-02-29T08:43:59Z

+    filtered_seq = {record_id: str(record.seq) for record_id, record in filtered_by_quality.items()}
+    unfiltered_seq = {record.id: str(record.seq) for record in records if record.id not in filtered_seq}
+
+    if filtered_file_name == None:


Принято писать if filtered_file_name is None

IvanKozlov98 · 2024-02-29T08:47:17Z

+    filtered_by_gc = analyse_gc(records, min_gc, max_gc)
+
+    filtered_by_length = filter_by_length(filtered_by_gc.values(), min_length, max_length)
+
+    filtered_by_quality = filter_by_quality(filtered_by_length.values(), quality_threshold)


неудачный подбор имён: filtered_by_quality -- на самом деле filtered по 3 признакам, а не по одному

IvanKozlov98 · 2024-02-29T08:50:47Z

+        for key, value in unfiltered_sequences.items():
+            records_unfiltered = []
+            sequence = Seq(value)
+            record = SeqRecord(sequence, id=key, description="")
+            records_unfiltered.append(record) 
+            SeqIO.write(records_unfiltered, output_handle, "fasta")


повторяющейся код
Не бойтесь писать небольшие функции внутри функций, чтобы избегать такого

IvanKozlov98 · 2024-02-29T09:01:05Z

+        self.dna_alphabet = set('AaTtGgCc')
+        self.rna_alphabet = set('AaUuGgCc')


Классы должны быть независимы друг от друга.
Зачем NucleicAcidSequnce алфавит ДНК или РНК.
NucleicAcidSequnce может иметь свой собственный алфавит (какой?)

Представьте, что вы захотите использовать NucleicAcidSequnce вообще в другой задаче -- зачем там алфавиты ДНК или РНК ?)

IvanKozlov98 · 2024-02-29T09:04:00Z

+        if (set(self.seq).issubset(self.dna_alphabet) and isinstance(self, DNASequence)) or (set(self.seq).issubset(self.rna_alphabet) and isinstance(self, RNASequence)):
+            return True


Именно так в задании написано не делать :)

При вызове dna.complement() или условного dna.check_alphabet() должны будут вызываться соответствующие методы из NucleicAcidSequence. Иначе говоря - полиморфизм.

Если заметить, то is_valid_alphabet и complement имеют схожую реализацию. Разница состоит только в разных значениях complement_dict для каждого класса. То есть предполагается некоторое общее, абстрактное решение в базовом классе, которое будет опираться на конкретные, определенные в классах поля (или методы).

Небольшой пример :)
вы определили абстрактный метод foo в базовом классе A следующим образом.

class A: ... def foo(self): return self.get_t() + self.calc_b()

тогда, если объект класса-наследника B, наследует этот метод, то чтобы он работал как нужно - следует определить методы get_t и calc_b

class B(A): ... def get_t(self): # specific implementation for 'B' objects def calc_b(self): # specific implementation for 'B' objects

При этом объекты другого класса-наследника C могут иметь другую реализацию методов get_t и calc_b .

class C(A): ... def get_t(self): # specific implementation for 'C' objects def calc_b(self): # specific implementation for 'C' objects

В итоге, объекты B и C имеют одинаковые по структуре, но немного разные по смыслу метод foo (поскольку опираются на разные конкретные методы get_t и calc_b)

Чтобы почувствовать полиморфизм, постарайтесь доделать это задание :)

IvanKozlov98 · 2024-02-29T09:05:49Z

+        :rtype: str
+        :return: complement sequence   
+        """
+        if self.is_alphabet_correct():


чтобы избавиться от ненужной вложености обычно делают так

if not self.is_alphabet_correct(): return # other code...

IvanKozlov98 · 2024-02-29T09:06:07Z

+        :return: complement sequence   
+        """
+        if self.is_alphabet_correct():
+            complement_seq = str()


IvanKozlov98 · 2024-02-29T09:07:24Z

+                if self.seq[i] in self.complement_dict:
+                    complement_seq += (self.complement_dict[self[i]])


а если условие неверно?

grishchenkoira and others added 30 commits October 7, 2023 23:46

Innitial commit for dna_rna_analysis.py

91e416f

Innitial commit for fastq_analysis.py

52772ec

Innitial commit for protein_analysis

edf755b

Add python script with all functions for this module

b247115

Add python script with all functions for this module

78dc3b5

Add python script with all functions for protein module

c6ade48

Initail commit for main script of Bio_Seq_Analysis_Tool

caee4ae

Add forder with required modules for Bio_Seq_Analysis_Tool.py

10e061b

Add python script with all functions into Bio_Seq_Analysis_Tool

1de06fd

Add README for Bio_Seq_Analysis_Tool module with detailed description…

be10c57

… of this one

Add def for read FASTQ-seq and def for creating file with filtered FA…

247f2ab

…STQ-seq

Add into def analyze_fastq reading data from a file and writing retur…

f24c092

…n to new file

Fixs bag in def read_fastq and write_fastq

8222e3f

Fix bags in def analyse_fastq

8333b66

Include boundaries for analysis in fastq_analysis in Bio_seq_Analysis…

c7b0739

…_Tool.py

Initial commit for Bio_Files_Processor.py

6c5a702

Add import of standard modules in Bio_Files_Processor.py

8665b41

Add function 'convert_multiline_fasta_to_oneline' into Bio_Files_Proc…

f9af641

…essor.py

Add function 'select_genes_from_gbk_to_fasta' into Bio_Files_Processo…

16fa99a

…r.py

Add corrections to the description of the functions into Bio_Files_Pr…

52eceb8

…ocessor.py

Fix output_fasta parametr in 'Convert...' function into Bio_Files_Pro…

4735049

…cessor.py

Fix input parametr in 'Convert...' function into Bio_Files_Processor.py

fea880d

Add data format check in select_genes_from_gbk_to_fasta

0aea07f

Add data format check in convert_multiline_fasta_to_oneline

640a391

Add information about Bio_Files_Processor.py into README.md

180e726

Delete modules_for_BSAT/.ipynb_checkpoints/protein_analysis-checkpoin…

db4d2ea

…t.py

Delete modules_for_BSAT/.ipynb_checkpoints/dna_rna_analysis-checkpoin…

fe68710

…t.py

Delete modules_for_BSAT/.ipynb_checkpoints/fastq_analysis-checkpoint.py

9e52d57

Rewritten code to add complete protein sequence in select_genes_from_…

a1d5be1

…gbk_to_fasta

Rewrite function to generate a FASTA-file

dca7a00

grishchenkoira added 3 commits February 22, 2024 00:23

Rewrite FASTQ-filtrator module

966e1ff

Remove modules for BSAT

9ab23c8

Add classes for working with biological sequences

5b3a810

IvanKozlov98 reviewed Feb 29, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hw14#3

Hw14#3
grishchenkoira wants to merge 33 commits into
mainfrom
HW14

grishchenkoira commented Feb 29, 2024

Uh oh!

IvanKozlov98 left a comment

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

IvanKozlov98 Feb 29, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants


		write_filtered_sequences_to_fastq(filtered_seq, unfiltered_seq, new_file_name)

		return ('Sequences are filtered!')

		self.dna_alphabet = set('AaTtGgCc')
		self.rna_alphabet = set('AaUuGgCc')

		if (set(self.seq).issubset(self.dna_alphabet) and isinstance(self, DNASequence)) or (set(self.seq).issubset(self.rna_alphabet) and isinstance(self, RNASequence)):
		return True

		if self.seq[i] in self.complement_dict:
		complement_seq += (self.complement_dict[self[i]])

Conversation

grishchenkoira commented Feb 29, 2024

Uh oh!

IvanKozlov98 left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants