Câu hỏi của tôi theo sau đó: file (1) và ma thuật (5): mô tả các định dạng khác .
Tôi muốn mô tả một chuỗi FASTA ( http://en.wikipedia.org/wiki/FASTA_format )
Nó có thể là một chuỗi DNA (chỉ có ATGC)
>header
ATGCTAGCATAGCATCGATGCTGTAGCTACGTAGCTACGTCTACG
Một mô hình 'ma thuật' sẽ là
>.*\n[ATGC]*
hoặc một chuỗi PROTEIN (ACDEFGHIKLMNPQRSTVWYBZX cũng chứa ATGC)
>header
AHITKLMNPQRGHIKLMNPQRC
Một mô hình 'ma thuật' sẽ là
>.*\n[ACDEFGHIKLMNPQRSTVWYBZX]*
Nhưng bất cứ khi nào tôi sử dụng các biểu thức chính quy đó, tệp sẽ cho tôi biết đó là protein vì nó phù hợp với biểu thức chính quy thứ 2. Có cách nào để ưu tiên một kết quả? Có cách nào để chia theo tỷ lệ, một cái gì đó như "Đừng thử bất kỳ mẫu nào khác nếu mẫu đó phù hợp?".
>.*\n[ATCGXN-]*\n
DNA chẳng hạn (bỏ qua các mã IUPAC khác ).
U
(Sec) vàO
(Pyl) là chính xác và hợp lệ amin mã axit và bạn cũng có thể tìm*
cho DỪNG cũng như các mã IUPAC khác nhau nhưY
cho pyrimidine vv trong nucleotide trình tự cũng như đơn giản-
cho những khoảng trống hayX
hoặcN
dư lượng đeo mặt nạ hoặc chưa biết . Tôi khá chắc chắn rằng hầu hết các phần mềm sẽ sử dụng một số phương pháp phỏng đoán khá phức tạp để lựa chọn giữa DNA (và dường như bạn đang bỏ qua RNA ở đây) và protein. Tôi rất nghi ngờ bạn có thể làm điều đó với một regex đơn giản.