آرم توالی
در بیوانفورماتیک آرم توالی (به انگلیسی: Sequence Logo) یک روش برای تصویر کردن هم ترازی چندگانه (multiple alignment) ی توالیهای آمینو اسید یا نوکلئیک اسید است. این روش برای نشان دادن هم ترازی توالیها نخستین بار در سال ۱۹۹۰ توسط Tom Schneider و Mike Stephens معرفی شد.[۱]
بهطور کلی آرم توالی به صورت نموداری است که محور افقی آن نشان دهندهٔ جایگاهها بر روی توالی دی ان ای است و محور عمودی آن و اندازهٔ حروف در طی آن نشان دهندهٔ فرکانس تکرار هر حرف در جایگاه مورد نظر در بین توالیها است.
ساختار
ویرایشآرم توالی که از هم ترازی رشتههایی به طول n بهوجود میآید، دارای n ستون است. هر ستون از یک یا چند حرف تشکیل شده که روی یکدیگر قرار گرفتهاند و ارتفاع هر کدام نشان دهندهٔ میزان تکرار آن در جایگاه مربوط در بین تمام رشتههای هم تراز شده میباشد. معمولاً جهت خوانش راحت تر، هر حرف را با رنگ مخصوصی نشان میدهند. مجموع ارتفاع حروف در هر جایگاه نشان دهندهٔ محتوای اطلاعاتی (information content) است که از همارزی توالیها بدست میآید. به عبارتی ارتفاع هر ستون نشان دهندهٔ این است که در رابطه با محتوای موجود در یک جایگاه (اندیس) بهخصوص تا چه اندازه اطمینان موجود است.
ساخت آرم توالی
ویرایشجهت ایجاد یک آرم توالی ابتدا باید توالیهای مورد نظر از جای مشخصی که نشان دهندهٔ مکان آغاز موتیفهای مورد نظر است، هم تراز (aligne) شوند. همانطور که در بخش پیش اشاره شد، ارتفاع هر ستون نشان دهندهٔ محتوای اطلاعاتی است که با بیت سنجیده میشود.
برای اندازهگیری «محتوای اطلاعاتی» (که با نشان داده میشود) در جایگاه ام، با توجه به اینکه توالی مورد نظر از چه جنسی است، از روابط زیر استفاده میشود:[۱][۲]
برای نوکلئیک اسیدها (دی ان ای)
برای آمینو اسیدها (پروتئین)
که در آن یک فاکتور تصحیح است که در مواقعی که تعداد نمونه توالیها ( ) کم است لازم میشود و از طریق رابطهٔ زیر محاسبه میشود:
که در آن برای نوکلئیک اسیدها برابر ۴ و برای آمینو اسیدها برابر ۲۰ است.
همچنین در این روابط نشان دهندهٔ عدم اطمینان یا همان آنتروپی جایگاه ام است که از رابطهٔ زیر بدست میآید:[۳]
در این رابطه b نشان دهندهٔ مجموعه حروفی است که در توالی وجود دارند یعنی برای توالی دی ان ای مقادیر b برابر A, T، C و G میباشد و برای توالی پروتئین، مقادیر b همان آمینو اسیدهای مختلف میباشد. همچنین در این رابطه نشان دهندهٔ بسامد آماری حرف b در جایگاه ام است که به عبارتی همان تعداد دفعات مشاهدهٔ آن حرف در بین نمونه توالی هاست. ارتفاع هر حرف در جایگاه ام نیز از ضرب این بسامد آماری در محتوای اطلاعاتی آن جایگاه بدست میآید. به عبارتی اگر ارتفاع حرف b در جایگاه ام با نشان دهیم، داریم:
در هر ستون حروف به صورت نزولی از بالا به پایین مرتب میشوند، به طوری که حرفی که بیشترین بسامد آماری را دارد در بالا، و حرفی که کمترین بسامد آماری را دارد در پایین قرار میگیرد.
ابزار ساخت
ویرایشبرای ساختن آرم توالی ابزارهای مختلفی طراحی و تولید شدهاست که به صورت رایگان و آنلاین در دسترس میباشد. دو نمونه از این ابزارها WebLogo و Seq2Logo هستند که در زیر به اختصار شرح داده شدهاند.
ٌWebLogo
ویرایشو بلوگو (WebLogo) نرمافزاری برخط است که با هدف آسان کردن ایجاد آرمهای توالی، توسط جمعی از محققین دانشگاه برکلی در سال ۲۰۰۴ توسعه یافتهاست.[۴] در حال حاضر نسخه ی سوم این نرمافزار قابل دسترسی است و کد منبع آن در گیت هاب (github) موجود است.[۵]
Seq2Logo
ویرایشاین ابزار نیز مانند ابزار پیشین، نرمافزاری برخط است که آرم توالی هم ترازی چندگانهٔ آمینواسیدها را به شکلها و با روشهای مختلف تولید میکند. این ابزار در سال ۲۰۱۲ توسط جمعی از پژوهشگران دانشگاه فنی دانمارک طراحی و ساخته شدهاست[۶] و هماکنون نسخه ی دوم آن در دسترس است. این نرمافزار یک نسخهٔ قابل بارگیری نیز دارد که برای دادههای خیلی بزرگ که پردازش آنها به صورت برخط بیشتر از دو ساعت (که حداکثر محدودیت زمانی سرور است) طول میکشد، مناسب است.
جستارهای وابسته
ویرایشمنابع
ویرایش- ↑ ۱٫۰ ۱٫۱ Schneider, T D; Stephens, R M (1990-10-25). "Sequence logos: a new way to display consensus sequences". Nucleic Acids Research. 18 (20): 6097–6100. ISSN 0305-1048. PMID 2172928.
- ↑ Schneider, T. D.; Stormo, G. D.; Gold, L.; Ehrenfeucht, A. (1986-04-05). "Information content of binding sites on nucleotide sequences". Journal of Molecular Biology. 188 (3): 415–431. doi:10.1016/0022-2836(86)90165-8. ISSN 0022-2836. PMID 3525846.
- ↑ Shannon, C. E. (1948-7). "A mathematical theory of communication". The Bell System Technical Journal. 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. ISSN 0005-8580.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Crooks, Gavin E.; Hon, Gary; Chandonia, John-Marc; Brenner, Steven E. (2004-6). "WebLogo: a sequence logo generator". Genome Research. 14 (6): 1188–1190. doi:10.1101/gr.849004. ISSN 1088-9051. PMID 15173120.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ WebLogo 3: Sequence Logos redrawn. Contribute to WebLogo/weblogo development by creating an account on GitHub, WebLogo, 2019-07-17, retrieved 2019-07-24
- ↑ Nielsen, Morten; Thomsen, Martin Christen Frølund (2012-07-01). "Seq2Logo: a method for construction and visualization of amino acid binding motifs and sequence profiles including sequence weighting, pseudo counts and two-sided representation of amino acid enrichment and depletion". Nucleic Acids Research (به انگلیسی). 40 (W1): W281–W287. doi:10.1093/nar/gks469. ISSN 0305-1048.