پیش بینی تعامل با مواد مخدر یک مرحله اساسی در تولید دارو است که شامل بسیاری از روش ها است. روشهای تجربی که این روابط را بر اساس داروهای بالینی شناسایی می کنند ، زمان بندی ، پر هزینه ، پر زحمت و پیچیده هستند که چالش های زیادی را معرفی می کنند. یک گروه از روشهای جدید روشهای محاسباتی نامیده می شوند. توسعه روشهای محاسباتی جدید که دقیق تر هستند ، می توانند از نظر هزینه و زمان کل ، از روشهای آزمایشی ارجح باشند. در این مقاله ، یک مدل محاسباتی جدید برای پیش بینی تعامل دارو و هدف (DTI) ، متشکل از سه مرحله از جمله استخراج ویژگی ها ، انتخاب ویژگی ها و طبقه بندی ارائه شده است. در مرحله استخراج ویژگی ، ویژگی های مختلفی مانند EAAC ، PSSM و غیره از توالی پروتئین ها و ویژگی های اثر انگشت از داروها استخراج می شود. این ویژگی های استخراج شده سپس با هم ترکیب می شوند. در مرحله بعدی ، یکی از روش های انتخاب ویژگی Wrapper به نام IWSSR ، به دلیل مقدار زیادی از داده های استخراج شده ، اعمال می شود. ویژگی های انتخاب شده سپس به طبقه بندی جنگل چرخش داده می شود تا پیش بینی کارآمد تری داشته باشد. در واقع ، نوآوری کار ما این است که ما ویژگی های مختلفی را استخراج می کنیم. و سپس با استفاده از IWSSR ویژگی ها را انتخاب کنید. دقت طبقه بندی کننده جنگل چرخش بر اساس ده برابر بر روی مجموعه داده های استاندارد طلایی (آنزیم ، کانال های یونی ، گیرنده های همراه با پروتئین G ، گیرنده های هسته ای) به شرح زیر است: 98. 12 ، 98. 07 ، 96. 82 و 95. 64. نتایج آزمایشات نشان می دهد که مدل پیشنهادی در پیش بینی DTI میزان قابل قبولی دارد و با روشهای پیشنهادی در سایر مقالات سازگار است.
معرفی
پیش بینی تعامل بین داروها و اهداف در کار کشف مواد مخدر بسیار مهم است. اخیراً ، محققان بر اساس دانش در مورد داروهای موجود 1 بر استراتژی های نوآورانه توسعه داروها بوده است. به منظور دستیابی به کارکردهای خود ، داروها به طور کلی با حداقل یک پروتئین پوشش داده می شوند. بنابراین ، یافتن تعامل جدید بین داروها و پروتئین های هدف برای تولید داروهای جدید مهم است ، زیرا بیان نادرست پروتئین ها ممکن است باعث ایجاد عوارض جانبی دارویی 2 شود. شناسایی DTI در کشف و تولید داروهای جدید بسیار مهم است. با توجه به هزینه بالا و زمان لازم برای تشخیص DTI به صورت تجربی ، رویکردهای محاسباتی پیشنهاد شده است که می تواند DTI های بالقوه را به منظور تسریع در توسعه داروهای جدید 3 تشخیص دهد. بینش ارزشمند در مورد عملکرد مکانیسم دارو ، نتایج رویکردهای محاسباتی برای پیش بینی DTI 4 است. رویکردهای محاسباتی در سه دسته قرار می گیرند: رویکردهای مبتنی بر لیگاند ، رویکردهای مبتنی بر اتصال و رویکردهای مبتنی بر شیمی درمانی 5. هر رویکرد مزایا و مضرات خود را دارد. رویکردهای مبتنی بر لیگاند حتی در غیاب یک ساختار 3 بعدی تجربی مفید هستند. این رویکردها از پیچیدگی محاسباتی بالایی برخوردار هستند و برای به دست آوردن اطلاعات صحیح 6 به داده های زیادی نیاز دارند. رویکردهای مبتنی بر docking با وجود هزینه محاسباتی بالا و مقیاس پذیری پایین ، واقعیت را با دقت بیشتری مدل می کنند. یکی دیگر از مزایای این رویکردها این است که آنها به اندازه رویکردهای مبتنی بر لیگاند انعطاف پذیر هستند. این مشکل رویکردها عدم وجود ساختار 3 بعدی داده است. با توجه به اینکه آنها به این ساختار 3 بعدی نیاز دارند ، رویکردهای مبتنی بر لیگاند پیشنهاد شده است که این رویکردها حتی در مورد عدم وجود ساختار 3 بعدی داده 7 نیز به خوبی کار می کنند. دسته سوم رویکردهای محاسباتی رویکردهای مبتنی بر شیمی درمانی است. یکی از مزایای این رویکردها این است که آنالوگ های خاص در داروها را می توان راحت تر تشخیص داد. یکی دیگر از مزایای این رویکردها این است که پوشش فضای شیمیایی کامل تر است. علاوه بر این ، نتایج به دست آمده از یک دارو ممکن است برای کشف داروهای مربوطه مورد استفاده قرار گیرد. علاوه بر این ، استفاده از این رویکرد ، دستیابی به روابط ساختار و فعالیت را آسانتر می کند 8. اساس مطالعات در مورد پیش بینی DTI می تواند یکی از روشهای یادگیری ماشین باشد. روشهای یادگیری ماشین در این زمینه شامل روشهای مبتنی بر ویژگی (FBM) ، روشهای مبتنی بر هسته (KBM) ،
و روشهای مبتنی بر شباهت (SBM) 9.
به تازگی ، روشهای مبتنی بر هسته به طور گسترده ای برای شناسایی DTI ها استفاده شده است. علاوه بر مدل سازی روابط غیرخطی ، این روش ها مدلهایی را ارائه می دهند که می توانند برای داده های مختلف مانند نیش و داده های سری زمانی اعمال شوند. مشکل این روش ها این است که مدل های پیشنهادی تفسیر و درک کم دارند. همچنین ، در صورت استفاده از مجموعه داده های بزرگ ، این روش ها از نظر محاسباتی 10 کارآمد نیستند.
در رویکردهای مبتنی بر ویژگی ، هر دارو و پروتئین توسط یک وکتور ویژگی عددی نشان داده می شود ، که انواع مختلفی از ویژگی های فیزیکی ، شیمیایی و مولکولی هر یک از نمونه های مربوطه را نشان می دهد. یکی از مزایای روشهای استخراج ویژگی این است که آنها می توانند ویژگی های ذاتی ترکیبات و اهداف را نشان دهند که نقش مهمی در DTI دارند ، که نتیجه آن قابل تفسیر بیشتر 11 خواهد بود.
روشهای مبتنی بر ویژگی به دو دسته تقسیم می شوند: روشها با توجه به یادگیری عمیق و روشهای کلاسیک مبتنی بر ویژگی 12. ورودی به روشهای یادگیری عمیق اغلب توالی پروتئین و ساختار دارو است. از این نوع داده ها ، ویژگی های مختلف در لایه های مختلف استخراج می شوند. در پایان ، پیش بینی DTI در لایه نهایی 13،14 رخ می دهد.
در 15 یادگیری عمیق مبتنی بر دنباله ، 16 یادگیری چند منظوره عصبی عمیق ، 17 شبکه عصبی عمیق ، 18 شبکه عصبی عمیق نور ، 19 رویکرد یادگیری عمیق پایان به پایان برای پیش بینی تعامل بین دارو و هدف اعمال می شود. در استفاده از AutoEncoders ، همچنین می توانیم 20 و 21 را ذکر کنیم که در سال 2021 انجام شد.
باقی مانده کاغذ طبق ضوابط و دستورالعمل ها سازماندهی شده است. در بخش بعدی آثار مرتبط را معرفی می کنیم. سپس روش را توضیح می دهیم. پس از آن ، ما نتایج تجربی به دست آمده در طبقه بندی مختلف را گزارش می کنیم. سرانجام ، ما نتیجه گیری می کنیم.
کارهای مرتبط
روشهای محاسباتی بی شماری برای مشکل پیش بینی DTI ایجاد شده است. در سال 2021 ، جیاجی پنگ و همکارانش از نمودار نمایش یادگیری برای تهیه یک چارچوب 22 استفاده کردند. در یک مطالعه دیگر ، داده های مورد نیاز برای پیش بینی DTI 1 توصیف شده است.
روشهای مبتنی بر هسته یکی از روشهای یادگیری ماشین است که بسیاری از افراد در این زمینه مطالعه کرده اند. محمد عماد-اود-الدین و همکاران. رویکردهای QSAR یکپارچه و شخصی در سرطان توسط فاکتورسازی ماتریس بیزی هسته 23 مورد تجزیه و تحلیل قرار گرفت. در مطالعه ای که در سال 2018 انجام شد ، آنا سیچونسکا و همکاران. برای حافظه مؤثر و یادگیری زمان 24 ، روشی را با چندین هسته زوج ارائه داد. دسته مهم دیگر روشهای مبتنی بر شباهت 25 است. رویکردهای مبتنی بر شباهت به این فرضیه متکی هستند که ترکیباتی که از نظر بیولوژیکی ، توپولوژیکی و شیمیایی مشابه هستند ، عملکردهای مشابه و فعالیت زیستی دارند ، بنابراین اهداف مشابهی دارند. در 27 تکنیک نظارت مبتنی بر شباهت برای شناسایی تعامل بین داروهای جدید و اهداف شناخته شده ارائه شد.
به منظور پیش بینی DTI ، یک مدل شباهت ارائه شده است ، در سال 2021 که از CNN دو بعدی در محصولات خارجی بین بردارهای ستون مربوط به دو ماتریس شباهت در داروها و اهداف 28 استفاده می کند.
- همچنین روش های مختلف یادگیری ماشین برای این پیش بینی وجود دارد. با استفاده از یادگیری چند برچسب ، SEO May و همکاران. چارچوبی برای پیش بینی تعامل 29 نشان داد. در اثر دیگری توسط نین متائی و همکاران. در سال 2020 از روشهای مبتنی بر شباهت و همچنین روشهای یادگیری ماشین 30 استفاده شد. اگرچه ثابت شده است که روشهای مبتنی بر یادگیری ماشین در شناسایی DTI مؤثر است ، اما هنوز هم چالش های بسیاری وجود دارد:
- بیشتر روش هایی که در قالب یادگیری تحت نظارت هستند در انتخاب نمونه های منفی مشکل دارند.
- مدل های پیش بینی بر اساس یادگیری ماشین معمولاً با تنظیمات آزمایشی بیش از حد ساده ساخته و ارزیابی می شوند.
بیشتر روشهای مبتنی بر یادگیری ماشین از ویژگی های توصیفی ضعیفی برخوردار هستند. بنابراین ، تشخیص مکانیسم دارویی بالقوه از عملکرد آن با توجه به دیدگاه دارویی 31،32 دشوار است.
به طور کلی ، چالش های کلیدی در پیش بینی DTI شامل استخراج کلیه ویژگی های مهم دارویی ، موضوع ناسازگاری داده ها و عدم تعادل کلاس داده ها در طی فرآیند پیش بینی است. روشهای مبتنی بر ویژگی یکی از روشهای یادگیری ماشین است که بسیاری از افراد در این زمینه مطالعه کرده اند. مقالاتی که تاکنون بر اساس روشهای مبتنی بر ویژگی برای شناسایی DTI نوشته شده اند ، اغلب در چهار زمینه ابتکاری بوده اند: استخراج ویژگی ها ، انتخاب ویژگی ها ، تعادل و طبقه بندی جدید 33.
در زمینه استخراج ویژگی ، چنگ وونگ و همکاران. ویژگی های آزمایش شده با اثر انگشت برای وضعیت الکترو توپولوژیکی داروها و APAAC پروتئین های هدف در سال 2020 32. در سال 2021 ، یک الگوریتم Fastus برای کار با داده های نامتعادل 34 پیشنهاد شد.
در 2 ، ویژگی های داروها و پروتئین ها برای ارائه ویژگی های هر جفت پروتئین دارویی ترکیب شده اند. در سال 35 آنها یک روش پیش بینی جدید را پیشنهاد کرده اند که از روش Smote برای کار با داده هایی که متعادل نیست استفاده کرده است. در 36 ، ژنگ یانگ و همکاران. یک مدل محاسباتی جدید را به همراه شیب PSHOG و ماتریس PSSM برای استخراج ویژگی به کار برد. در یک مطالعه 2020 ، یک رویکرد محاسباتی جدید ارائه شده است که از ویژگی GIST 37 استفاده می کند. در یک مطالعه دیگر توسط ژنگ وونگ و همکاران. در سال 2020 ، یک روش محاسباتی مفید ارائه شد که اطلاعات توالی پروتئین 38 را اعمال کرد.
در یک مطالعه دیگر 39 ، یک روش محاسباتی کارآمد با استفاده از طبقه بندی کننده جنگل چرخش و روش استخراج ویژگی LBP در پیش بینی PPI از ماتریس PSSM ارائه شد. در سال 2019 ، حسن محمود و همکاران. یک مدل محاسباتی جدید برای شناسایی DTIS 40 ارائه داد. در حوزه پیشنهاد طبقه بندی جدید ، دیمیتری کاراسوف و همکاران. رویکردی را ارائه می دهد که طبقه بندی فازی توالی های هدف 41 را ارائه می دهد. در یک مطالعه دیگر در سال 2020 ، یک روش جدید پیش بینی DTI ارائه شده است که در آن درختان دو خوشه ای در شبکه های بازسازی شده 42 ساخته شده اند.
در روش های حاضر ، هیچ گونه توجه به استخراج ویژگی های مؤثر مورد توجه قرار نگرفته است. در حالی که این ماده باعث افزایش کیفیت تبعیض بالا می شود ، افزایش میزان تأیید و در نتیجه کیفیت تشخیص بالاتر. علاوه بر این ، در استخراج ویژگی ها ، ابعاد ویژگی ها زیاد است ، بنابراین این مسئله برای مدیریت لازم است.
عدم تعادل داده ها مشکل دیگری است که در حال حاضر وجود دارد. به طوری که تعامل ناشناخته بارها بیشتر از تعامل مثبت مثبت است. در نتیجه ، عدم تعادل بین دو کلاس چالشی است که باید روی آن کار شود.
علاوه بر چالش هایی که معمولاً با مدلهای DTI مبتنی بر یادگیری در ارتباط است ، به دلیل این واقعیت که روش های یادگیری عمیق به مقدار زیادی داده برای آموزش شبکه نیاز دارند و همچنین بار محاسباتی بالایی دارند ، ما در این مطالعه این روش را حذف کرده ایمبشراز این رو ، روشهای کلاسیک در نظر گرفته شده است ، که در آن این ویژگی از دنباله دارو و پروتئین 1433 استخراج می شود.
روش

در این کار ، یک روش یادگیری مبتنی بر دستگاه برای شناسایی DTI ها پیشنهاد شده است. در این روش ، اول ، ویژگی های مختلف از دنباله پروتئین ها استخراج می شود و بردار ویژگی پروتئین ها تشکیل می شود. سپس اثر انگشت از ساختار دارو استخراج می شود. این ویژگی ها با هم ترکیب می شوند ، که به دلیل ابعاد بالای ویژگی ها ، ویژگی ها بر اساس روش IWSSR انتخاب می شوند. سرانجام ، مدل جنگل چرخش سپس برای شناسایی تعامل آموزش داده می شود. شکل 1 نمودار روش پیشنهادی را نشان می دهد. جزئیات هر مرحله در زیر آورده شده است.
استخراج ویژگی
در این مرحله ، اطلاعات هر دنباله با استفاده از یک الگوریتم استخراج ویژگی به یک بردار عددی بازگردانده می شود. این مرحله یکی از مهمترین مراحل در مرحله طبقه بندی است که به طور مستقیم بر نتایج پیش بینی مدل تأثیر می گذارد. با توجه به این واقعیت که این مطالعه دارای دو ورودی از دارو و پروتئین است ، استخراج ویژگی به دو دسته تقسیم می شود: استخراج ویژگی از داروها و استخراج ویژگی از پروتئین ها.
استخراج از داروها
محققان نشان داده اند که اثر انگشت مولکولی می تواند ساختار یک دارو را توصیف کند. اثر انگشت روابط ساختاری از طریق جدا کردن ساختار مولکولی داروها در بخش های مختلف ، داروها را به عنوان بردارهای زیر ساخت و ساز بولی نشان می دهد.
حتی اگر هر مولکول به قسمت های جداگانه تقسیم شود ، اطلاعات ساختاری کل دارو را حفظ می کند. این توصیف کننده ها امکان عدم موفقیت اطلاعات و برخوردهای غیرمستقیم را در روش توضیحات و غربالگری محدود می کنند. به طور خاص ، یک فرهنگ لغت از پیش تعریف شده که شامل تمام زیرساخت های مربوط به قطعات مولکول دارو است. در صورت وجود یک قطعه در فرهنگ لغت ، مکان آن در دستگاه کاربر روی "یک" تنظیم شده است. در غیر این صورت به عنوان "صفر" در نظر گرفته می شود. بانک اطلاعاتی اثر انگشت کامل روشی مؤثر برای توصیف تشکیل مولکولی دارو به شکل بردارهای باینری اثر می گذارد. در این مقاله ، از نقشه سازند شیمیایی حاصل از سیستم pubchem در https://pubchem. ncbi. nlm. nih. gov/ استفاده شده است. این طرح شامل 881 زیرساخت مولکولی است. بنابراین ، توصیف کننده ساختار مولکولی دارو از ویژگی ها از فرمت بردار باینری 881 بعدی 28 استفاده کرده است.
استخراج ویژگی پروتئین ها
- یکی از مهمترین مراحل شناسایی DTI ، استخراج ویژگی های مهم از توالی پروتئین است. برای این منظور ، در این مقاله ، ویژگی های مختلفی از توالی پروتئین استخراج شده است. این ویژگی ها شامل EAAC ، EGAAC ، DDE ، TF-IDF ، K-GRAM ، BINA ، PSSM ، NUM ، PSEPSSM ، PSEAAC است. توضیحات و روش استخراج ویژگی هر یک در زیر آورده شده است:
ترکیب اسید آمینه پیشرفته (EAAC)
این روش توسط چن و همکاران ارائه شده است. در این الگوریتم ، اطلاعات توالی پروتئین استخراج می شود و اطلاعات فرکانس اسید آمینه بر اساس آن محاسبه می شود. این روش بر اساس معادله زیر محاسبه می شود:
- در این رابطه ، M اسیدهای آمینه را نشان می دهد ، N ویندوزهای مختلفی را با اندازه متفاوت نشان می دهد ، H (M ، N) تعداد اسیدهای آمینه از نوع M و H (N) طول پنجره N 44 است.
ترکیب اسید آمینه گروهی پیشرفته (EGAAC)
در این روش ، توالی پروتئین بر اساس ویژگی های آنها به بردارهای عددی تبدیل می شود. این روش یک الگوریتم انتخاب ویژگی تأثیرگذار است که در منطقه مورد مطالعه بیوانفورماتیک اعمال می شود یعنی پیش بینی سایت های سوء استفاده و غیره. اسیدهای آمینه ، گروه معطر شامل اسیدهای آمینه GFYW ، گروه با بار مثبت شامل اسیدهای آمینه KRH ، گروه با بار منفی شامل اسیدهای آمینه DE است و گروه بدون شارژ شامل اسیدهای آمینه STCPNQ است. بسته به اساس این گروه بندی ، معادله زیر برای محاسبه EGAAC توصیه می شود:
- در این فرمول ، H (G ، N) تعداد اسیدهای آمینه در گروه G در پنجره N و H (N) برابر با طول پنجره N است. در این مطالعه ، اندازه پنجره به عنوان L-5 (L طول توالی پروتئین) در نظر گرفته می شود. 44.
انحراف دیپپتید از میانگین مورد انتظار (DDE)
در 45 ، که در زمینه استخراج ویژگی ها بر اساس ترکیب اسید آمینه مورد مطالعه قرار گرفته است ، روش انحراف دیپپتید از میانگین مورد انتظار (DDE) به منظور تشخیص اپی توپ های یک سلول از غیر اجتناب ها با استفاده از آن پیشنهاد و توسعه یافته است. از این روش استخراج ویژگی. برای این منظور ، ترکیب دیپپتید یک توالی پروتئین (DC) ابتدا به شرح زیر محاسبه می شود:
ight) = frac>>$ $ DC سمت چپ (<
ight>$$
؛ ؛ ؛ m ، n in سمت چپ
از این نظر ، (_ ) تعداد جفت اسید آمینه MN و H مقدار توالی پروتئین است. مرحله دوم محاسبه میانگین نظری (TM) و واریانس نظری (TV) یک توالی پروتئین به شرح زیر است:
ight) = frac>>>> imes frac>>>>$$
$ $ tm سمت چپ (
از این نظر ، (_ ) شماره کدون ها است که اولین اسید آمینه را رمزگذاری می کند و (_ ) تعداد کدون هایی است که اسید آمینه دوم را رمزگذاری می کند ، و (_ ) جمع همه کدون های احتمالی استبشر$ $ تلویزیون سمت چپ (<
ight)left(
ight)>
ight)>>$$
راست) = frac
سرانجام ، DDE با توجه به مقادیر DC ، TM و تلویزیون محاسبه می شود. محاسبه بردار ویژگی DDE به شرح زیر است 44:$ $ تلویزیون سمت چپ (<
ight)left(
ight)>
ight)>>
ight)>>>$$
فرکانس اسناد فرکانس وارونه (TF-IDF)
روش استخراج ویژگی TF-IDF از دو اصطلاح تشکیل شده است: TF ، معنی فرکانس اصطلاح و IDF ، که فرکانس سند معکوس نامیده می شود. برای به دست آوردن معادله TF-IDF ، هر یک از این دو اصطلاح باید به طور جداگانه محاسبه شوند و محصول دو اصطلاح باید ضرب شود. هر یک از این دو اصطلاح به شرح زیر محاسبه می شود: TF (T ، D) تعداد تکرارهای اسید آمینه t بیش از تعداد کل پروتئین ها است. نظرات وجود دارد ، چگونه می توان این مقدار را به شرح زیر محاسبه کرد:<frac<left| D
ight|><>>$ $ IDF سمت چپ (t راست) = log سمت چپ (
درست) $ $
پس از محاسبه این دو اصطلاح ، مقدار TF-IDF بر اساس معادله زیر 46 بدست می آید:$ $ tf - idf سمت چپ (t راست) = tf سمت چپ (
راست) Times IDF سمت چپ (t راست) $ $
1-G مشخصات K-Grams است که K برای آن ترتیب داده شده است. G با استفاده از معادله ای که به شرح زیر ارائه شده است:<>>$ $ f سمت چپ (r راست) = fracr = 1 ، 2 ، ldots ، 21 $ $
که در آن (_ ) تعداد اسید آمینه R و N را تعیین می کند ، طول طول بخش را تعیین می کند. در نتیجه ، یک بردار 21 بعدی برای هر بخش 47 حاصل می شود.
2-G فرکانسهای نسبی کلیه دیپپتیدهای احتمالی را در دنباله محاسبه می کند. عوامل بردار ویژگی به این شرح داده شده است:
ight) = frac>>$ $ f سمت چپ (
r ، s = 1 ، 2 ، ldots ، 21 $ $
- جایی که (_ ) تعداد دیپپتید RS را اعلام می کند ، طول طول بخش را بیان می کند و N-1 تعداد کل دیپپتیدها را در بخش رمزگذاری شده 47 نشان می دهد.
بازنمایی عددی برای اسیدهای آمینه (NUM)
NUM قصد دارد توالی اسیدهای آمینه را به توالی مقادیر عددی معکوس کند و با نقشه برداری اسیدهای آمینه در یک محدوده الفبایی: 20 اسید آمینه استاندارد به صورت 1 ، 2 ، 3 ، ... ، 20 و اسید آمینه غیر واقعی به عنوان نشان داده شده است. 21 47.
رمزگذاری باینری اسیدهای آمینه در هر اسید آمینه در یک قسمت به یک بردار باینری متعامد 21 بعدی تبدیل می شود. نه همان NUM که تعریف شده است ، بینا در هر اسید آمینه به عنوان یک بردار باینری 21 بعدی رمزگذاری شده توسط یک عامل 1 ‘و 20‘ 0 "نشان می دهد. به عنوان مثال ، آلانین (‘A") به عنوان 100،000،000،000،000،000،000 نشان داده می شود ، سیستئین (‘C") به عنوان 010000000000000000000 و غیره نشان داده می شود ، هنگامی که اسید آمینه آمیختگی "O" به عنوان 000000000000000000000000 47 نشان داده شده است.
$$PSSM = left[ c>> & cdots &> \ vdots & ddots & vdots \> & cdots &> \ end>PSSM یا ماتریس امتیاز دهی اختصاصی موقعیت ، نوعی ماتریس امتیاز دهی است که در نظرسنجی های پروتئین انفجار اعمال می شود ، جایی که نمره ای برای یک اسید آمینه به طور جداگانه بر اساس موقعیت آن در دنباله ای از چندین پروتئین اختصاص می یابد. به طور کلی ، این روش ویژگی های مبتنی بر تکامل را استخراج می کند.
درست] $ $
در این راستا ، L اندازه توالی پروتئین را نشان می دهد ، 20 اسید آمینه و Pi ، J ، احتمال جهش اسید آمینه را به اسید آمینه JTH در فرآیند رشد بیولوژیکی نشان می دهد. بنابراین ، نمرات PSSM به عنوان اعداد صحیح مثبت یا منفی نشان داده می شود. نمرات مثبت نشان می دهد که جایگزینی اسید آمینه ارائه شده با سرعت بیشتری از آنچه به طور تصادفی انتظار می رود صورت می گیرد ، اما نمرات منفی نشان می دهد که جایگزینی بیشتر از آنچه پیش بینی می شود انجام نمی شود. PSSM حاوی اطلاعات موقعیتی توالی پروتئین و اطلاعات تکاملی 46 است.
- PSSM که در بالا توضیح داده شده است ، دو مشکل اساسی به شرح زیر است:
- با تغییر طول توالی پروتئین ، الگوریتم های یادگیری ماشین نمی توانند مستقیماً از آنها برخورد کنند.
PSSM برای اطلاعات ترتیب ترتیب توالی اعمال نمی شود.
برای غلبه بر این دو مشکل ، PSSM با PSPSSM جایگزین می شود.
$$>ماتریس نمره اختصاصی PSEPSSM یا شبه موقعیتی را می توان با استفاده از فرمول های زیر محاسبه کرد:<<upvarepsilon>>= سمت چپ [، p_ ، ldots ، p_ ، p_^<<upvarepsilon>>، p_^<<upvarepsilon>>>، ldots ، p_^^<<upvarepsilon>> = frac>>mathop sum limits_^>> left[ - P_,j>>>
ight]^ ,;;(> = ,<2>$ $ p_<upvarepsilon><>$$
The (_) rank correlation factor is shown by (_>^<mathrm>، ldots ، 0 ؛ ؛ ؛
) که می توان از طریق محاسبه نمرات PSSM مربوط به دو باقیمانده اسید آمینه متوالی با احترام به J در یک توالی پروتئین بدست آورد.
( upvarepsilon ) مربوط به مقدار فاکتور همبستگی درجه است که لازم است کمتر از طول کوچکترین توالی پروتئین 48 باشد.
مفهوم PSEAAC یا ترکیب اسید آمینه شبه نماینده نسخه پیشرفته AAC است. یک پروتئین توالی توسط P نشان داده شده است ، و L نشان دهنده اسید آمینه است.
فرمول PSEAAC به شرح زیر محاسبه می شود:
AAC یک آرایه 20 بعدی است و هر عنصر از این آرایه تعداد هر بروز اسید آمینه را در دنباله P با طول L نشان می دهد.

AAC مشکل نداشتن داده های سفارش توالی را دارد. بنابراین ، هنگام طبقه بندی ، هیچ فرصتی برای استفاده از توالی پروتئین وجود نخواهد داشت. برای غلبه بر این مشکل ، PSEAAC توصیه می شود که مجموعه ای از عوامل گسسته 20 + λ باشد. 20 عامل اول در PSEAAC می تواند برابر با AAC معمولی باشد. اگرچه عوامل از 20 + 1 تا 20 + λ عوامل همبستگی نظم توالی را نشان می دهد. تعداد عوامل λ می تواند تغییر کرده و به اندازه عملکرد اسیدهای آمینه که می توانند جمع آوری شوند مربوط شود. بنابراین با استفاده از AAC ، ویژگی ها را می توان بر روی ویژگی هایی مانند جرم ایجاد کرد که می تواند برای اسیدهای آمینه مختلف متفاوت باشد و در مطالعات قبلی 49 قابل محاسبه است. ویژگی های استخراج شده از توالی پروتئین در جدول 1 ذکر شده است.
پس از آن ، یک طبقه بندی بر اساس زیر مجموعه انتخاب شده و داده های آموزش تدریس می شود. دقت طبقه بندی به عنوان بزرگترین نتیجه به دست آمده نگه داشته می شود. مرحله بعدی در دو سطح انجام می شود. در سطح اول ، یک ویژگی عالی که هنوز ارزیابی نشده است ، با هر ویژگی در مجموعه انتخاب شده جایگزین می شود. پس از تعویض ، یک طبقه بندی کننده جدید با استفاده از زیر شاخه به دست آمده آموزش دیده است. سپس دقت طبقه بندی کننده محاسبه می شود. اگر مکمل یک ویژگی اخیر ، دقت طبقه بندی کننده را در مقایسه با زیر شاخه قبلی افزایش دهد ، نتیجه به دست آمده به عنوان بزرگترین مورد حفظ می شود. به این ترتیب ، وابستگی ویژگی انتخاب شده با ویژگی های قبلاً انتخاب شده اندازه گیری می شود و اگر به هیچ یک از ویژگی های انتخابی وابسته نباشد ، به زیر شاخه انتخاب شده پیوست. در سطح بعدی ، ویژگی مورد بررسی (ویژگی ای که توسط ویژگی های زیر شاخه انتخاب شده در سطح اول جایگزین شده است) به زیر شاخه های انتخاب شده (به دست آمده در سطح قبل) مشترک است و طبقه بندی کننده اخیر بر اساس آن آموزش داده می شودزیر شاخه اخیر و دقت طبقه بندی کننده محاسبه می شود. اگر صحت زیر مجموعه بهتر از صحت زیر شاخه منتخب در سطح اول باشد ، به عنوان بزرگترین نتیجه به دست آمده نگه داشته می شود. بعد از سطح اول و دوم ، اگر در هر سطح به زیر شاخه بیشتری برسیم ، رضایت بخش ترین زیر شاخه به عنوان زیر مجموعه این چرخه (تکرار) انتخاب می شود و از ویژگی مورد نظر در زیر شاخه انتخاب شده استفاده می شود.
طبقه بندی ویژگی ها
- طبقه بندی کننده مورد استفاده در این مقاله Rotation Forest است. با توجه به اینکه این طبقه بندی کننده پارامترهای متنوعی برای تنظیم دارد، از روش Cross-validation K-Fold یا ارزیابی پاس برای تنظیم پارامترهای مدل طبقه بندی استفاده می شود. جنگل چرخشی یک روش طبقه بندی است که عمدتاً در یادگیری نظارت شده اعمال می شود. این روش برای اولین بار توسط رودریگز و همکاران ارائه شد. 35 و دقت پیشگویی آن شبیه به طبقه بندی کننده یادگیری Ensemble است. در الگوریتم Rotation Forest، مجموعه ویژگی S به طور تصادفی به اندازه K زیرمجموعه ها تقسیم می شود و از تکنیک نمونه سازی بوت استرپ برای آموزش 75 درصد از نمونه های واقعی در هر زیررده ویژگی استفاده می شود تا ماتریس چرخش پراکنده به دست آید. سپس طبقه بندی کننده در چندین مرحله با اعمال ویژگی های ماتریس ساخته می شود. کار الگوریتم جنگل چرخشی بر اساس انتقال ویژگی و انتخاب ویژگی است و بر بهبود دقت و تفاوت طبقه بندی کننده های پایه متمرکز است. روش تجزیه و تحلیل مؤلفه اصلی (PCA) برای انجام تغییر شکل ویژگی در تمام زیرمجموعه های تقسیم شده که هدف آن ها ذخیره مؤثر داده ها است، استفاده می شود. این روش نه تنها هر زیرمجموعه را از دیگری متمایز می کند، بلکه وظیفه مهمی در پیش پردازش داده ها دارد. بنابراین، Rotation Forest می تواند تنوع Ensemble را توسعه دهد و دقت طبقه بندی کننده فونداسیون را افزایش دهد. فرض کنید W = [ (_) , (_) ,…, (_) ] شامل n ویژگی از یک نمونه است. ما W را مجموعه ای از نمونه های آموزشی در نظر می گیریم که مقدار آن N * n است. N تعداد نمونه ها را نشان می دهد. H را به عنوان طیفی از ویژگی ها فرض کنید، با فرض اینکه برچسب مربوطه Y = [ (_) , (_) ,…, (_) ] ^ T باشد. شانس. فرصت. فرض کنید که تعداد درخت های تصمیم برابر با L است که می توان آن را به ترتیب به صورت (_) , (_) ,…, (_) نشان داد. مراحل ساخت یک طبقه بندی کننده جنگل چرخشی به شرح زیر است (شکل 3):
- 1. پارامتر مناسب برای K را انتخاب کنید. مجموعه ویژگی H به طور تصادفی به زیر دسته (s) K تقسیم می شود که در آن هر زیررده شامل ویژگی های (n/K) می شود.
- 2. (_) زیر مجموعه (_) زیرمجموعه آموزشی را نشان می دهد که برای آموزش طبقه بندی کننده ith ( (_)) استفاده می شود. برای هر زیرمجموعه، یک مجموعه آموزشی (_) اخیر پس از نمونه برداری مجدد از بوت استرپ با 75 درصد از مجموعه آموزشی W ساخته می شود.
- 3. برای تولید ضرایب در ماتریس موثر (_)، تجزیه و تحلیل مؤلفه اصلی (PCA) بر روی (_) استفاده می شود که یک ماتریس M * 1 است.(_) به صورت (_) (1)،…، (_) ( (_)) نمایش داده می شود.
$$Ri = left[ l>4. ضرایب به دست آمده در ماتریس (_) یک ماتریس چرخشی پراکنده به نام (_) تشکیل داده اند که در زیر نشان داده شده است:<<(M_<1>)>>>^ , ldots b_^<<(M_<2>)>>>hfill & 0 hfill & cdots hfill & 0 hfill \ 0 hfill & ^ , ldots b_^<<(M_)>>> hfill \ end>PSSM یا ماتریس امتیاز دهی اختصاصی موقعیت ، نوعی ماتریس امتیاز دهی است که در نظرسنجی های پروتئین انفجار اعمال می شود ، جایی که نمره ای برای یک اسید آمینه به طور جداگانه بر اساس موقعیت آن در دنباله ای از چندین پروتئین اختصاص می یابد. به طور کلی ، این روش ویژگی های مبتنی بر تکامل را استخراج می کند.
تجارت با گزینههای باینری...
ما را در سایت تجارت با گزینههای باینری دنبال می کنید
برچسب :
نویسنده : حمیدرضا پگاه
بازدید : 24
تاريخ : چهارشنبه
7 تير
1402 ساعت: 18:55