ارزیابی ابزارهای تجزیه و تحلیل احساسات خاص SE خارج از قفسه: یک مطالعه تکثیر گسترده

ساخت وبلاگ

روشهای تجزیه و تحلیل احساسات برای بررسی ارتباطات انسانی ، از جمله بحث های مربوط به پروژه های نرم افزاری ، محبوب شده اند. از آنجا که ابزارهای تجزیه و تحلیل احساسات عمومی به خوبی با اطلاعات رد و بدل شده توسط توسعه دهندگان نرم افزار مطابقت ندارند ، ابزارهای جدید ، خاص برای مهندسی نرم افزار (SE) تهیه شده اند. ما بررسی می کنیم که ابزارهای اختصاصی SE از قفسه برای تجزیه و تحلیل احساسات ، تهدیدهای مربوط به اعتبار نتیجه گیری مطالعات تجربی در مهندسی نرم افزار را کاهش می دهد ، که توسط تحقیقات قبلی برجسته شده است. اول ، ما دو مطالعه را در مورد نقش احساسات در بحث های امنیتی در مورد GitHub و در مورد نوشتن سؤال در مورد پشته ، تکرار می کنیم. سپس ، ما مطالعات قبلی را با ارزیابی تا چه اندازه ابزارها با یکدیگر و حاشیه نویسی دستی در استاندارد طلای 600 سند گسترش می دهیم. ما می دانیم که ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE ممکن است در هنگام استفاده از قفسه به نتایج متناقض در سطح دانه ریز منجر شود. در مقابل ، ممکن است تنظیم یا آموزش مجدد پلت فرم خاص برای در نظر گرفتن تفاوت در کنوانسیون های سکو ، ژارگون یا طول اسناد مورد نیاز باشد.

روی نسخه خطی کار می کنید؟

از رایج ترین اشتباهات خودداری کنید و نسخه خطی خود را برای ویراستاران ژورنال آماده کنید.

1. معرفی

تجزیه و تحلیل احساسات ، به عنوان مثال ، وظیفه استخراج جهت گیری معنایی مثبت یا منفی یک متن (Pang and Lee 2008) ، به عنوان ابزاری برای مطالعات مهندسی نرم افزار تجربی برای عواطف و عقاید معدن از محتوای توسعه دهنده متنی پدید آمده است (Novielli et al. 2019) در "برنامه نویس اجتماعی" (Storey 2012) اکوسیستم. محبوبیت آن همچنین به دلیل در دسترس بودن مجموعه ای از ابزارهای تجزیه و تحلیل احساسات منتشر شده برای مصارف عمومی است.

با چند استثناء قابل توجه (Blaz and Becker 2016 ؛ Ortu et al. 2016 ؛ Panichella et al. 2015) ، مطالعات اولیه تجربی در این زمینه از ابزارهای تجزیه و تحلیل احساسات عمومی خارج از قفسه سوء استفاده کرده اند. با این حال ، ابزارهای تجزیه و تحلیل احساسات با هدف عمومی تمایل به تولید نتایج غیرقابل اعتماد در زمینه مهندسی نرم افزار دارند زیرا در اسناد از حوزه های غیر فنی مانند منتقدان فیلم و بررسی محصول آموزش داده می شوند. به طور خاص ، جونگلینگ و همکاران.(2017) سعی در تکرار مطالعات تجربی که قبلاً منتشر شده بود ، نشان داد که انتخاب ابزار تجزیه و تحلیل احساسات تأثیر بر اعتبار نتیجه گیری دارد.

برای غلبه بر چنین محدودیت هایی ، محققان شروع به توسعه ابزارهای تجزیه و تحلیل احساسات خاص SE به احساسات توسعه دهندگان معدن (به عنوان مثال ، Calefato و همکاران (2018a) ، احمد و همکاران (2017) ، اسلام و زیبران (2017) و چن و همکاران و همکاران. (2019)) و نظرات (به عنوان مثال ، (لین و همکاران 2019 ؛ اودین و خونه 2017)). در مطالعات معیار قبلی ، (Novielli et al. 2018b ؛ 2020) نشان داد که چگونه سفارشی سازی خاص SE از نظر توافق با حاشیه نویسی دستی و توافق در بین ابزارها باعث افزایش دقت می شود ، مشروط بر اینکه حاشیه نویسی مبتنی بر مدل از احساسات اجرا شود و اینیک مجموعه داده استاندارد طلایی برای بازآموزی در دسترس است.

در این مقاله ، ما فراتر از ارزیابی ساده عملکرد ابزارهای خاص SE و توافق آنها هستیم که هدف اصلی مطالعات معیار فوق الذکر است. در اینجا ، ما بررسی می کنیم که بازآموزی خاص SE که توسط نویسندگان اصلی ابزارهای تجزیه و تحلیل احساسات اداره می شود ، محققان را قادر می سازد تا اعتبار نتیجه گیری ناشی از استفاده از ابزارهای هدف عمومی را برطرف کنند (Jongeling et al. 2017). به طور خاص ، ما هدف ما این است که آیا می توانیم با اطمینان و با اطمینان از ابزارهای خاص SE خارج از قفسه استفاده کنیم ، یعنی بدون تنظیم بیشتر یا آموزش فراتر از آنچه توسط نویسندگان اصلی در متون فنی انجام می شود.

به همین ترتیب ، ما اولین سؤال تحقیق خود را به شرح زیر تدوین می کنیم

  • RQ1: آیا انتخاب ابزار تجزیه و تحلیل احساسات تهدیدی برای اعتبار نتیجه گیری در یک مطالعه مهندسی نرم افزار ایجاد می کند؟

برای پرداختن به RQ1 ، ما دو مطالعه قبلاً منتشر شده در مورد تجزیه و تحلیل احساسات در مهندسی نرم افزار را تکرار می کنیم. ما تصمیم گرفتیم که تکرارهای دقیق و وابسته را انجام دهیم (شول و همکاران 2008) برای کاهش تهدیدات برای اعتبار که ذاتی در تکثیر هستند. به این ترتیب ، ما دو مطالعه را انتخاب می کنیم که در آن زیر مجموعه ای از نویسندگان مقاله حاضر به عنوان همکار درگیر بودند. با این کار ، ما قادر به تکرار طرح مطالعه اصلی هستیم ، از همان مجموعه داده های مطالعات اصلی استفاده می کنیم و فقط ابزارهای تجزیه و تحلیل احساسات را که برای استخراج احساسات توسعه دهندگان استفاده می شود ، تغییر می دهیم. به طور خاص ، ما تجزیه و تحلیل احساسات در بحث امنیتی GitHub توسط Pletea و همکاران را تکرار می کنیم.(2014) و مطالعه نقش احساسات در سؤال نوشتن مؤثر در سرریز پشته توسط Calefato و همکاران.(2018b). ابتدا هر مطالعه را با چهار ابزار خاص SE تکرار می کنیم و نتیجه گیری هایی را که به دست می آوریم مقایسه می کنیم. سپس ، ما یافته های به دست آمده را با ابزارهای خاص SE با آنهایی که قبلاً در مطالعات اصلی منتشر شده بودند مقایسه می کنیم تا تأیید کنیم که آیا آنها هنوز هم دارند.

به غیر از پیشنهاد تهدید برای اعتبار نتیجه گیری ، جونگلینگ و همکاران. نشان داد که ابزارهای تجزیه و تحلیل احساسات عمومی نیز با حاشیه نویسی انسان و با یکدیگر مخالف هستند. برای به دست آوردن بینش بیشتر در این راستا ، اما این بار با تمرکز بر ابزارهای تجزیه و تحلیل احساسات خاص ، ما دو سؤال تحقیق اضافی را از Jongeling و همکاران به ارث می بریم و تجدید نظر می کنیم.(2017):

  • RQ2: نتایج حاصل از ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE با یکدیگر موافق است؟
  • RQ3: ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE تا چه اندازه با رأی دهندگان انسانی موافق هستند؟

ما با اندازه گیری توافق بین ابزارهای خاص SE ، بر اساس حاشیه نویسی دستی یک زیر مجموعه از 600 سند که به طور تصادفی از مجموعه داده های اصلی انتخاب شده اند ، به RQ2 می پردازیم. ما همچنین از استاندارد طلای به دست آمده برای پرداختن به RQ3 با محاسبه توافق ابزارهای خاص SE با برچسب های دستی استفاده می کنیم. ما پاورقی Corpus 1 حاشیه نویسی را به عنوان سهم اضافی در این مطالعه برای تشویق مطالعات بیشتر در مورد تشخیص احساسات در مهندسی نرم افزار آزاد می کنیم.

این مقاله با افزایش درک ما از استفاده مجدد از ابزار خارج از قفسه، حتی در حضور تنظیم خاص SE، وضعیت هنر در تجزیه و تحلیل احساسات را در مطالعات تجربی در مهندسی نرم افزار افزایش می دهد. ما نشان می دهیم که چگونه انتخاب ابزارهای تجزیه و تحلیل احساسات خاص ممکن است منجر به نتایج متناقضی شود، بنابراین تهدیدی برای اعتبار نتیجه گیری است، زمانی که تحلیل در سطح دقیقی باشد. نتایج ما نشان می دهد که تنظیم دقیق ابزارهای تحلیل احساسات در حوزه مهندسی نرم افزار ممکن است برای بهبود دقت کافی نباشد، و تنظیم یا بازآموزی ویژه پلت فرم ممکن است برای تنظیم عملکرد مدل با تغییر در معنای شناسی واژگانی به دلیل تغییر در معناشناسی واژگانی مورد نیاز باشد. اصطلاحات یا کنوانسیون های مختلف پلت فرم. تنظیم دقیق بیشتر باید به منظور تنظیم عملیاتی سازی احساسات در راستای اهداف تحقیقاتی خاص اجرا شود.

ادامه مقاله به شرح زیر تدوین شده است. در بخش 2، کار مرتبط را مرور می کنیم و ابزارهای تجزیه و تحلیل احساسات خاص SE را که در مطالعه خود استفاده می کنیم، توصیف می کنیم. در بخش 3، دو مطالعه را که تکرار می کنیم، شامل اهداف، تنظیمات و نتایج آنها خلاصه می کنیم. ما نتایج تکرارهای خود را به ترتیب در بخش 4 و نتایج تجزیه و تحلیل توافق بین ابزارها و با برچسب های دستی در بخش های 5 و 6 گزارش می کنیم. در بخش 7، یافته های خود را مورد بحث قرار می دهیم در حالی که در بخش 8 محدودیت های اصلی مطالعه فعلی را ارزیابی می کنیم. در نهایت، نتیجه گیری را در بخش 9 ارائه می کنیم.

2 پس زمینه

2. 1 کارهای مرتبط

در سالهای اخیر ، روند استفاده از تجزیه و تحلیل احساسات به عنوان ابزاری جدید برای مطالعات تجربی در تحقیقات مهندسی نرم افزار ظاهر شده است. غیر از مطالعات توسط Pletea و همکاران.(2014) و Calefato و همکاران.(2018b) که ما در این مقاله تکرار می کنیم ، چندین مورد دیگر تجزیه و تحلیل احساسات را برای معدن احساسات توسعه دهندگان نرم افزار از آثار ارتباطی خود اعمال کرده اند. به طور خاص ، محققان با استفاده از تجزیه و تحلیل احساسات به محتوای موجود در سیستم عامل های توسعه نرم افزار مشترک مانند Github (گوزمن و همکاران 2014 ؛ سینا و همکاران 2016) و JIRA (Ortu و همکاران 2016 ، نقش تأثیر در مهندسی نرم افزار اجتماعی را بررسی کردند.؛ Mäntylä و همکاران 2016 ؛ مورگیا و همکاران 2018). در دامنه تحقیقات مهندسی مورد نیاز ، تجزیه و تحلیل احساسات نیز به نظرات کاربران معدن درباره محصولات نرم افزاری از بررسی های خود در فروشگاه های برنامه (Panichella et al. 2015 ؛ Kurtanovic و Maalej 2018) ، از محتویات تولید شده توسط کاربر در سیستم عامل های میکروبلاگینگ استفاده شده است.(گوزمن و همکاران 2016) و بلیط های مشتریان (ورنر و همکاران 2018).

علیرغم محبوبیت موضوع ، فقط چند مقاله در مورد مطالعات تکرار شده در مورد تجزیه و تحلیل احساسات در مهندسی نرم افزار گزارش می دهند. مطالعه ما بر تحقیقات قبلی توسط (Jongeling et al. 2017) انجام شده است که پیش بینی های ابزارهای تجزیه و تحلیل احساسات عمومی ، خارج از قفسه را مقایسه می کنند ، نشان می دهد که نه تنها آنها با حاشیه نویسی انسانی بلکه با یکدیگر مخالف هستند. با توجه به اختلاف نظر بین این ابزارها ، جونگلینگ و همکارانش تکرار مطالعات قبلی در مورد تجزیه و تحلیل احساسات در مهندسی نرم افزار را انجام دادند تا بفهمند انتخاب یک ابزار تا چه اندازه بر نتایج تأثیر می گذارد. آنها یافته های متناقض را مشاهده کردند و نتیجه گرفتند که نتایج مطالعات قبلی نمی تواند هنگامی که از ابزارهای مختلف تجزیه و تحلیل احساسات عمومی استفاده می شود ، تکرار شود ، یعنی انتخاب ابزار می تواند تهدیدات را به اعتبار نتیجه گیری القا کند.

نوویلی و همکاران.(2018b) بررسی کرد که ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE با حاشیه نویسی استاندارد طلا از احساسات توسعه دهندگان و با یکدیگر موافق هستند. برای این منظور ، آنها یک مطالعه معیار را با هدف ارزیابی عملکرد سه ابزار تجزیه و تحلیل احساسات خاص SE در چهار مجموعه داده استاندارد طلا از جمله آثار ارتباطی توسعه دهندگان از سیستم عامل های مشارکتی ، مانند پشته و JIRA انجام دادند. عملکرد هر ابزار در یک مجموعه آزمایش نگهدارنده استخراج شده از استاندارد طلا ارزیابی شد ، که برای ساخت عملکرد پایه نیز که توسط یک ابزار با هدف کلی نشان داده شده است ، مورد استفاده قرار می گرفت. یافته های نوویلی و همکاران. نشان دهید که تجزیه و تحلیل قابل اعتماد در مهندسی نرم افزار امکان پذیر است ، به شرط آنکه حاشیه نویسی دستی استانداردهای طلا از مدلهای نظری تأثیر الهام گرفته شود. علاوه بر این ، آنها دریافتند که ، صرف نظر از رویکردی که برای حاشیه نویسی اتخاذ شده است ، سفارشی سازی/آموزش خاص SE خاص باعث افزایش دقت با توجه به رویکرد پایه می شود (Thelwall et al. 2012) ، یک بخش عمومی خارج از قفسهابزار هدف. بر اساس یافته های تجزیه و تحلیل خطای کیفی آنها ، Novielli و همکاران. پیشنهاد کنید که ما باید آگاه باشیم که ابزارها و مجموعه داده ها با در نظر گرفتن اهداف تحقیق خاص و مفهوم سازی متفاوت از تأثیر ساخته می شوند. بنابراین ، یک بررسی عقل همیشه برای ارزیابی مناسب بودن ابزارهای موجود با توجه به اهداف تحقیق توصیه می شود.

Mäntylä و همکاران.(2017) یک مطالعه قبلی در مورد شناسایی فرسودگی و بهره وری توسعه دهندگان نرم افزار را تکرار کرد (Mäntylä و همکاران 2016). مطالعه اصلی با استفاده از یک واژگان با هدف کلی از 14000 کلمه انگلیسی با نمرات احساسات شناخته شده ، از جمله برانگیختگی مرتبط با هر کلمه انجام شد. در مطالعه تکثیر ، نویسندگان با استفاده از تجزیه و تحلیل زبانی از آثار ارتباطی توسعه دهندگان ، یک واژگان برانگیختگی مهندسی نرم افزار (SEA) را به درستی اندازه گیری برانگیختگی ، یعنی فعال سازی عاطفی (آرام در مقابل هیجان زده) ایجاد کردند. آنها دریا و توانایی آن را برای ضبط صحیح برانگیختگی عاطفی توسعه دهندگان از مجموعه داده 700،000 گزارش شماره JIRA حاوی بیش از 2،000،000 نظر مورد استفاده در مطالعه اصلی تأیید کردند (Mäntylä و همکاران 2016). نتایج مطالعه تکرار شده یافته های قبلی را تأیید می کند که می توان از معیارهای مرتبط با احساسات برای شناسایی انواع مختلف گزارش های مسئله و همچنین اولویت آنها استفاده کرد. علاوه بر این ، تکثیر با دریا نشان می دهد که یک واژگان خاص SE قادر به تمایز بهتر بین اولویت های مسئله است. به طور خاص ، یک رویکرد یکپارچه ، ترکیب دریا با واژگان هدف کلی مورد استفاده در مطالعه اصلی ، پیشرفت روشنی نسبت به کارهای قبلی ارائه می دهد.

به طور کلی ، نتایج حاصل از مطالعات قبلی نشان می دهد که ابزارهای خاص SE برای غلبه بر محدودیت های ابزارهای هدف عمومی هنگام استفاده در حوزه مهندسی نرم افزار مورد نیاز است. علاوه بر این ، شواهد تجربی ارائه شده است که تنظیم خاص SE از ابزارها ، دقت تجزیه و تحلیل احساسات را در مطالعات مهندسی نرم افزار تجربی بهبود می بخشد.

2. 2 ابزارهای تجزیه و تحلیل احساسات خاص SE

تجزیه و تحلیل احساسات وظیفه استخراج جهت گیری مثبت ، منفی یا خنثی نظرات و احساسات منتقل شده توسط یک متن است. علیرغم محبوبیت ابزارهای تجزیه و تحلیل احساسات عمومی ، اجماع در جامعه تحقیقاتی این است که چنین ابزارهایی برای تشخیص احساسات در بحث های فنی توسعه دهندگان مناسب نیستند (Jongeling et al. 2017 ؛ Novielli et al. 2015 ؛ Lin et al. 2018). به همین ترتیب ، محققان ابزارهای خاص خود را به طور خاص برای دامنه مهندسی نرم افزار پیاده سازی و منتشر کرده اند. برای فعال کردن مقایسه با یافته های قبلی ، ما چهار ابزار را انتخاب می کنیم که قبلاً در مطالعات معیار قبلی در مورد تجزیه و تحلیل احساسات در مهندسی نرم افزار گنجانده شده بودند (Novielli et al. 2018b ؛ 2020). دو مورد از این ابزارها مبتنی بر واژگان ، یعنی Sentistrength-SE (اسلام و Zibran 2017) و Deva (اسلام و Zibran 2018b) هستند ، یعنی آنها به واژگان احساسات از جمله نمرات قطبی در سطح کلمه متکی هستند. دو مورد دیگر ، یعنی Senti4SD (Calefato و همکاران 2018a) و Senticr (احمد و همکاران 2017) ، یک رویکرد نظارت شده را پیاده سازی کرده و بر اساس استانداردهای طلای دارای برچسب دستی آموزش داده می شوند.

وابسته به سن و سال

(اسلام و Zibran 2017) یک سازگاری خاص از SETISTER SETISTERSET ابزار عمومی است (Thelwall et al. 2012). این نسخه از یک نسخه تنظیم شده دستی از واژگان Sentisterge Senduge استفاده می کند و اکتشافی موقت را برای اصلاح نادرست های نادرست مشاهده شده هنگام اجرای آن در مجموعه داده توسط Ortu و همکاران پیاده سازی می کند.(2016). نمرات احساسات کلمات موجود در واژگان به صورت دستی تنظیم شده است تا معناشناسی و قطبیت خنثی کلمات دامنه مانند "پشتیبانی" یا "پیش فرض" را منعکس کند. و به طور مشابه ، یک مقدار بین 1 تا 5 برای منفی N (به ترتیب ، نمرات مثبت و منفی در ستون های دوم و سوم جدول 1). ارزیابی انجام شده توسط نویسندگان نشان می دهد که Sentistrength-SE به دقت 0. 74 و 85 فراخوان دست می یابد ، که بالاتر از عملکرد سپرده گذاری ابزار هدف کلی در متون فنی است.

figure e

5 توافق بین ابزارهای خاص SE

برای پرداختن به RQ2 (تا حدودی نتایج حاصل از ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE با یکدیگر موافق است؟) ، ما توافق را بین چهار ابزار خاص SE با استفاده از Kappa وزنی (κ) توسط کوهن (1968) اندازه گیری می کنیم. متریک κ به عنوان توافق نامه مشاهده شده محاسبه می شود ، یعنی تعداد دفعاتی که رأی دهندگان (یا انسان یا طبقه بندی کننده ها) همان برچسب ها را صادر می کنند ، که توسط توافق شانس اصلاح می شوند ، این احتمال وجود دارد که رأی دهندگان به طور اتفاقی موافق باشند. به طور مداوم با تحقیقات قبلی (Jongeling et al. 2017 ؛ Novielli et al. 2018b) ، ما بین اختلاف نظر خفیف ، این اختلاف بین حاشیه نویسی های منفی/مثبت و خنثی و اختلاف نظر شدید است ، این اختلاف بین قضاوت های مثبت و منفی است. به همین ترتیب ، در محاسبه وزن κ ، ما یک وزن = 2 را به اختلاف شدید و یک وزن = 1 به اختلاف خفیف اختصاص دادیم (جدول 7 را ببینید). ما تفسیر κ توسط Viera و Garrett (2005) را دنبال می کنیم ، نشان می دهد که اگر κ ≤ 0 کمتر از شانس باشد ، کمی اگر 0. 01 ≤ κ ≤ 0. 20 باشد ، عادلانه اگر 0. 21 ≤ 0. 40 ، متوسط اگر 0. 41 ≤ κ ≤ 0. 60 متوسط باشد.، اگر 0. 61 ≤ κ 0. 80 ، و تقریباً کامل باشد اگر 0. 81 ≤ κ ≤ 1 باشد.

figure f

6 توافق ابزارهای خاص SE با حاشیه نویسی دستی

برای پرداختن به RQ3 (تا چه اندازه ابزارهای مختلف تجزیه و تحلیل احساسات خاص SE با رأی دهندگان انسانی موافق هستند؟) ، ما به صورت دستی زیر مجموعه ای از 600 سند را که به طور تصادفی از مجموعه داده های GitHub و پشته انتخاب شده اند ، برچسب گذاری کردیم: 200 درخواست کشش و 200 نظر ، به طور مساوی توزیع شده است. بین گروه های "امنیت" و "بدون امنیت" از مجموعه داده توسط (Pletea و همکاران 2014) ، به علاوه 200 سؤال از مجموعه داده توسط (Calefato و همکاران 2018b)

مطالعه برچسب زدن توسط دو نویسنده اول (رأی دهندگان از این پس) انجام شد ، پس از دستورالعمل های حاشیه نویسی که قبلاً منتشر شده بود برای قطبیت احساسات توسط Calefato و همکاران.(2018a). هر سند در زیر مجموعه ها به صورت جداگانه توسط دو رأی دهنده حاشیه نویسی شد. برای هر سند ، رأی دهندگان اظهار داشتند که آیا احساسات مثبت یا منفی منتقل شده است. همچنین می توان قطبیت مثبت و منفی را نشان داد که مواردی از قطبیت مختلط را نشان می دهد. برای نشان دادن احساسات خنثی ، رأی دهندگان برای حاشیه نویسی از عدم وجود قطبیت مثبت و منفی لازم بودند. تمام موارد اختلاف نظر از طریق بحث حل و فصل شد و منجر به تکلیف یک برچسب طلا به هر سند شد. دو اظهار نظر از زیر مجموعه GitHub دور ریخته شد زیرا رأی دهندگان نتوانستند به توافق بر روی برچسب قطبیت برسند. در مقابل ، رأی دهندگان با موفقیت به همه اختلافات موجود در زیر مجموعه سرریز پشته پرداختند. توزیع برچسب حاصل برای این دو زیر مجموعه قابل مقایسه است ، با اکثر موارد برچسب زده شده به عنوان خنثی است (جدول 10 را ببینید). زیر مجموعه GitHub حاوی نسبت کمی بالاتر از موارد مثبت در مقایسه با سرریز پشته یکی است. برعکس ، احساسات منفی بیشتر در سرریز پشته اتفاق می افتد. بخش بیشتری از موارد مختلط در زیر مجموعه سرریز پشته (7 ٪) نسبت به GitHub (2 ٪) ظاهر می شود. یک توضیح احتمالی در مورد این ، همانطور که در مباحث مربوط به حل اختلاف نیز مطرح شد ، این است که متون طولانی تر به احتمال زیاد هم جملات مثبت و هم منفی را منتقل می کنند. در حقیقت ، میانگین طول اسناد موجود در نمونه GitHub 134 کاراکتر است در حالی که 430 در سرریز پشته است.

figure g

7 بحث

در ادامه ، ما بینش های کلیدی از تکرار خود را در قالب دستورالعمل های عملی برای اطلاع رسانی در مورد تحقیقات آینده در مورد تجزیه و تحلیل احساسات در مهندسی نرم افزار خلاصه می کنیم.

ابزارهای تجزیه و تحلیل احساسات باید در صورت امکان به جای استفاده از قفسه ، مجدداً مورد بازآفرینی قرار گیرند

ما مشاهده می کنیم که ، در صورت استفاده از قفسه مانند تکثیر ما ، ابزارهای تجزیه و تحلیل احساسات خاص SE ممکن است در صورت در نظر گرفتن سطوح مختلف واحد تجزیه و تحلیل ، منجر به نتایج متناقض شود. هنگام تکرار مطالعه توسط Pletea و همکاران ، می توانیم یافته های اصلی را تأیید کنیم که نظرات و بحث های امنیتی GitHub بدون در نظر گرفتن ابزار مورد استفاده ، احساسات منفی بیشتری نسبت به موارد غیر امنیتی منتقل می کند. به طور مشابه ، هنگام تکرار مطالعه در مورد سرریز پشته توسط Calefato و همکاران ، می توانیم تأثیر موفقیت سوال در اعتبار کاربران و کیفیت ارائه سؤالات را تأیید کنیم. با این حال ، در هر دو مورد ، ما توزیع متفاوتی از برچسب های قطبی را مشاهده می کنیم که ممکن است منجر به نتیجه گیری های مختلف در سطح تجزیه و تحلیل ریزتر شود. به همین ترتیب ، البته به طور خاص برای حوزه مهندسی نرم افزار تنظیم شده است ، ما استدلال می کنیم که استفاده از ابزارهای تجزیه و تحلیل احساسات خارج از قفسه ، تهدید بالقوه ای برای اعتبار نتیجه گیری ایجاد می کند ، که ممکن است در یافته های مطالعات قبلی منتشر شده در این زمینه تأثیر داشته باشد. این شواهد همچنین توسط یافته های گزارش شده در یک مطالعه معیار توسط نوویلی و همکاران پشتیبانی می شود.(2020) ، که از افت عملکرد در تنظیمات متقابل پلتفرم خبر می دهد ، یعنی هنگامی که از ابزارهای تجزیه و تحلیل احساسات خاص SE در صورت عدم وجود یک استاندارد طلا برای آموزش استفاده می شود.

برای انتخاب ابزار مناسب مطابق با اهداف تحقیق ، یک بررسی بهداشتی اولیه را انجام دهید

یکی از فرضیات اساسی در انتخاب ابزار تجزیه و تحلیل احساسات این است که ما هدف اصلی و همان مفهوم سازی تأثیر را با نویسندگان ابزار به اشتراک می گذاریم. این امر لزوماً درست نیست ، صرف نظر از تنظیم دقیق برای دامنه SE ، زیرا استاندارد طلای مختلف ممکن است از مدلهای مختلف نظری تأثیر الهام گرفته شود ، با هدف مدل سازی حالات مختلف عاطفی ، مانند احساسات ، مواضع بین فردی ، نگرش یا خلق و خو. اختلاف بین ابزارهای مشاهده شده در تکرارهای ما نشان می دهد که چگونه تنظیم خاص SE از ابزارهای تجزیه و تحلیل احساسات لزوماً به خودی خود یک گلوله نقره ای را برای بهبود صحت ابزارهای تجزیه و تحلیل احساسات در مطالعات مهندسی نرم افزار نشان نمی دهد. بنابراین ، یک توضیح احتمالی برای توافق کم مشاهده شده این است که ابزارهای معیار در ابتدا با استانداردهای طلایی که شامل حاشیه نویسی دستی است به دنبال دستورالعمل های مختلف ، تأیید شده و تنظیم شده است. همانطور که قبلاً توسط تحقیقات قبلی اشاره شد ، حاشیه نویسی احساسات یک کار ذهنی است ، بنابراین حتی ممکن است انسان با هر فرد (Imtiaz و همکاران 2018) مخالف باشد اگر حاشیه نویسی مدل محور اتخاذ نشده باشد (Novielli et al. 2018b). علاوه بر این ، اسلام و Zibran (2018a) نشان دادند که چگونه ابزارها بهترین عملکرد خود را در مجموعه داده ها نشان می دهند که در ابتدا در زمان انتشار آنها مورد آزمایش قرار گرفتند ، در حالی که افت عملکرد هنگام ارزیابی در یک مجموعه داده متفاوت مشاهده می شود. علاوه بر این ، آنها گزارش می دهند که صحت ابزارها تا حد زیادی در مجموعه داده های مختلف مطابق با آنچه توسط لین و همکاران مشاهده شده است متفاوت است.(2018) و بیشتر توسط مطالعه معیار متقاطع ما تأیید شد (نوویلی و همکاران 2020).

در تحقیقات قبلی ما ، ما قبلاً در مورد اهمیت تحقیقات تحلیل احساسات در مورد مدلهای نظری تأثیر (نوویلی و همکاران 2018b) استدلال کردیم. به همین ترتیب ، یک بررسی سلامت همیشه برای ارزیابی مناسب بودن ابزارهای موجود با توجه به اهداف تحقیقاتی خاص توصیه می شود (Novielli et al. 2018a ؛ 2020). به عنوان مثال ، در بعضی موارد ، استخراج عقاید ممکن است هدف باشد نه شناخت احساسات واقعی ، مانند شادی یا غم.(لین و همکاران 2019) عملکرد ضعیف طبقه بندی کننده ها را که برای تشخیص احساسات توسعه دهندگان (به عنوان مثال ، عشق ، شادی ، ترس) طراحی شده است ، هنگام استفاده از وظیفه مختلف تشخیص نظرات توسعه دهندگان در مورد کتابخانه های نرم افزاری گزارش داد.

اگر بازآموزی امکان پذیر نیست ، یک مجموعه از ابزارهای متعدد را برای بهبود عملکرد در نظر بگیرید

در مورد هر طبقه بندی کننده ، بازآموزی ابزارهای تجزیه و تحلیل احساسات در مجموعه داده های جدید می تواند تا حد زیادی عملکرد آنها را بهبود بخشد. با این حال ، همه راه حل ها از بازآموزی پشتیبانی نمی کنند ، همانطور که در مورد ابزارهای واژگان مبتنی بر Deva و Sentistrength-SE. بر اساس نتایج تجزیه و تحلیل ما در مورد توافق ابزارها (به بخش 5 مراجعه کنید) و مطابق با شواهد قبلی (جونگلینگ و همکاران 2017 ؛ ژانگ و همکاران 2020) ، پیشنهاد می کنیم یک گروه از ابزارها را با سیستم رای گیری اکثریت اجرا کنید. یک روش ممکن برای افزایش توافق با برچسب های دستی در هنگام بازآموزی راه حل انتخاب شده گزینه ای نیست.

از تأثیر واحدهای مختلف تجزیه و تحلیل بر عملکرد ابزار مراقب باشید

نتایج مطالعه توافق نامه نشان می دهد که انتخاب واحد تجزیه و تحلیل ممکن است یک تهدید بالقوه برای ساخت اعتبار باشد. ما توافق بهتری را برای اسناد کوتاه تر بین ابزارها مشاهده می کنیم (به جداول 8 و 9 مراجعه کنید) و همچنین بین ابزارها و حاشیه نویسی دستی (به جدول 11 مراجعه کنید). به طور خاص ، ما بهترین مقادیر κ توافق بین ابزارها برای نظرات GitHub (واحد کوتاهتر تجزیه و تحلیل) را پیدا کردیم ، بلافاصله به دنبال پست های سرریز پشته و بدترین مقادیر برای بحث های GitHub (واحد طولانی تر تجزیه و تحلیل). این شواهد نشان می دهد که تجزیه و تحلیل احساسات بر روی متن کوتاه عملکرد بهتری دارد ، در حالی که اسناد طولانی تر مشکل ساز تر هستند زیرا ممکن است در واقع احساسات مثبت و منفی را منتقل کنند-همانطور که با درصد بالاتر موارد مختلط با برچسب دستی برای مجموعه داده های سرریز پشته تأیید شده است (7 ٪)در مقایسه با نظرات GitHub (2 ٪) (جدول 10 را ببینید).

علاوه بر این، مشاهده می کنیم که هر ابزار توزیع های متفاوتی از برچسب های مثبت، منفی و خنثی را برای مجموعه داده توسط Pletea و همکاران تولید می کند، که به عنوان واحدهای تحلیل نظرات فردی در مقابل کل بحث در نظر گرفته می شوند. این شواهد (Jongeling و همکاران 2017) را تأیید می کند که هنگام انتخاب واحد تجزیه و تحلیل، مراقبت لازم است زیرا ممکن است بر توزیع برچسب قطبیت حاصل تأثیر بگذارد. بنابراین، به غیر از تنظیم دقیق ابزارهای تجزیه و تحلیل احساسات برای رسیدگی به چالش های خاص حوزه مهندسی نرم افزار (Novielli و همکاران 2018b) و منبع داده (Lin et al. 2018)، ابزارها ممکن است در صورت طول های مختلف نیاز به تنظیم موقت بیشتری داشته باشند. اسناد یا موضوعات تعاملی در نظر گرفته می شود. به عنوان مثال، برای دو ابزار تحت نظارت در نظر گرفته شده در این مطالعه (Senti4SD و SentiCR)، این تنظیم را می توان با آموزش مجدد مدل های طبقه بندی با استفاده از یک مجموعه آموزشی با برچسب های طلایی اختصاص داده شده با دانه بندی متفاوت، به عنوان مثال، در سطح جملات فردی انجام داد. نسبت به سطح کل سند. اگر بازآموزی به دلیل عدم وجود استاندارد طلا امکان پذیر نیست، مدل سازی صریح موارد مختلط را با استفاده از ابزارهایی که برای نشان دادن وجود/غیاب احساسات مثبت و منفی طراحی شده اند، مانند SentiStrength-SE، توصیه می کنیم.

در نهایت، وابستگی توزیع برچسب به ابزارهای مورد استفاده و واحد تجزیه و تحلیل، پیامدهای بیشتری را بر تکرارپذیری یافته ها نشان می دهد. با وجود برچسب های توزیع قطبی متفاوت که توسط چهار ابزار موجود در تکرارهای ما صادر شده است، ادعاهای Pletea و همکاران. بدون توجه به ابزار مورد استفاده، پایدارتر هستند، زیرا به طور صریح به این توزیع اشاره نمی کنند، بلکه به درصد بر گروه ها (یعنی امنیت در مقابل غیرامنیتی) اشاره می کنند، در مقابل منفی در مقابل مثبت. این یافته ها همچنین زمانی تایید می شوند که از بحث ها به جای نظرات به عنوان واحد تحلیل استفاده شود. با این حال، سناریوهای مختلف و اهداف تحقیق ممکن است به طور جدی از تأثیر انتخاب ابزار و واحد تحلیل آسیب ببینند. به عنوان مثال، در مورد شناسایی نظرات منفی که نشان دهنده یک نگرش خصمانه در حوزه فعالیت های تعدیل جامعه است، که در آن بهینه سازی با دقت طبقه منفی در یک نظر برای جلوگیری از ممنوعیت غیر ضروری کاربران بسیار مهم است.

8 تهدید برای اعتبار

از آنجایی که ما به شدت دو مطالعه اصلی را تکرار کردیم، برخی از تهدیدات مربوط به اعتبار گزارش شده در مقالات اصلی را نیز به ارث بردیم، به عنوان مثال، مجموعه داده های مورد بررسی برای GitHub و Stack Overflow به طور کلی نماینده نیستند. با این حال، محدودیت های اعتبار هر مطالعه هم در مطالعات اصلی و هم در تکرارها مشترک است، و بنابراین، بعید است که بر یافته های گزارش شده در اینجا تأثیر بگذارد.

در مورد حاشیه نویسی استاندارد طلای سند 600، تهدیدات برای اعتبار ساختاری با این واقعیت کاهش می یابد که برچسب گذاری توسط دو ارزیاب مستقل و با حل اختلافات مبتنی بر بحث انجام می شود.

هنگام اجرای تکرارها، یکی از خطرات ذاتی ایجاد تغییرات جزئی ناخواسته در تنظیمات مورد استفاده در مطالعه اصلی است، بنابراین تفاوت های عمده در نتایج مشاهده می شود که ناشی از عوامل مخدوش کننده است. برای کاهش این خطر، تصمیم گرفتیم مطالعات خود را انجام دهیم تا از تضعیف اعتبار نتیجه گیری مطالعه خود جلوگیری کنیم. به طور خاص، ما دو تکرار وابسته را انجام دادیم که در آن طرح اصلی مطالعات حفظ شد. تنها تغییری که ما معرفی کردیم شامل انتخاب ابزار تجزیه و تحلیل احساسات، در راستای هدف تحقیق ما برای بررسی تأثیر ابزارهای انتخابی خاص SE بر اعتبار نتیجه گیری است.

9 نتیجه گیری

در این مقاله، ما نتایج یک تکرار گسترده را با هدف ارزیابی اینکه تا چه حد ابزارهای تجزیه و تحلیل احساسات خاص SE تهدیدات اعتبار نتیجه گیری را که توسط تحقیقات قبلی برجسته شده بود، کاهش می دهند، گزارش کردیم. ما دریافتیم که، علیرغم اینکه برای رسیدگی به چالش های خاص حوزه SE تنظیم شده است، استفاده از ابزارهای مختلف تجزیه و تحلیل احساسات ممکن است منجر به نتایج متناقضی در صورت استفاده خارج از قفسه شود. این امر به ویژه در یک سطح تحلیل دقیق صادق است، زیرا ما توافق متوسطی بین ابزارها و همچنین تفاوت هایی در توزیع برچسب های قطبی تخصیص یافته توسط ابزارهای مختلف در موارد متنی مجموعه داده خود پیدا کردیم.

نتایج ما نشان می دهد که تنظیم دقیق ابزارهای تحلیل احساسات در حوزه مهندسی نرم افزار ممکن است برای بهبود دقت کافی نباشد. در مقابل، تنظیم یا بازآموزی خاص پلت فرم ممکن است برای تنظیم عملکرد مدل با تغییرات در معنای واژگانی به دلیل اصطلاحات یا قراردادهای پلت فرم متفاوت مورد نیاز باشد. تنظیم دقیق یا بازآموزی ابزارها ممکن است با توجه به طول های مختلف اسناد مورد نیاز باشد، زیرا متوجه شدیم که متون طولانی تر ممکن است قطبیت احساسات متفاوتی را منتقل کنند. در نهایت، بررسی سلامت عملکرد ابزار در برابر برچسب گذاری دستی باید همیشه انجام شود، زیرا ممکن است طبقه بندی کننده ها بر اساس عملیاتی سازی متفاوت احساسات ساخته شوند، که لزوماً با اهداف تحقیق مورد نظر مطابقت ندارند. پرداختن به زبان مجازی و قطبیت احساسات ضمنی در متون همچنان چالش های باز را برای طبقه بندی کننده های احساسات نشان می دهد که باید در کارهای آینده در این زمینه به آن پرداخته شود.

تجارت با گزینه‌‌های باینری...
ما را در سایت تجارت با گزینه‌‌های باینری دنبال می کنید

برچسب : نویسنده : حمیدرضا پگاه بازدید : 27 تاريخ : سه شنبه 14 شهريور 1402 ساعت: 18:43