رگرسیون خطی

آخرین مطالب

امکانات وب

رگرسیون خطی

اسکریپت های MATLAB برای رگرسیون مدل I و Model II

مقدمه ای اساسی برای رگرسیون خطی مدل I و مدل II:

آنها چه هستند ،
چگونه آنها متفاوت هستند ،
چرا آنها متفاوت هستند ،
و چه موقع از آنها استفاده کنید.

تاریخچه مختصری از رگرسیون مدل II.

که رهبری توسعه فکری این تکنیک های رگرسیون را بر عهده داشت.
به علاوه ، لیستی از مقالات اصلی آنها.

شاخصی از پرونده های قابل بارگیری برای استفاده با MATLAB®.

رگرسیون مدل I: عادی (Y-on-X) ، معکوس (X-on-Y) و وزنی (Wy-on-X).
رگرسیون مدل II: محور اصلی ، میانگین هندسی و حداقل مربعات مکعب.
خلاصه اصلاحات انجام شده در این پرونده ها.

برخی از قوانین انگشت شست برای کمک به تصمیم گیری در مورد رگرسیون مدل:

چه موقع از مدل I در مقابل مدل II استفاده کنید.
در هر نوع ، کدام یک از مدل های مختلف استفاده می شود.

تست مدل I و رگرسیون مدل II:

رگرسیون خطی مدل I را با استفاده از داده های Bevington و Robinson (2003) ارزیابی کنید

نتایج مربوط به رگرسیون استاندارد و وزنی را بررسی کنید.
پرونده های داده ها را بارگیری کنید - جدول 6. 1 و جدول 6. 2. قالب فایل متنی ASCII

پرونده داده را بارگیری کنید. قالب فایل متنی ASCII
نتایج حاصل از مدلهای مختلف رگرسیون را بررسی کنید.
نمودارهای مدل های رگرسیون را مشاهده کنید.

برای مطالعه بیشتر در مورد رگرسیون مدل I و II ، ببینید:

ریکر (1973). رگرسیون خطی در تحقیقات شیلات. J. Fish. resهیئت مدیره می تواند. 30: 409-434.
قوانین و آرچی (1981). استفاده مناسب از تجزیه و تحلیل رگرسیون در زیست شناسی دریایی. زیست شناسی دریایی 65: 13-16.
Bevington & Robinson (1992). کاهش داده ها و تجزیه و تحلیل خطا برای علوم فیزیکی ، چاپ دوم ، McGraw-Hill ، Inc. ، نیویورک.
سوکال و روهلف (1995). بیومتری ، چاپ 3. W. H. فریمن و شرکت ، سانفرانسیسکو ، کالیفرنیا.
قوانین (1997). روشهای ریاضی برای اقیانوس شناسی. جان ویلی و پسران ، شرکت ، نیویورک ، نیویورک.
Bevington & Robinson (2003). کاهش داده ها و تجزیه و تحلیل خطا برای علوم فیزیکی ، چاپ سوم ، McGraw-Hill ، Inc. ، نیویورک.

رگرسیون خطی چیست؟

رگرسیون خطی یک روش آماری برای تعیین شیب و پارامترهای رهگیری برای معادله یک خط است که مجموعه ای از داده ها را "به بهترین وجه" متناسب می کند.
متداول ترین روش برای تعیین "بهترین تناسب" اجرای یک خط از طریق سانتروئید داده ها است (به تصویر زیر مراجعه کنید) و شیب خط را به گونه ای تنظیم کنید که مجموع مربع های جبران کننده ها بین خط و داده ها باشدحداقلبنابراین ، این روش "کمترین مربع" نامیده می شود.
سانتروئید نقطه ای است که با میانگین مقادیر X و میانگین مقادیر y تعیین می شود. صرف نظر از مدل انتخاب شده ، خط از مرکز داده ها عبور می کند. برای مجموعه داده های وزنی ، این خط از طریق سانتروئید وزنی عبور می کند.
در بین مدلهای مختلف ، روشهای مختلفی برای محاسبه جبران خسارات بین خط و نقاط داده وجود دارد. از آنجا که بسیاری از این روش ها مجموع مربع های جبران کننده ها را به حداقل می رسانند ، همه آنها به آنها تکنیک های "حداقل مربعات" گفته می شود. به همین دلیل ، اصطلاح "حداقل مربعات" روشی خاص و منحصر به فرد را تعیین نمی کند.

رگرسیون مدل I و مدل II چگونه متفاوت است؟

در مورد رگرسیون مدل I ، جبران خسارت به موازات یکی از محورها اندازه گیری می شود. به عنوان مثال ، در رگرسیون Y-on-X (متداول ترین تکنیک رگرسیون) ، این به موازات محور y خواهد بود. بنابراین ، ما با به حداقل رساندن مجموع مربع های y-offsets ، خط را متناسب می کنیم. برای رگرسیون X-on-Y ، ما از X-OffSets اندازه گیری شده به موازات محور x استفاده می کنیم.
برای رگرسیون مدل II ، جبران خسارات در امتداد یک خط عمود (یا طبیعی) به خط رگرسیون اندازه گیری می شود. بنابراین ، برای استفاده از اصطلاح پیرسون ، خط با به حداقل رساندن جمع مربع های انحرافات عادی متناسب است.

چرا رگرسیون مدل I و مدل II متفاوت است؟

در مورد رگرسیون مدل I ، x متغیر مستقل است و y متغیر وابسته است: x اغلب توسط آزمایشگر کنترل می شود (یا بسیار دقیق شناخته شده است) و y در پاسخ به تغییرات X متفاوت است. در X و تمام خطای رگرسیون به اندازه گیری یا خطای دیگر در Y نسبت داده می شود. معادله به ما می گوید که چگونه Y در پاسخ به تغییرات در X متفاوت است.
برای رگرسیون مدل II ، نه X و نه y یک متغیر مستقل نیستند اما فرض بر این است که هر دو به پارامترهای دیگری وابسته هستند که اغلب ناشناخته است. هیچ یک از "کنترل" نیستند ، هر دو اندازه گیری می شوند و هر دو شامل برخی از خطاها هستند. ما به دنبال معادله ای نیستیم که چگونه Y در پاسخ به تغییر در X متفاوت باشد ، بلکه به دنبال این هستیم که چگونه آنها در زمان و یا مکان در پاسخ به برخی متغیرهای متغیر یا فرآیند دیگر ، هر دو در زمان یا مکان متفاوت هستند. چندین رگرسیون ممکن مدل II وجود دارد. از کدام یک استفاده می شود به ویژگی های پرونده بستگی دارد. به ریکر (1973) یا سوکال و روهلف (1995 ، صص 541-549) مراجعه کنید تا بحثی درباره آنها اعمال شود. برای راحتی ، من همچنین برخی از قوانین انگشت شست را گردآوری کرده ام.

کارل پیرسون [1] "اولین" بود که مشکل ایجاد یک خط را برطرف کرد وقتی متغیرهای X و Y خطای اندازه گیری داشتند. او راه حل خود را برای این مشکل "محور اصلی" داده های بیضی خواند. این توصیف می کند که چگونه X و Y متفاوت است.
Kermack و Haldane [2] بعداً نشان دادند كه وقتی واحدهای متغیرهای X و Y تغییر می یابند محور اصلی به طور منحصر به فرد مشخص نمی شود: شیب و رهگیری متفاوت است (حتی پس از تصحیح محورهای جدید) وقتی مقیاس تغییر یافت. آنها استفاده از "محور اصلی کاهش یافته" را پیشنهاد کردند که هر دو X و Y به متغیرهای استاندارد تبدیل شدند. برای متغیرهای استاندارد ، میانگین = 0 و انحراف استاندارد = 1.
یورک [3] برای مواردی که می خواهد محور اصلی را پیدا کند ، روش وزن دادن به نقاط داده در هر دو x و y را ایجاد کرد اما عدم قطعیت این دو اندازه گیری متفاوت است. او روش خود را کمترین مربع مکعب خواند زیرا برای یافتن شیب رگرسیون به محلول یک معادله مکعب نیاز دارد ، نه به این دلیل که یک معادله مکعب می دهد.
ریکر [4] نشان داد که میانگین رگرسیون هندسی با کاهش محور اصلی یکسان است اما محاسبه بسیار ساده تر است.

Jolicoeur [5] از برخی از نظرات ریکر استثناء زیادی کرد. قابل توجه ترین:

وی خاطرنشان كرد كه "متغیرهای L'Ax Majeur des Reduites" به جای كاهش محورهای اصلی كه كرماك و هالدان [2] به معنای واقعی کلمه از فرانسوی ها ترجمه كرده اند ، با دقت تر ترجمه محور اصلی استاندارد ترجمه شده است.
این فرمول ها برای محدودیت اعتماد به نفس نامتقارن برای شیب میانگین رگرسیون هندسی که قبلاً وجود داشته است.
و این به دلیل عدم حساسیت شیب محور اصلی استاندارد به قدرت رابطه ، استفاده از رابطه ساختاری دو متغیره ترجیح داده شد.

وی فرمول هایی را برای محدودیت های اعتماد به نفس نامتقارن برای شیب رگرسیون میانگین هندسی ارائه داد و موافقت کرد که آنها محدودیت های بهتری نسبت به محدودیت های تقریبی متقارن وی دارند. با این حال ، به دلیل پیچیدگی محاسباتی آنها ، من آنها را در اینجا گنجانده ام.
و ، او با قاطعیت از میانگین رگرسیون هندسی مانند همیشه برای داده های طبیعی متغیر دفاع کرد.

نمایش قوانین و آرچی [8] از نمونه ای بسیار مصور (بیولوژیکی) از مشکلات استفاده از رگرسیون مدل I هنگام رگرسیون مدل II.
کتاب درسی "بیومتری" سوکال و Rohlf [9] که در آن موضوعات رگرسیون Model-I VS Model-II با جزئیات بسیار مورد بحث قرار گرفته است.

منابع

پیرسون (1901). در خطوط و هواپیماهای نزدیکترین متناسب با سیستم های نقاط در فضا. فیلمگسV2 (6): 559-572.
Kermack & Haldane (1950). همبستگی ارگانیک و آلومتری. Biometrika v37: 30-41.
یورک (1966). حداقل مربعات مناسب از یک خط مستقیم. کانادJ. Phys. 44: 1079-1086.
ریکر (1973). رگرسیون خطی در تحقیقات شیلات. J. Fish. resهیئت مدیره می تواند. 30: 409-434.
Jolicoeur (1975). رگرسیون خطی در تحقیقات شیلات: برخی از نظرات. J. Fish. resهیئت مدیره می تواند. 32: 1491-1494.
ریکر (1975). یادداشتی در مورد اظهارات پروفسور Jolicoeur. J. Fish. resهیئت مدیره می تواند. 32: 1494-1498.
Sprent و Dolby (1980). میانگین رابطه عملکردی هندسی. بیومتریک 36: 547-550.
قوانین و آرچی (1981). استفاده مناسب از تجزیه و تحلیل رگرسیون در زیست شناسی دریایی. مارس بیول. 65: 13-16.
سوکال و روهلف (1995). بیومتری ، چاپ 3. W. H. Freeman and Company ، San Francisco ، CA.
قوانین (1997). روشهای ریاضی برای اقیانوس شناسی. جان ویلی و پسران ، شرکت ، نیویورک ، نیویورک.
Bevington و Robinson (2003). کاهش داده ها و تجزیه و تحلیل خطا برای علوم فیزیکی. چاپ سوم. مک گرا هیل ، نیویورک ، نیویورک.
یورک و همکاران.(2004). معادلات یکپارچه برای شیب ، رهگیری و خطاهای استاندارد بهترین خط مستقیم. am. j. فیزیک72 (3): 367-375.

مارس 2016 - تجدید نظر 4. 0

اکنون 8+ سال است که هرگونه ویرایش به این اسکریپت ها انجام شده است: زمان برای بررسی اینکه آیا به دلیل بروزرسانی های زیادی در کد MATLAB مشکلی یا مشکل وجود دارد.

هر یک از 8 اسکریپت LSQFIT برای سازگاری با MATLAB 2014b بررسی شد و هیچ خطایی یافت نشد.
با این حال ، برخی از اسکریپت ها متغیرهایی را که برای نتایج لازم نبود ، محاسبه کرده بودند. کد این پارامترهای بلااستفاده از اسکریپت ها برای بهبود راندمان محاسباتی حذف شد.
سپس تمام اسکریپت ها با استفاده از پرونده داده آزمون خطا شدند و برای تولید نتایج صحیح یافت شدند.
تمام عناوین اسکریپت LSQFIT با تاریخ و اطلاعات جدید تجدید نظر اصلاح شدند.
سپس از اسکریپت های اصلاح شده و به روز شده برای تولید نمودارهای جدید خطوط رگرسیون استفاده شد.

سپتامبر 2007 - تجدید نظر 3. 1

من در محاسبه عدم قطعیت y-Intercept برای الگوریتم اصلی محور ، خطایی را اصلاح کردم:

این معادله در ابتدا به درستی در Kermack & Haldane (1950) به دست آمد ، اما هنگامی که معادله در یک جدول از فرمول های خلاصه در انتهای متن چاپ شد ، یک تایپی را معرفی کردند. یورک (1966) این تایپی را از فرمول های خلاصه کپی کرد و من معادلاتم را با استفاده از نماد یورک کدگذاری کردم. این الگوریتم اکنون عدم اطمینان صحیح را برای رهگیری در هر چهار ربع ارائه می دهد.
جدول نتایج مطابق نیاز اصلاح شد. توطئه های داده تک خط برای محاسبات اصلی محور نیز اصلاح شد.
اشتباهات جزئی در اطلاعات هدر برای LSQCubic اصلاح شد و تاریخ تجدید نظر به روز شد.

آوریل 2007 - تجدید نظر 3

تغییرات جزئی اضافی در الگوریتم های LSQFIT ایجاد شد:

تایپ های جزئی در اطلاعات هدر در برخی از پرونده ها اصلاح شد.
تاریخ تجدید نظر در هر پرونده به روز شد.
تصاویر GIF از توطئه های خط با پرونده های JPG با وضوح بالاتر جایگزین شده است.

ژانویه 2003 - تجدید نظر 2

تغییر جزئی در نام رگرسیون مدل I ایجاد شد:

lsqfitxi. m به lsqfitx. m تغییر نام داده شد تا آن را با نام الگوریتم های دیگر سازگارتر کند.
تغییرات جزئی در LSQBISEC. M و LSQFITGM ایجاد شد تا اکنون آنها با این تغییر سازگار باشند.
هدرهای موجود در هر پرونده برای ارائه اطلاعات بیشتر در مورد هر الگوریتم گسترش یافته است.

ژانویه 2000 - تجدید نظر 1

پرونده های M برای رگرسیون مدل I به بازتاب بهتر برنامه های آنها تغییر نام دادند:

LSQFIT1. M به LSQFity. M تغییر نام داده شد زیرا این رگرسیون مجموع مربع های انحراف در y را به حداقل می رساند.
lsqfit1i. m به LSQFITXI. M تغییر نام داده شد زیرا این رگرسیون مجموع مربع های انحراف در X را به حداقل می رساند و معکوس می شود به طوری که شیب به طور مستقیم با دامنه های الگوریتم های رگرسیون قابل مقایسه است.
LSQFIT1W. M به LSQFityW. M تغییر نام داده شد زیرا این رگرسیون مبلغ وزنی مربع انحرافات را به حداقل می رساند.

در این زمان ، همچنین مشاهده شد که انحرافات استاندارد برای شیب و رهگیری رگرسیون مدل وزنی I ، LSQFityW. M (که قبلاً با عنوان LSQFIT1W. M شناخته می شد) ، به طور قابل توجهی کوچکتر از انحرافات استاندارد محاسبه شده توسط سایر الگوریتم های رگرسیون (الگوریتم های رگرسیون دیگر) بود. مشاهده کنید: نتایج).

کد منبع در برابر اصلی بررسی شد و به نظر می رسد که صحیح است.
این الگوریتم مقادیر صحیح را مطابق مثال ذکر شده در جدول 6. 2 در Bevington و Robinson (1992) محاسبه می کند.
تا زمانی که این وضعیت برطرف نشود ، محاسبه متناوب ارائه می شود: lsqfityz. m. این الگوریتم از همان معادلات برای شیب و رهگیری استفاده می کند ، همانطور که توسط LSQFIT1W. M و LSQFityW. M استفاده می شود ، اما انحرافات استاندارد را برای این اصطلاحات مبتنی بر معادلات عمومی تر حاصل از یورک (1966) محاسبه می کند. مقادیر اصلاح شده بیشتر مطابق با انحرافات استاندارد برای این اصطلاحات محاسبه شده توسط روش های دیگر است.

الگوریتم های مربوط به رگرسیون مدل II تغییر نکردند اگرچه اطلاعات هدر این پرونده ها به منظور وضوح و کامل بودن مورد بازبینی قرار گرفت.

یک الگوریتم رگرسیون مدل II جدید اضافه شد ، که در اینجا به عنوان "حداقل مربع مربع:" lsqbisec. m شناخته شده است.

Sprent و Dolby (1980) به استفاده موقت از رگرسیون میانگین هندسی اعتراض کرده اند ، زیرا این یک بیان بی طرفانه واقعی برای رابطه عملکردی بین X و Y نیست.
آنها پیشنهاد کرده اند که یک مورد به همان اندازه قوی برای استفاده از خطی که زاویه جزئی بین رگرسیون دو مدل I ایجاد می کند ، ایجاد می شود.
در حالی که تفاوت شیب بین میانگین رگرسیون هندسی و "کمترین مربع ها" کوچک است و احتمالاً از نظر آماری معنی دار نیست ، این خط "رگرسیون" جدید برای کامل بودن در اینجا گنجانده شده است.

و در آخر ، پرونده داده آزمون ، data. txt ، ویرایش شد و نتایج جدید محاسبه شد:

یک طرح ساده از داده های خام اصلی نشان داد که این توزیع عادی دو متغیره نیست. این شامل بسیاری از خوشه ها و خوشه های داده بود. اینها حذف شده اند تا یک مجموعه داده تمیز کننده به نظر برسند.
پرونده اصلاح شده کوچکتر ، 110 امتیاز در مقابل 139 است و به راحتی می توان شکل بیضی داده را مشاهده کرد.
نمودارهای خطوط رگرسیون هم اکنون در دسترس هستند.

"قوانین مهار" من برای انتخاب رگرسیون برای استفاده به شرح زیر است:

برای موقعیت هایی که پارامتر X کنترل می شود ، مانند استانداردهای ساخت کالیبراسیون ابزار یا انجام آزمایشات آزمایشگاهی که فقط یک متغیر تغییر می کند ، پس از آن رگرسیون استاندارد مدل I مورد نیاز است.

هنگامی که به تمام نقاط داده وزن برابر داده می شود ، از LSQFity استفاده کنید.
هنگامی که نقاط داده به صورت جداگانه وزن می شوند ، از lsqfityw یا lsqfityz استفاده کنید.
برای تصمیم گیری بین استفاده از lsqfityw. m یا lsqfityz. m ، به پاورقی های شماره 2 و #3 به نتایج من برای جدول رگرسیون مدل I و مدل II مراجعه کنید.

هنگام مقایسه دو روش که همان مقدار را اندازه گیری می کنند [به عنوان مثال ، doc (per) vs doc (htc)] سپس محور اصلی [lsqfitma] ساده ترین ، آسان ترین محاسبه و راه حل مستقیم را فراهم می کند.

یک کلمه احتیاط: شیب محور اصلی به تغییرات در مقیاس حساس است (برای توضیح: Kermack and Haldane ، 1950 ، برای توضیح).
اگر این یک نگرانی باشد (مانند مواردی که انتخاب واحدهای اندازه گیری خودسرانه است) ، ممکن است از میانگین رگرسیون هندسی [LSQFITGM] استفاده شود.

برای مقایسه دو پارامتر مختلف اندازه گیری شده (مانند Doc vs TCO2 ، AOU و غیره) و به ویژه هنگامی که پارامترها واحدهای مختلفی دارند یا معیارهای متفاوتی دارند ، بنابراین کاهش محور اصلی روش انتخاب است.

محاسبه روش اصلی محور هم دشوار و هم خسته کننده است ، بنابراین توصیه می کنم از میانگین رگرسیون هندسی [LSQFITGM] در این مورد استفاده شود زیرا این خط یکسان را نشان می دهد (به Ricker ، 1973 ، برای مشتق مراجعه کنید). من از محدودیت های متقارن برای رگرسیون مدل I استفاده کرده ام تا عدم اطمینان در شیب و رهگیری میانگین رگرسیون هندسی را به دنبال درمان ریکر (1973) تخمین بزنم.
Sprent و Dolby (1980) از استفاده موقت از میانگین رگرسیون هندسی در موارد مدل II استثناء شده اند. آنها استفاده از کمترین مربع ها را توصیه می کنند [LSQBISEC] ، خطی که زاویه بین رگرسیون دو مدل I را ایجاد می کند. متأسفانه ، آنها برای برآورد محدودیت های عدم قطعیت برای حداقل مربعات شیب بیسکتور یا رهگیری ، یک روش آماری ارائه ندادند.

هنگامی که روش های تحلیلی برای پارامترهای مختلف دارای عدم قطعیت های مختلف یا دقت تجربی هستند ، ممکن است یک روش مدل II وزنه بردار مورد نیاز باشد.

روش توسعه یافته توسط یورک "کمترین مربع مکعب" [lsqcubic] در این مورد قابل استفاده است.
این روش اجازه می دهد تا عدم اطمینان در هر اندازه گیری x و y به منظور وزن مناسب داده ها مشخص شود.

در اینجا نتایج حاصل از m آورده شده استکف® روالهای اسکریپت پوسته برای قرار دادن یک خط به مجموعه داده های مثال از Bevington و Robinson (2003):

رگرسیون مدل من	فایل اطلاعات	پرونده	شیب	رهگیری کردن	R
y-on-x [1]	br3tab61	lsqfity. m	0. 00034 ± 0. 02622	0. 07139 ± 0. 01917	0. 99941
x-on-y [1]	br3tab61	lsqfitx. m	0. 00034 ± 0. 02625	0. 02000 ± 0. 06984	0. 99941
وزنی Y-on-X [1،2]	br3tab62	lsqfityw. m	30. 6979 ± 1. 0341	119. 4963 ± 7. 5676	0. 99385
وزنی Y-on-X [1،3]	br3tab62	lsqfityz. m	30. 6979 ± 1. 2096	8522 ± 119. 4963	0. 99385

در اینجا نتایج حاصل از m من آورده شده استکف® روالهای اسکریپت پوسته برای قرار دادن یک خط به مجموعه داده های مثال (data. txt) با استفاده از مدلهای مختلف رگرسیون خطی:

رگرسیون مدل من	پرونده	شیب	رهگیری کردن	R
y-on-x [1]	lsqfity. m	0. 0598 ± 1. 2931	9. 3670 ± 1. 4750	0. 9014
x-on-y [1]	lsqfitx. m	0. 0736 ± 1. 5916	1. 8945 ± 3. 0908	0. 9014
وزنی Y-on-X [1،2]	lsqfityw. m	0. 0064 ± 1. 3322	0. 0738 ± 4. 4067	0. 8973
وزنی Y-on-X [1،3]	lsqfityz. m	0. 0630 ± 1. 3322	0. 7220 ± 4. 4067	0. 8973

رگرسیون مدل II	پرونده	شیب	رهگیری کردن	R
محور بزرگ	lsqfitma. m	1. 4896 ± 0. 0682	5. 2356 ± 1. 6455	0. 9014
میانگین هندسی	lsqfitgm. m	0. 0613 ± 1. 4346	6. 3917 ± 1. 5128	0. 9014
حداقل مربعات بیستور [4]	lsqbisec. m	0. 0613 ± 1. 4320	6. 4477 ± 1. 5114	0. 9014
کم مربع	lsqcubic. m	0. 0649 ± 1. 4948	5. 2594 ± 0. 6227	0. 9583

پاورقی به جدول:

تمام پارامترها با معادلات Bevington و Robinson (1992) محاسبه شد.
انحرافات استاندارد برای شیب و رهگیری رگرسیون وزنی (lsqfityw. m) در مقایسه با عدم قطعیت های محاسبه شده با معادلات رگرسیون دیگر ، کوچک به نظر می رسد.
رگرسیون مدل وزنی اصلاح شده I: معادلات شیب و رهگیری دوباره از Bevington و Robinson (1992) گرفته شد ، با این حال ، انحراف استاندارد در این پارامترها مطابق معادلات حاصل از یورک (1966) محاسبه می شود. عدم قطعیت های محاسبه شده از این طریق بیشتر مطابق با موارد محاسبه شده توسط رگرسیون های دیگر است.
الگوریتم کمترین مربع-بیستور از پیشنهاد Sprent و Dolby (1980) پیروی می کند که در مورد رگرسیون مدل II ، یک مورد به همان اندازه قوی می تواند برای خطی ایجاد شود که زاویه جزئی بین دو مدل I را نشان می دهد: y-on-x و x-on-y. عدم قطعیت در شیب و رهگیری طبق معادلات حاصل از یورک (1966) به روشی مشابه با آنچه برای رگرسیون میانگین هندسی استفاده می شود ، محاسبه می شود.

همچنین ، لطفاً توجه داشته باشید که:

پاسخ های موجود در جدول به تعداد مناسب ارقام مهم گرد نشده است. درعوض ، من تصمیم گرفته ام تا نتایج به دست آمده با MATLAB را در حالت دقیق استاندارد لیست کنم تا بتوانیم این نتایج را با نتایج سایر برنامه ها بدون تأکید ناخواسته بر کوتاه شدن داده ها و خطاهای گرد مقایسه کنیم.
معادلات مربوط به Y-on-X ، X-on-Y ، محور اصلی ، میانگین هندسی و رگرسیون حداقل مربعات بیست وسیع همه از طریق سانتروئید اجرا می شوند: (میانگین X ، میانگین y).
به همین ترتیب ، ضرایب همبستگی برای y-on-x ، x-on-y ، محور اصلی و میانگین رگرسیون هندسی همه یکسان هستند. بنابراین ، ضریب همبستگی به درستی به عنوان معیار خطی بودن داده ها تفسیر می شود و نه چقدر خط متناسب با داده ها است.
برای رگرسیون خطی وزنی و کمترین مربع مکعب ، ضرایب همبستگی به دلیل وزن های مختلف اعمال شده برای هر نقطه داده متفاوت است.

منابع:

Bevington & Robinson (1992). کاهش داده ها و تجزیه و تحلیل خطا برای علوم فیزیکی ، چاپ دوم ، McGraw-Hill ، Inc. ، نیویورک.
Sprent و Dolby (1980). میانگین رابطه عملکردی هندسی. بیومتریک 36: 547-550.
یورک (1966). حداقل مربعات مناسب از یک خط مستقیم. کانادJ. Phys. 44: 1079-1086.
Bevington & Robinson (2003). کاهش داده ها و تجزیه و تحلیل خطا برای علوم فیزیکی ، چاپ سوم ، McGraw-Hill ، Inc. ، نیویورک.

در اینجا ارقام برای m من آورده شده استکف® روالهای اسکریپت پوسته برای قرار دادن یک خط به مجموعه داده های مثال (data. txt) با استفاده از مدلهای مختلف رگرسیون خطی:

رگرسیون مدل من	پرونده	توطئه های تک خط	توطئه های ترکیبی
y-on-x	lsqfity. m
x-on-y	lsqfitx. m
وزنی y-on-x	lsqfityw. m
وزنی y-on-x	lsqfityz. m

رگرسیون مدل II	پرونده	توطئه های تک خط	توطئه های ترکیبی
محور بزرگ	lsqfitma. m
میانگین هندسی	lsqfitgm. m
حداقل مربعات	lsqbisec. m
کم مربع	lsqcubic. m