نحوه تشخیص نقاط دور افتاده: 10 مرحله (همراه با تصاویر)

2024 نویسنده: Jason Gerald | [email protected]. آخرین اصلاح شده: 2024-01-19 22:12

در آمار ، یک outlier یا "outlier" یک داده است که بسیار دور از هر داده دیگری در یک نمونه یا مجموعه داده ها (مجموعه داده ها داده نامیده می شوند) فاصله دارد. اغلب اوقات ، یک خروجی در مجموعه داده می تواند به عنوان هشداری برای آمارشناس در مورد ناهنجاری یا خطای تجربی در اندازه گیری های انجام شده عمل کند ، که می تواند منجر به حذف آمارگیر از مجموعه داده شود. در صورتی که آمارشناس ، موارد دور از مجموعه داده را حذف کند ، نتیجه گیری های حاصل از مطالعه می تواند بسیار متفاوت باشد. بنابراین ، دانستن نحوه محاسبه و تجزیه و تحلیل نقاط دور بسیار مهم است تا از درک صحیح مجموعه داده های آماری اطمینان حاصل شود.

گام

مرحله 1. نحوه شناسایی داده های بالقوه بسیار دورتر را بیاموزید

قبل از اینکه تصمیم بگیریم که داده های خارج از مجموعه داده را حذف کنیم یا خیر ، البته باید مشخص کنیم که کدام داده ها پتانسیل تبدیل شدن به خارج را دارند. به طور کلی ، یک خروجی یک داده است که از مجموعه داده های دیگر در یک مجموعه داده بسیار دور است - به عبارت دیگر ، یک خروجی "خارج" از سایر داده ها است. معمولاً تشخیص داده های دور در یک جدول داده یا (به ویژه) یک نمودار آسان است. اگر یک مجموعه داده ها بصورت تصویری با یک نمودار توصیف شود ، به نظر می رسد که داده های دورتر از دیگر داده ها "بسیار" فاصله دارند. به عنوان مثال ، اگر اکثر داده های مجموعه داده ها یک خط مستقیم تشکیل دهند ، داده های بیرونی منطقی به عنوان تشکیل دهنده آن خط تفسیر نمی شوند.

بیایید مجموعه ای از داده ها را که دمای 12 شیء مختلف را در یک اتاق نشان می دهد ، بررسی کنیم. اگر دمای 11 جسم در حدود 70 فارنهایت (21 درجه سانتیگراد) باشد ، اما شیء دوازدهم ، کوره ، دارای دمای 300 فارنهایت (150 درجه سانتیگراد) باشد ، بلافاصله مشاهده می شود که به احتمال زیاد دمای فر دورتر

مرحله 2. ترتیب داده ها را در مجموعه ای از داده ها از پایین ترین تا بالاترین ترتیب دهید

اولین قدم برای محاسبه مقدارهای دور در مجموعه داده ، یافتن میانگین (مقدار متوسط) آن مجموعه داده است. اگر داده های مجموعه ای از مجموعه داده ها از کوچکترین تا بزرگترین مرتب شوند ، این کار بسیار ساده می شود. بنابراین ، قبل از ادامه ، داده ها را در یک مجموعه داده تنظیم کنید.

بیایید مثال بالا را ادامه دهیم. این مجموعه داده های ما نشان دهنده دمای چندین جسم در یک اتاق است: {71 ، 70 ، 73 ، 70 ، 70 ، 69 ، 70 ، 72 ، 71 ، 300 ، 71 ، 69}. اگر داده ها را از پایین به بالاترین مرتب کنیم ، ترتیب داده ها می شود: {69 ، 69 ، 70 ، 70 ، 70 ، 70 ، 71 ، 71 ، 71 ، 72 ، 73 ، 300}

مرحله 3. میانگین مجموعه داده را محاسبه کنید

میانگین مجموعه داده ها یک داده است که در آن نیمی دیگر از داده ها بالای آن داده و نیمی دیگر در زیر آن قرار دارد - اساساً ، این داده همان داده ای است که در "وسط" مجموعه داده قرار دارد. اگر تعداد داده های موجود در یک مجموعه داده فرد باشد ، بسیار آسان می توان آن را پیدا کرد - میانگین داده ای است که تعداد بالا و پایین آن یکسان است. با این حال ، اگر تعداد داده ها در مجموعه داده ها زوج باشد ، پس چون هیچ یک از داده ها در وسط قرار نمی گیرد ، میانگین 2 داده در وسط برای یافتن میانگین به طور متوسط است. لازم به ذکر است که هنگام محاسبه دورافتاده ها ، معمولاً به میانه متغیر Q2-ni اختصاص داده می شود ، زیرا Q2 بین Q1 و Q3 است ، چارک پایین و بالا ، که بعداً در مورد آن بحث خواهیم کرد.

با مجموعه داده هایی که تعداد داده ها زوج است اشتباه نگیرید-میانگین 2 داده میانی اغلب عددی را که در خود مجموعه داده وجود ندارد برمی گرداند-این اشکالی ندارد. با این حال ، اگر 2 داده میانی یکسان باشند ، البته میانگین نیز همان عدد خواهد بود ، که این نیز خوب است.
در مثال بالا ، ما 12 داده داریم. 2 داده میانی داده های 6 و 7 به ترتیب 70 و 71 هستند. بنابراین ، میانگین مجموعه داده های ما میانگین این 2 عدد است: ((70 + 71) / 2) ، = 70.5.

مرحله چهارم

این مقدار ، که به متغیر Q1 می دهیم ، داده ای است که 25 درصد (یا یک چهارم) داده ها را نشان می دهد. به عبارت دیگر ، این داده است که داده های زیر میانه را به دو قسمت تقسیم می کند. اگر تعداد داده های زیر میانه زوج است ، باید مجدداً 2 داده را در وسط قرار دهید تا Q1 را پیدا کنید ، درست همانطور که میانه خود را پیدا می کنید.

در مثال ما ، 6 داده در بالای مدیان و 6 داده در زیر میانه وجود دارد. این بدان معناست که برای یافتن چهارم lower پایینی ، ما باید به طور متوسط 2 داده را در وسط 6 داده زیر زیر میانه قرار دهیم. داده های سوم و چهارم از 6 داده زیر میانه هر دو 70 هستند. بنابراین ، میانگین ((70 + 70) / 2) ، = 70 به 70 Q1 ما می شود.

مرحله پنجم

این مقدار ، که به متغیر Q3 می دهیم ، داده ای است که 25 درصد از داده ها در مجموعه داده وجود دارد. پیدا کردن Q3 تقریباً مشابه یافتن Q1 است ، با این تفاوت که ، در این مورد ، ما به داده های بالای میانه نگاه می کنیم ، نه زیر میانه.

در ادامه مثال بالا ، 2 داده در وسط 6 داده بالای مدیان 71 و 72 است. میانگین این 2 داده ((71 + 72)/2) ، = 71, 5 به 71 ، 5 Q3 ما است.

مرحله 6. فاصله بین چهار چارک را پیدا کنید

اکنون که Q1 و Q3 را پیدا کرده ایم ، باید فاصله بین این دو متغیر را محاسبه کنیم. فاصله Q1 تا Q3 با تفریق Q1 از Q3 پیدا می شود. مقادیری که برای فواصل بین چهار چارک به دست می آورید برای تعیین مرزهای داده های خارج از مجموعه در مجموعه داده های شما بسیار مهم است.

در مثال ما ، مقادیر Q1 و Q3 ما 70 و 71 ، 5 است. برای یافتن فاصله بین چارک ، Q3 را کم می کنیم - Q1 = 71.5 - 70 = 70 1, 5.
لازم به ذکر است که این امر حتی اگر Q1 ، Q3 یا هر دو عدد منفی باشند نیز صادق است. به عنوان مثال ، اگر مقدار Q1 ما -70 باشد ، فاصله بین چارکهای صحیح ما 71.5 خواهد بود -(-70) = 141 ، 5.

مرحله 7. "مجموعه داخلی" را در مجموعه داده پیدا کنید

نقاط بیرونی با بررسی اینکه آیا داده ها در محدوده عددی به نام "حصار داخلی" و "حصار بیرونی" قرار دارند ، یافت می شوند. داده ای که خارج از حصار داخلی مجموعه داده قرار می گیرد ، "دور ریز" نامیده می شود ، در حالی که داده ای که خارج از حصار بیرونی قرار می گیرد ، "خروجی اصلی" نامیده می شود. برای پیدا کردن حصار داخلی در مجموعه داده های خود ، ابتدا فاصله بین چهار چارک را در 1 ، 5 ضرب کنید ، سپس نتیجه را در Q3 اضافه کنید و همچنین آن را از Q1 کم کنید. دو مقداری که به دست می آورید مرزهای حصار داخلی مجموعه داده شما هستند.

در مثال ما ، فاصله بین چهار چارک (71.5 - 70) یا 1.5 است. 1.5 را در 1.5 ضرب کنید که 2.25 را به دنبال دارد. این عدد را به Q3 اضافه می کنیم و Q1 را با این عدد کم می کنیم تا مرزهای حصار داخلی را به صورت زیر بیابیم:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- بنابراین ، مرزهای حصار درونی ما است 67 ، 75 و 73 ، 75.
در مجموعه داده های ما ، فقط دمای فر ، 300 فارنهایت - خارج از این محدوده است و بنابراین این دیتومیت یک خروجی جزئی است. با این حال ، ما هنوز محاسبه نکرده ایم که آیا این دما دمای اصلی است یا خیر ، بنابراین تا زمانی که محاسبات خود را انجام ندهیم ، سریع نتیجه گیری نکنید.

مرحله 7Bullet2 را محاسبه کنید

مرحله 8. در مجموعه داده "حصار بیرونی" را پیدا کنید

این امر همانند یافتن حصار داخلی انجام می شود ، با این تفاوت که فاصله بین چارک ها به جای 1.5 در 3 ضرب می شود. سپس نتیجه را به Q3 اضافه کرده و از Q1 کم می کنیم تا محدوده بالا و پایین حصار بیرونی را بیابیم.

در مثال ما ، ضرب فاصله بین چارک در 3 می دهد (1 ، 5 3 3) ، یا 4 ، 5. ما مرزهای حصار بیرونی را به همان شیوه قبلی پیدا می کنیم:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- مرزهای حصار بیرونی هستند 65.5 و 76.
داده های خارج از محدوده حصار بیرونی به عنوان برجستگی های اصلی شناخته می شوند. در این مثال ، دمای فر ، 300 فارنهایت ، به وضوح خارج از حصار بیرونی است ، بنابراین این داده "قطعا" یک خروجی اصلی است.

مرحله 8Bullet2 را محاسبه کنید

مرحله 9. از قضاوت کیفی برای تعیین اینکه آیا "دور انداختن" داده های دورتر استفاده می شود یا خیر استفاده کنید

با استفاده از روشی که در بالا توضیح داده شد ، می توان تعیین کرد که یک داده یک داده جزئی است ، یک داده اصلی است یا اصلاً یک خروجی نیست. با این حال ، اشتباه نکنید - پیدا کردن یک داده به عنوان یک خروجی تنها آن را به عنوان یک "نامزد" برای حذف از مجموعه داده مشخص می کند ، نه به عنوان یک داده که "باید" حذف شود. "دلیل" که باعث می شود یک داده خارج از یک مجموعه داده از سایر داده ها منحرف شود ، در تعیین اینکه آیا آن را کنار بگذارید یا خیر بسیار مهم است. به طور کلی ، یک خروجی ناشی از خطا در اندازه گیری ، ضبط یا برنامه ریزی آزمایشی ، به عنوان مثال ، قابل دور انداختن است. از سوی دیگر ، موارد دور که ناشی از خطا نیستند و اطلاعات جدیدی را نشان می دهند یا روندهایی را که قبلاً پیش بینی نشده بود نشان می دهند ، معمولاً "حذف" نمی شوند.

معیار دیگری که باید در نظر گرفته شود این است که آیا مقدار بیرونی تأثیر زیادی بر میانگین مجموعه داده دارد ، یعنی اینکه آیا آن را اشتباه می گیرد یا اشتباه جلوه می دهد. اگر قصد دارید از میانگین مجموعه داده خود نتیجه گیری کنید ، این نکته بسیار مهم است.
بیایید مثال خود را مطالعه کنیم. در این مثال ، از آنجا که به نظر می رسد "بسیار" غیرممکن است که اجاق گاز از طریق نیروهای طبیعی غیرقابل پیش بینی به 300 فارنهایت برسد ، می توان تقریباً با اطمینان به این نتیجه رسید که اجاق گاز به طور تصادفی روشن شده است ، و در نتیجه آن یک اختلال در دمای بالا ایجاد می شود. همچنین ، اگر مقدارهای دور را حذف نکنیم ، میانگین مجموعه داده ما (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 فارنهایت (32 درجه سانتیگراد)) ، در حالی که میانگین اگر فاصله های دور را حذف کنیم (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 فارنهایت (21 درجه سانتیگراد) است.

از آنجایی که این خطوط بیرونی ناشی از خطای انسانی بوده است و از آنجا که نمی توان گفت که متوسط دمای اتاق تقریباً به 90 درجه فارنهایت (32 درجه سانتیگراد) می رسد ، نادرست است ، بهتر است "دور ریختن" دورافتاده های خود را انتخاب کنیم

مرحله 10. اهمیت (گاهی) حفظ فاصله زیاد را بدانید

اگرچه برخی موارد پرت باید از مجموعه داده حذف شوند زیرا باعث خطا می شوند و/یا نتایج را نادرست یا اشتباه می کنند ، اما برخی از موارد دور باید حفظ شوند. به عنوان مثال ، اگر به نظر می رسد یک خروجی طبیعی به طور طبیعی خریداری شده است (یعنی نتیجه خطا نیست) و/یا چشم انداز جدیدی در مورد پدیده مورد مطالعه ارائه می دهد ، نباید از مجموعه داده حذف شود. تحقیقات علمی معمولاً هنگامی که صحبت از دوردست ها می شود ، یک موقعیت بسیار حساس است - حذف اشتباهات بیرونی می تواند به معنای دور انداختن اطلاعاتی باشد که نشان دهنده یک روند یا کشف جدید است.