دانلود پایان نامه

1.1.1        وظایف داده‌کاوی

داده‌کاوی بطور کلی به دو شکل هدایت شده[1] و غیرهدایت شده[2] وجود دارد(شهرابی 1390a). در داده‌کاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص می‌گردیم، بطوری که در داده‌کاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروه‌هایی از اطلاعات است. اگر بخواهیم تکنیک‌های داده‌کاوی را بر اساس فعالیت و وظیفه تقسیم‌بندی کنیم، شش عمل زیر را خواهیم داشت(Larose 2005):

  • دسته‌بندی[3]
  • تخمین[4]
  • پیش‌بینی[5]
  • همبستگی[6]
  • خوشه‌بندی[7]
  • توصیف[8]

در این تقسیم‌بندی سه مورد اول داده‌کاوی هدایت شده هستند، همبستگی و خوشه‌بندی جزو داده‌کاوی غیر هدایت شده است و توصیف و نمایه‌سازی نیز می‌تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفه‌ها می‌پردازیم.

1.1.1.1       دسته‌بندی

تکنیک‌های دسته‌بندی از جمله تکنیک‌های رایج و پرکاربرد در داده‌کاوی است. دسته‌بندی شامل بررسی ویژگی‌های یک شی جدید و تخصیص آن به یکی از کلاس‌های از قبل تعیین شده است(شهرابی 1390a). به عبارت دیگر، در مسائل دسته‌بندی هدف شناسایی ویژگی‌هایی از داده‌ها است که گروهی که داده به آن تعلق دارد را نشان می‌دهند. از این مدل هم می‌توان برای درک داده‌های موجود استفاده کرد وهم می‌توان آن را برای پیش‌بینی اینکه داده‌های جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگی‌های شناسایی شده متغیرهای پیشگو[9] و به برچسب کلاس‌ها متغیر هدف[10] گفته می‌شود.

برای ایجاد یک مدل دسته‌بندی نیاز به مجموعه داده‌های تاریخی است. این مجموعه داده که مجموعه داده آموزشی[11] نامیده می‌شود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد می‌گیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط می‌شوند. سپس، مدل آموزش دیده شده می‌تواند کلاس مجموعه داده‌های تست[12] را که هیچ اطلاعی از متغیر هدف آن‌ها نداریم، پیش‌بینی کند. (معمولا کارایی مدل‌های دسته‌بندی را با مجموعه داده‌های اعتبارسنجی[13] اندازه‌گیری می‌کنند.)

از جمله تکنیک‌های دسته‌بندی می‌توان به درخت تصمیم، دسته‌بند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.

1.1.1.2       تخمین

تخمین شبیه دسته‌بندی است با این تفاوت که متغیر هدف بجای این که دسته‌ای باشد بصورت عددی است (Larose 2005). مانند دسته‌بندی، یک مدل تخمین با استفاده از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته می‌شود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده می‌شود.

مدل‌های رگرسیون و شبکه عصبی از جمله تکنیک‌های مناسب داده‌کاوی برای تخمین هستند.

1.1.1.3       پیش‌بینی

پیش‌بینی مانند تخمین و دسته‌بندی است بجز اینکه در پیش‌بینی نتایج به آینده مربوط می‌شود(Larose 2005). تمامی تکنیک‌های استفاده شده در دسته‌بندی و تخمین را می‌توان تحت شرایط خاص برای پیش‌بینی بکار گرفت. پیش‌بینی‌هایی که بر اساس مدل‌های دسته‌بندی ارائه می‌شوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیش‌بینی می‌کنند.

پیش‌بینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیش‌بینی است که به عنوان مثال می‌توان به پیش‌بینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکه‌های عصبی تکنیک‌هایی هستند که در این نوع پیش‌بینی‌ها قابل استفاده هستند. نوع دیگری از پیش‌بینی‌ها، پیش‌بینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیش‌بینی سطح سهام بازار در 30 روز آینده بر اساس داده‌های 6 ماه گذشته مثالی از این نوع پیش‌بینی‌ها است. این گونه پیش‌بینی‌ها به کمک سری‌های زمانی و تکنیک‌های رگرسیون انجام می‌شود.

1.1.1.4       همبستگی

قوانین همبستگی[14] که گروه‌بندی شباهت[15] نیز نامیده می‌شوند برای تعیین ویژگی‌های همزمانی هستند که در وقوع یک پدیده رخ می‌دهند. به عبارت دیگر، گروه‌بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‌ها را تعیین می‌نماید(شهرابی 1390a). با توجه به مقیاس‌پذیری الگوریتم‌های قوانین همبستگی و حجم داده‌ها که دائما در حال افزایش است، می‌توان قوانین همبستگی را یکی از ابزارهای ضروری داده‌کاوی جهت استخراج دانش از داده‌ها قلمداد کرد.

تحلیل سبد خرید[16] یکی از بارزترین کاربردهای قوانین همبستگی بشمار می‌رود. در این تحلیل سعی می‌شود تا از طریق یافتن روابط و وابستگی‌های موجود بین اجناس خریداری شده توسط مشتری‌ها، الگوهای خرید شناسایی و تحلیل شوند(شهرابی and شجاعی 1388). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابت‌های بازاریابی و نیز چیدمان مناسب اجناس در فروشگاه‌ها یاری می‌رساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی[17]  و اطمینان[18] استفاده می‌شود.

پشتیبانی: درصدی از تراکنش‌هایی است که شامل هم مقدم و هم تالی قانون باشند (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد کل تراکنش‌ها.

اطمینان: درصدی از تراکنش‌هایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد تراکنش‌هایی که شامل مقدم هستند.

1.1.1.5       خوشه‌بندی

خوشه‌بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشه‌های همگن گفته می‌شود(شهرابی 1390a). وجه تمایز خوشه‌بندی از دسته‌بندی این است که خوشه‌بندی به دسته‎‌های از پیش تعیین شده تکیه ندارد. در خوشه‌بندی هیچ دسته از پیش تعیین شده‌ای وجود ندارد و داده‌ها صرفا بر اساس تشابه گروه‌بندی می‌شوند. بنابراین، برای اینکه بتوانیم داده‌ها را خوشه‌بندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با استفاده از مقیاس‌های اندازه‌گیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام می‌شود.

چنانچه مشخص است، تعداد حالت‌های زیادی برای خوشه‌بندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشه‌ها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشه‌بندی داریم. فشردگی و تفکیک‌پذیری دو ویژگی اساسی و جالب در مورد خوشه‌ها هستند که می‌توانند به عنوان شاخص اعتبار خوشه محاسبه شوند(شهرابی and شجاعی 1388).

فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی داده‌ها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی داده‌ها بیشتر است. می‌توان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.

این مطلب مشابه را هم بخوانید :   اندیشه سیاسی اسلام

تفکیک‌پذیری: بوسیله این ویژگی، مجزا بودن خوشه‌ها را ارزیابی می‌کنیم. یکی از روش‌های تعیین تفکیک‌پذیری، محاسبه فواصل بین خوشه‌ای است.

بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشه‌ها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشه‌ها داشته باشند. به عبارت دیگر، ساختاری را مطلوب می‌پنداریم که در آن مقادیر فواصل درون خوشه‌ای کم و مقادیر فواصل بین خوشه‌ای زیاد باشد.

در کتاب هان و کرامبر روش‌های خوشه‌بندی به پنج دسته تقسیم شده است: روش‌های بخش‌بندی، روش‌های سلسله‌مراتبی، روش‌های مبتنی بر تراکم، روش‌های مبتنی بر Grid و روش‌های مبتنی بر مدل (Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته‌ها می‌پردازیم.

خوشه‌بندی مبتنی بر بخش‌بندی[19]: در این نوع خوشه‌بندی اساس کار یک تابع هدف مشخص است که کمینه‌سازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون می‌سازد (شهرابی and شجاعی 1388). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینه‌سازی را می‌توان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمی‌داند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسب‌ترین فرم برای تابع هدف با دشواری‌های فراوانی همراه است. بطور معمول، در این گروه از الگوریتم‌ها، تعداد خوشه‌ها را از قبل تعیین کرده و کار را با بهینه‌سازی تابع هدف ادامه می‌دهند.

الگوریتم‌هایی مانند [20]CLARA، [21]CLARANS، k – means، c – means و [22]PAM نمونه‌هایی از الگوریتم‌های این گروه هستند (Mitra and Acharya 2003).

خوشه‌بندی سلسله‌مراتبی: در این نوع از روش‌های خوشه‌بندی، داده‌ها در درختی از خوشه‌ها گروه‌بندی می‌شوند. به طور کلی روش‌های سلسله‌مراتبی را می‌توان به دو دسته تقسیم کرد: روش‌های جمع‌کننده[23] و روش‌های تقسیم‌کننده[24] (شهرابی and شجاعی 1388). روش‌های جمع‌کننده در ابتدا هر داده را در خوشه‌ای جداگانه قرار می‌دهند. سپس خوشه‌ها را با هم ادغام کرده و خوشه‌های بزرگتری ایجاد می‌کنند. این کار تا زمانی ادامه می‌یابد که یا تمام داده‌ها در یک خوشه واحد قرار گیرند و یا شرط معینی برقرار شود، مثلاً تعداد خوشه‌ها به مقدار دلخواه برسد. در هر مرحله خوشه‌هایی به هم متصل می‌شوند که بیشترین شباهت را با هم دارند. برای بررسی میزان شباهت خوشه‌ها الگوریتم‌های مختلفی وجود دارد. دسته دوم که روش‌های تقسیم‌کننده نامیده می‌شوند عکس روش فوق را اعمال می‌کنند، یعنی درخت را از بالا به پایین می‌سازند.

برای بررسی میزان شباهت خوشه‌ها می‌توان فاصله بین خوشه‌ها را معیار مناسبی در نظر گرفت. روش‌های مختلفی مانند روش تک‌اتصالی[25]، اتصالی کامل[26] و اتصال میانگین گروهی[27] برای محاسبه فاصله بین خوشه‌ها استفاده می‌شود (شهرابی and شجاعی 1388).

خوشه‌بندی مبتنی بر تراکم: بسیاری از روش‌های بخش‌بندی، داده‌ها را بر اساس فاصله آنها با یکدیگر خوشه‌بندی می‌کنند. چنین روش‌هایی فقط خوشه‌های کروی شکل را پیدا می‌کنند (مانند k – means). در خوشه‌بندهایی که بر اساس تراکم داده‌ها انجام می‌شود، می‌توان خوشه‌هایی پیدا کرد که دارای شکل‌های پیچیده‌تری هستند. ایده اصلی این روش‌ها به این صورت است که یک خوشه تا زمانی که تراکم همسایگی تمامی اشیاء مرزی آن از حد معینی کمتر نشده گسترش می‌یابد. منظور از تراکم همسایگی یک شیء، تعداد اشیائی است که در فاصله ε از آن شیء قرار گرفته‌اند. چنین روش‌هایی برای فیلتر کردن نویزها و یافتن خوشه‌هایی با شکل‌های دلخواه به کار می‌رود (Han, Kamber et al. 2011). الگوریتم‌های DBSCAN[28]، OPTICS[29]، DENCLUE و [30]CLIQUE در این دسته از الگوریتم‌ها قرار می‌گیرند (شهرابی and شجاعی 1388).

خوشه‌بندی مبتنی بر Grid: در این نوع خوشه‌بندی فضای اشیاء را به تعداد محدودی سلول کوانتیزه می‌کنند که این سلول‌ها یک Grid را بوجود می‌آورند. تمامی اعمال خوشه‌بندی بر روی ساختار این Grid (ساختار مشبک) انجام می‌شود. مزیت مهم این روش سرعت بالای آن است که مستقل از تعداد اشیاء بوده و فقط به تعداد سلول‌ها در هر بعد از فضای کوانتیزه شده بستگی دارد. الگوریتم‌های [31]STING و CLIQUE نمونه‌هایی از این الگوریتم‌ها هستند.

خوشه‌بندی مبتنی بر مدل: الگوریتم‌های این دسته، برای هر خوشه مدلی را در نظر گرفته و سعی می‌کنند به بهترین نحو داده‌ها را به آن مدل‌ها انطباق دهند. دو راه عمده برای این کار وجود دارد: راه اول روش‌های آماری مانند COBWEB و CLASSIT و راه دوم شبکه‌های عصبی مانند [32]SOM است.

1.1.1.6       توصیف

گاهی اوقات هدف داده‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌ای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب می‌کند و درک ما را از مردم، محصولات و یا فرآیندهایی که داده‌ها در مرحله اول تولید کرده‌اند، افزایش می‌دهد.

مدل‌های داده‌کاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدل‌های داده‌کاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدل‌های داده‌کاوی دارای تفسیر شفاف‌تری نسبت به دیگر مدل‌ها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانه‌ای از نتایج خود فراهم می‌آورد؛ در حالی که شبکه‌های عصبی با ارائه‌ی مدل‌های پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکه‌های عصبی جعبه سیاه گفته می‌شود.

درخت تصمیم و تکنیک‌های آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشه‌بندی را نیز می‌توان برای توصیف استفاده کرد.

 

[1] Directed

[2] Undirected

[3] Classification

[4] Estimation

[5] Prediction

[6] Association

[7] Clustering

[8] Description

[9] Predictor Variables

[10] Target Variable

[11] Training Data set

[12] Test Data set

[13] Validation Data set

[14] Association Rules

[15] Affinity Grouping

[16] Market Basket Analysis

[17] Support

[18] Confidence

[19] Partitional clustering

[20] Clustering LARge Applications

[21] Clustering Large Applications based on RANdomized Search

[22] Partitioning Around Medoids

[23] Agglomerative

[24] Divisive

[25] Single Linkage

[26] Complete Linkage

[27] Group average link

[28] Density Based Spatial Clustering of Applications with Noise

[29] Ordering Points To Identify the Clustering Structure

[30] Clustering In QUEst

[31] STatistical INformation Grid-based method

[32] Self-Organizing Maps

برای دانلود متن کامل فایل این  پایان نامه می توانید  اینجا کلیک کنید