مراحل داده کاوی

داده کاوی چیست؟

داده کاوی فرآیندی برای یافتن الگوهای بالقوه مفید از مجموعه داده های عظیم است. این یک مهارت چند رشته ای است که با استفاده از یادگیری ماشین ، آمار و هوش مصنوعی می تواند اطلاعاتی را برای ارزیابی احتمال وقایع آینده استخراج کند. بینش های حاصل از داده کاوی برای بازاریابی ، کشف تقلب ، کشف علمی و غیره استفاده می شود.

داده کاوی به معنای کشف روابط پنهان ، نامشخص و قبلاً ناشناخته و در عین حال معتبر بین داده ها است. داده کاوی همچنین دانش کشف  داده (KDD) ، استخراج دانش ، تجزیه و تحلیل داده / الگو ، برداشت اطلاعات و غیره نامیده می شود.

data_mining

درک تجاری:

در این مرحله ، اهداف کسب و کار و داده کاوی ایجاد می شود.

اول ، شما باید اهداف تجارت و مشتری را درک کنید. شما باید آنچه مشتری شما می خواهد را تعریف کنید (که بارها حتی آنها خودشان نمی دانند)
از سناریوی فعلی داده کاوی استفاده کنید.  ، فرض ، محدودیت ها و سایر عوامل قابل توجه در ارزیابی شما.
با استفاده از اهداف تجاری و سناریوی فعلی ، اهداف داده کاوی خود را تعریف کنید.
یک برنامه داده کاوی خوب بسیار مفصل است و باید برای تحقق اهداف تجاری و داده کاوی تهیه شود.

درک داده ها:

در این مرحله ، بررسی عقلانیت داده ها برای بررسی مناسب بودن آن برای اهداف داده کاوی انجام می شود.

ابتدا داده ها از چندین منبع داده موجود در سازمان جمع آوری می شوند.
این منابع داده ممکن است شامل چندین پایگاه داده ،
مرحله بعدی ، جستجوی خصوصیات داده های به دست آمده است. یک روش خوب برای کاوش داده ها ، پاسخ دادن به سوالات داده کاوی (تصمیم گیری در مرحله کسب و کار) با استفاده از ابزارهای جستجو ، گزارش و تجسم است.
بر اساس نتایج پرس و جو ، باید کیفیت داده ها مشخص شود.

آماده سازی داده ها:

در این مرحله ، داده های آماده تولید می شوند.

فرآیند آماده سازی داده ها حدود 90٪ از زمان پروژه را می گیرد.

داده های منابع مختلف باید انتخاب ، تمیز ، تغییر شکل ، قالب بندی ، ناشناس و ساخته شود (در صورت لزوم).

پاکسازی داده ها فرایندی است برای پاک کردن داده ها با صاف کردن داده های پر سر و صدا و پر کردن مقادیر از دست رفته.

به عنوان مثال ، برای مشخصات دموگرافیک مشتری ، اطلاعات سن از دست رفته است. اطلاعات ناقص است و باید پر شود. در برخی موارد ، ممکن است داده های دور از دسترس وجود داشته باشد. به عنوان مثال ، سن 300 است. داده ها می توانند متناقض باشند. به عنوان مثال ، نام مشتری در جداول مختلف متفاوت است.

Missing-values

عملیات تبدیل داده ، داده ها را تغییر می دهد تا در داده کاوی مفید واقع شوند. تحول زیر را می توان اعمال کرد

تبدیل داده ها:

عملیات تبدیل داده به موفقیت فرایند استخراج کمک می کند.

صاف کردن: به حذف نویز از داده ها کمک می کند.

تجمع: عملیات خلاصه یا تجمیع روی داده ها اعمال می شود. یعنی داده های فروش هفتگی برای محاسبه کل ماهانه و سالانه جمع می شود.

تعمیم: در این مرحله ، داده های سطح پایین با کمک سلسله مراتب مفهوم با مفاهیم سطح بالاتر جایگزین می شوند. به عنوان مثال ، شهرستان جایگزین شهرستان می شود.

نرمال سازی: عادی سازی هنگامی انجام می شود که داده های ویژگی کوچک یا کوچک شوند. مثال: داده ها باید در محدوده -2.0 تا 2.0 پس از نرمال سازی قرار بگیرند.

ساخت ویژگی:  ویژگی ها ساخته می شوند و شامل مجموعه ای از ویژگی های مفید برای داده کاوی هستند.

نتیجه این فرآیند یک مجموعه داده نهایی است که می تواند در مدل سازی مورد استفاده قرار گیرد.

مدل سازی
در این مرحله ، از مدلهای ریاضی برای تعیین الگوهای داده استفاده می شود.

  • بر اساس اهداف تجاری ، تکنیک های مناسب مدل سازی برای مجموعه داده آماده شده باید انتخاب شود.
  • برای بررسی کیفیت و اعتبار مدل سناریویی ایجاد کنید.
  • مدل را روی مجموعه داده آماده شده اجرا کنید.
  • نتایج باید توسط کلیه ذینفعان ارزیابی شود تا اطمینان حاصل شود که مدل می تواند اهداف داده کاوی را برآورده کند.

ارزیابی:
در این مرحله ، الگوهای شناسایی شده بر اساس اهداف تجاری ارزیابی می شوند.

نتایج تولید شده توسط مدل داده کاوی باید بر خلاف اهداف تجاری ارزیابی شود.
به دست آوردن درک تجاری فرآیندی تکراری است. در حقیقت ، ضمن درک ، ممکن است به دلیل داده کاوی ، نیازهای جدید تجاری نیز مطرح شود.
برای جابجایی مدل در مرحله استقرار ، تصمیم گیری یا رفتن وجود ندارد.
گسترش:
در مرحله استقرار ، شما اکتشافات داده کاوی خود را به کارهای روزمره تجاری ارسال می کنید.

دانش یا اطلاعات کشف شده در طی فرآیند داده کاوی باید برای ذینفعان غیر فنی آسان باشد.
یک طرح استقرار دقیق ، برای حمل و نقل ، نگهداری و نظارت بر اکتشافات داده کاوی ایجاد شده است.
گزارش نهایی پروژه با آموخته ها و تجربیات کلیدی در طول پروژه ایجاد می شود. این امر به بهبود سیاست تجاری سازمان کمک می کند.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *