مجله اینترنتی تخصصی نرم افزار

کاربرد فرایند کریسپ (crisp dm) در داده کاوی

زمان مطالعه: 5 دقیقه

حتما به خاطر دارید که در مطالب گذشته راجع به داده کاوی و استانداردهای داده کاوی صحبت کردیم و آن را یک متدولوژی برای کمک به مدیران معرفی کردیم تا از داده‌های خام به مجموعه‌ای از اطلاعات کاربردی و ارزشمند برای بهبود فرایند تصمیم گیری برسند.

پروژه‌های مختلف کسب و کار، هر کدام روش‌های اجرا و فرآیندهای خاص خود را دارند. برای اجرای فرآیندهای داده کاوی نیز روش‌های مختلفی وجود دارد. یکی از متداول‌ترین و پرکاربردترین این روش‌ها «فرآیند استاندارد صنعتی متقاطع» یا «فرایند کریسپ» است.

اگر شما هم چیزی از فرآیند کریسپ نمی‌دانید با ما همراه باشید تا crisp dm را به طور کامل معرفی و بررسی کنیم.

فرایند کریسپ چیست؟ 

فرایند

CRSIP-DM مخفف عبارت Cross-industry standard process for data mining و به معنی «فرآیند استاندارد صنعتی متقاطع داده کاوی» است. فرایند کریسپ، یک مدل فرآیندی استاندارد منبع باز است که رویکردهای عمومی متخصصان داده کاوی را تشریح می‌کند. این روش از پرکاربردترین مدل‌های تحلیلی است.

گروهی از شرکت‌های اروپایی در دهه 1990 برای اولین بار از فرایند کریسپ برای انجام پروژه‌های داده کاوی استفاده کردند. این فرایند دارای 6 محله اصلی است. این مراحل متوالی، از درک نیازهای اصلی کسب و کار شروع شده و با ارائه راهکارهای مفید به پایان می‌رسد.

همان طور که اشاره کردیم، روش crisp dm، الگوی فرآیند محور داده کاوی است که راهکاری نظام‌مند، مفید و کاربردی برای ابعاد داده و همچنین خوشه بندی داده‌ها ارائه می‌کند. از آنجا که خوشه بندی از مباحث مهم و اساسی در داده کاوی محسوب می‌شود، خوب است به خوشه بندی نیز اشاره مختصری داشته باشیم. خوشه (Cluster) به مجموعه‌ای از داده‌های شبیه به هم گفته می‌شود و خوشه بندی فرآیندی است که به کمک آن می‌توانید مجموعه‌ای از اشیا را به گروه‌های مجزا تفکیک کنید.

برای انجام خوشه‌بندی، داده‌ها را به خوشه‌های مختلف تقسیم می‌کنند. بنابراین، شباهت میان داده‌های درون هر خوشه به حداکثر و شباهت میان داده‌های درون خوشه‌های متفاوت به حداقل می‌رسد. در طبقه‌بندی، به هر داده یک طبقه یا کلاس از پیش تعیین شده اختصاص می‌یابد. در حالی که در خوشه‌بندی هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد و خوشه‌ها از داده‌ها استخراج می‌شوند. خوشه بندی را می‌توانیم به عنوان مهم‌ترین مساله در یادگیری بدون نظارت در نظر بگیریم.

برای آشنایی با فرایند داده کاوی، مطلب داده کاوی چیست، را بخوانید.

فرایند کریسپ (crisp dm) دارای چند مرحله است؟

مراحل

گفتیم متدولوژی کریسپ در اجرای پروژه‌های داده کاوی دارای 6 مرحله است. در این بخش این مراحل را معرفی و بررسی خواهیم کرد.

تفاهم تجاری (Business Understanding)

یک متخصص علم داده باید کسب و کاری را که قرار است بر روی آن پروژه داده کاوی انجام دهد را به خوبی شناخته و درک کند. فهم کامل و درست کسب و کار، ذهن او را برای کار بر روی پروژه آماده کرده و به او امکان می‌دهد تا با شناخت بیشتر و کامل‌تری وارد مراحل بعدی شود. در مرحله فهم کسب و کار باید مواردی مانند ابعاد مختلف آن کسب و کار، محدودیت‌ها، شرایط موجود، اهداف کسب و کار و سایر عوامل مرتبط را بررسی کنید. یک متخصص در این مرحله می‌تواند با افزایش دانش و شناخت خود، تا حدودی به کسب و کار موجود مسلط شود.

درک داده (Understand data)

وقتی اهداف کسب و کار مشخص شد، باید داده‌هایی که برای انجام پروژه داده کاوی نیاز دارید را جمع‌آوری کنید. بنابراین برای درک داده‌ها،  اولین مرحله شامل جمع‌آوری داده‌های اولیه است. یک تحلیل‌گر باید با دقت کافی و تا جای ممکن تمام داده‌هایی که در اجرای پروژه نیاز خواهد داشت را به صورت دقیق، واضح و شفاف جمع‌آوری کند. سپس باید داده‌های جمع‌آوری شده را از لحاظ تعداد نمونه‌ها و تعداد متغیرهای موجود، تشریح، بررسی و تحلیل کند. خوب است بدانید که معمولا تحلیلگران با چهار نوع متغیر گسسته اسمی، گسسته ترکیبی، پیوسته فاصله‌ای و پیوسته نسبتی سر و کار دارند. تشخیص نوع متغیرها از این جهت حائز اهمیت است که در اکثر موارد نوع متغیرها تعیین کننده نوع تحلیلی است که باید انجام شود.

پس از تعیین نوع متغیرها، تحلیل‌گر به تشریح و بررسی بیشتر داده‌ها می‌پردازد. او برای تشریح بیشتر و دقیق‌تر به استفاده از کمیت‌های آماری مانند میانگین، میانه، انحراف معیار، چارک اول، چارک سوم، فراوانی، درصد فراوانی و… نیاز دارد. او همچنین می‌تواند برای بررسی و درک بیشتر روابط بین متغیرها از رسم نمودار و مصور سازی داده‌ها استفاده کند.

آماده سازی داده‌ها (Data Preparation)

مرحله سوم در مجموعه کریسپ، مرحله آماده سازی داده‌ها است. در این مرحله شما قادر خواهید بود، داده‌ها را برای تحلیل و مدل‌سازی آماده کنید. آماده سازی داده‌ها یکی از مهم‌ترین و وقت‌گیرترین بخش‌های فرآیند داده کاوی به شمار می‌رود که شامل انتخاب، پاک سازی، ساخت، ادغام و قالب بندی داده‌ها است.

در این مرحله داده‌هایی که تمیز نیستند، تمیز شده و به صورت ساختاری، برای مرحله بعد آماده می‌شوند. همچنین می‌توانید در این بخش، مجموعه داده‌های مختلف را با هم ترکیب کنید تا به مجموعه داده‌های کارآمدتر و با کیفیت‌‌تری برسید.

مدل‌سازی (Modeling)

در این مرحله برای آموزش مدل، از داده‌های پردازش شده استفاده می‌شود. بسته به اینکه مساله شما چه نوع مساله‌ای است، باید از تکنیک‌ها و روش‌های مدل‌سازی متناسب با اهداف کسب و کار خود استفاده کنید. به عنوان مثال، اگر مساله شما طبقه بندی داده‌ها است، باید از الگوریتم طبقه بندی برای یادگیری استفاده کنید. البته به این نکته هم توجه داشته باشید که ممکن است در یک پروژه داده کاوی، مسائل مختلفی وجود داشته باشد. در این صورت، به عملیات پیچیده‌تری برای مدل‌سازی نیاز خواهید داشت.

ارزیابی (Evaluation)

ارزیابی

پس از مدل‌سازی باید ارزیابی مدل را انجام دهیم. به بیان دیگر، در صورتی که در مراحل قبلی داده‌ها را آماده کردید و مدل موردنظر را ساختید، اکنون باید مدل خود را ارزیابی کنید. روش ارزیابی به مدل انتخابی بستگی دارد. به عنوان مثال، اگر مساله شما طیقه بندی بود، باید از روش‌های ارزیابی الگوریتم طبقه بندی استفاده کنید.

به طور کلی مرحله ارزیابی شامل بررسی و سنجش نتایج، بهبود مدل‌ها، بررسی مجدد فرآیند و تهیه فهرستی از اقدامات انجام شده است. توجه داشته باشید که اگر کیفیت مدل شما پایین بود، بهتر است به مراحل قبل برگردید و داده‌ها و روش‌های آماده سازی آنهاا را بازبینی و اصلاح کنید، سپس مجددا ارزیابی را انجام دهید.

استقرار و به کارگیری (Deploy)

پس از ارزیابی مدل باید برای استفاده از آن در دنیای واقعی، برنامه‌ای را تنظیم کنید. چرا که اگر یافته‌ها و نتایج مدل‌ها در فعالیت‌های روزانه سازمان مورد استفاده قرار نگیرند، حتی بهترین مدل‌ها هم شکست خواهند خورد. به عبارتی، باید با کمک مهندسان نرم افزار و برنامه نویسان، نرم افزاری را تولید کرده و توسعه دهید تا کاربران بتوانند از برنامه‌ها و زحمات شما استفاده کنند.

و در انتها…

فرایند کریسپ، یک مدل استاندارد 6 مرحله‌ای است که چرخه عمر علم داده را توصیف می‌کند. این استاندارد مانند مجموعه‌ای از حفاظ‌ها برای کمک به شما در برنامه ریزی، سازماندهی، اجرای پروژه علم داده و یادگیری ماشین است.

در هر سازمانی داده‌ها پیوسته در حال تغییر هستند و مدل ساخته شده باید در بازه‌های زمانی مختلف بر روی این داده‌ها اعمال شود. در پایان، تیم پروژه باید گزارش نهایی اجرای پروژه را ارائه کند. توجه داشته باشید که این گزارش باید خلاصه‌ای از پروژه، نتایج پروژه و همچنین نتایج داده کاوی باشد.

به طور کلی فرایند کریسپ مدام در حال چرخش وتکرار است. به عنوان مثال، اگر در مرحله «فهم داده‌ها» دچار مشکل شدید باید به عقب برگردید و کسب و کار خود را تحلیل و بررسی کنید. یا اگر مرحله «مدل‌سازی» را به درستی انجام نداده‌اید، باید در مرحله «آماده سازی داده‌ها» را بازبینی و اصلاح کنید. شما می‌توانید با انجام بازنگری و اصلاح مراحل مختلف، همواره استاندارد crisp-dm را بهبود ببخشید و نسخه‌های جدیدتر نرم افزار خود را منتشر کنید.

 

مطالب مشابه
1 نظر
  1. زهرا می گوید

    با سلام
    ممنون از اطلاعات مفیدتان
    آیا پیاده سازی این متدولوژی با پایتون امکان پذیر است؟

ارسال نظر

آدرس ایمیل شما منتشر نخواهد شد.