کاربرد فرایند کریسپ (crisp dm) در داده کاوی
حتما به خاطر دارید که در مطالب گذشته راجع به داده کاوی و استانداردهای داده کاوی صحبت کردیم و آن را یک متدولوژی برای کمک به مدیران معرفی کردیم تا از دادههای خام به مجموعهای از اطلاعات کاربردی و ارزشمند برای بهبود فرایند تصمیم گیری برسند.
پروژههای مختلف کسب و کار، هر کدام روشهای اجرا و فرآیندهای خاص خود را دارند. برای اجرای فرآیندهای داده کاوی نیز روشهای مختلفی وجود دارد. یکی از متداولترین و پرکاربردترین این روشها «فرآیند استاندارد صنعتی متقاطع» یا «فرایند کریسپ» است.
اگر شما هم چیزی از فرآیند کریسپ نمیدانید با ما همراه باشید تا crisp dm را به طور کامل معرفی و بررسی کنیم.
فرایند کریسپ چیست؟
CRSIP-DM مخفف عبارت Cross-industry standard process for data mining و به معنی «فرآیند استاندارد صنعتی متقاطع داده کاوی» است. فرایند کریسپ، یک مدل فرآیندی استاندارد منبع باز است که رویکردهای عمومی متخصصان داده کاوی را تشریح میکند. این روش از پرکاربردترین مدلهای تحلیلی است.
گروهی از شرکتهای اروپایی در دهه 1990 برای اولین بار از فرایند کریسپ برای انجام پروژههای داده کاوی استفاده کردند. این فرایند دارای 6 محله اصلی است. این مراحل متوالی، از درک نیازهای اصلی کسب و کار شروع شده و با ارائه راهکارهای مفید به پایان میرسد.
همان طور که اشاره کردیم، روش crisp dm، الگوی فرآیند محور داده کاوی است که راهکاری نظاممند، مفید و کاربردی برای ابعاد داده و همچنین خوشه بندی دادهها ارائه میکند. از آنجا که خوشه بندی از مباحث مهم و اساسی در داده کاوی محسوب میشود، خوب است به خوشه بندی نیز اشاره مختصری داشته باشیم. خوشه (Cluster) به مجموعهای از دادههای شبیه به هم گفته میشود و خوشه بندی فرآیندی است که به کمک آن میتوانید مجموعهای از اشیا را به گروههای مجزا تفکیک کنید.
برای انجام خوشهبندی، دادهها را به خوشههای مختلف تقسیم میکنند. بنابراین، شباهت میان دادههای درون هر خوشه به حداکثر و شباهت میان دادههای درون خوشههای متفاوت به حداقل میرسد. در طبقهبندی، به هر داده یک طبقه یا کلاس از پیش تعیین شده اختصاص مییابد. در حالی که در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و خوشهها از دادهها استخراج میشوند. خوشه بندی را میتوانیم به عنوان مهمترین مساله در یادگیری بدون نظارت در نظر بگیریم.
برای آشنایی با فرایند داده کاوی، مطلب داده کاوی چیست، را بخوانید.
فرایند کریسپ (crisp dm) دارای چند مرحله است؟
گفتیم متدولوژی کریسپ در اجرای پروژههای داده کاوی دارای 6 مرحله است. در این بخش این مراحل را معرفی و بررسی خواهیم کرد.
تفاهم تجاری (Business Understanding)
یک متخصص علم داده باید کسب و کاری را که قرار است بر روی آن پروژه داده کاوی انجام دهد را به خوبی شناخته و درک کند. فهم کامل و درست کسب و کار، ذهن او را برای کار بر روی پروژه آماده کرده و به او امکان میدهد تا با شناخت بیشتر و کاملتری وارد مراحل بعدی شود. در مرحله فهم کسب و کار باید مواردی مانند ابعاد مختلف آن کسب و کار، محدودیتها، شرایط موجود، اهداف کسب و کار و سایر عوامل مرتبط را بررسی کنید. یک متخصص در این مرحله میتواند با افزایش دانش و شناخت خود، تا حدودی به کسب و کار موجود مسلط شود.
درک داده (Understand data)
وقتی اهداف کسب و کار مشخص شد، باید دادههایی که برای انجام پروژه داده کاوی نیاز دارید را جمعآوری کنید. بنابراین برای درک دادهها، اولین مرحله شامل جمعآوری دادههای اولیه است. یک تحلیلگر باید با دقت کافی و تا جای ممکن تمام دادههایی که در اجرای پروژه نیاز خواهد داشت را به صورت دقیق، واضح و شفاف جمعآوری کند. سپس باید دادههای جمعآوری شده را از لحاظ تعداد نمونهها و تعداد متغیرهای موجود، تشریح، بررسی و تحلیل کند. خوب است بدانید که معمولا تحلیلگران با چهار نوع متغیر گسسته اسمی، گسسته ترکیبی، پیوسته فاصلهای و پیوسته نسبتی سر و کار دارند. تشخیص نوع متغیرها از این جهت حائز اهمیت است که در اکثر موارد نوع متغیرها تعیین کننده نوع تحلیلی است که باید انجام شود.
پس از تعیین نوع متغیرها، تحلیلگر به تشریح و بررسی بیشتر دادهها میپردازد. او برای تشریح بیشتر و دقیقتر به استفاده از کمیتهای آماری مانند میانگین، میانه، انحراف معیار، چارک اول، چارک سوم، فراوانی، درصد فراوانی و… نیاز دارد. او همچنین میتواند برای بررسی و درک بیشتر روابط بین متغیرها از رسم نمودار و مصور سازی دادهها استفاده کند.
آماده سازی دادهها (Data Preparation)
مرحله سوم در مجموعه کریسپ، مرحله آماده سازی دادهها است. در این مرحله شما قادر خواهید بود، دادهها را برای تحلیل و مدلسازی آماده کنید. آماده سازی دادهها یکی از مهمترین و وقتگیرترین بخشهای فرآیند داده کاوی به شمار میرود که شامل انتخاب، پاک سازی، ساخت، ادغام و قالب بندی دادهها است.
در این مرحله دادههایی که تمیز نیستند، تمیز شده و به صورت ساختاری، برای مرحله بعد آماده میشوند. همچنین میتوانید در این بخش، مجموعه دادههای مختلف را با هم ترکیب کنید تا به مجموعه دادههای کارآمدتر و با کیفیتتری برسید.
مدلسازی (Modeling)
در این مرحله برای آموزش مدل، از دادههای پردازش شده استفاده میشود. بسته به اینکه مساله شما چه نوع مسالهای است، باید از تکنیکها و روشهای مدلسازی متناسب با اهداف کسب و کار خود استفاده کنید. به عنوان مثال، اگر مساله شما طبقه بندی دادهها است، باید از الگوریتم طبقه بندی برای یادگیری استفاده کنید. البته به این نکته هم توجه داشته باشید که ممکن است در یک پروژه داده کاوی، مسائل مختلفی وجود داشته باشد. در این صورت، به عملیات پیچیدهتری برای مدلسازی نیاز خواهید داشت.
ارزیابی (Evaluation)
پس از مدلسازی باید ارزیابی مدل را انجام دهیم. به بیان دیگر، در صورتی که در مراحل قبلی دادهها را آماده کردید و مدل موردنظر را ساختید، اکنون باید مدل خود را ارزیابی کنید. روش ارزیابی به مدل انتخابی بستگی دارد. به عنوان مثال، اگر مساله شما طیقه بندی بود، باید از روشهای ارزیابی الگوریتم طبقه بندی استفاده کنید.
به طور کلی مرحله ارزیابی شامل بررسی و سنجش نتایج، بهبود مدلها، بررسی مجدد فرآیند و تهیه فهرستی از اقدامات انجام شده است. توجه داشته باشید که اگر کیفیت مدل شما پایین بود، بهتر است به مراحل قبل برگردید و دادهها و روشهای آماده سازی آنهاا را بازبینی و اصلاح کنید، سپس مجددا ارزیابی را انجام دهید.
استقرار و به کارگیری (Deploy)
پس از ارزیابی مدل باید برای استفاده از آن در دنیای واقعی، برنامهای را تنظیم کنید. چرا که اگر یافتهها و نتایج مدلها در فعالیتهای روزانه سازمان مورد استفاده قرار نگیرند، حتی بهترین مدلها هم شکست خواهند خورد. به عبارتی، باید با کمک مهندسان نرم افزار و برنامه نویسان، نرم افزاری را تولید کرده و توسعه دهید تا کاربران بتوانند از برنامهها و زحمات شما استفاده کنند.
و در انتها…
فرایند کریسپ، یک مدل استاندارد 6 مرحلهای است که چرخه عمر علم داده را توصیف میکند. این استاندارد مانند مجموعهای از حفاظها برای کمک به شما در برنامه ریزی، سازماندهی، اجرای پروژه علم داده و یادگیری ماشین است.
در هر سازمانی دادهها پیوسته در حال تغییر هستند و مدل ساخته شده باید در بازههای زمانی مختلف بر روی این دادهها اعمال شود. در پایان، تیم پروژه باید گزارش نهایی اجرای پروژه را ارائه کند. توجه داشته باشید که این گزارش باید خلاصهای از پروژه، نتایج پروژه و همچنین نتایج داده کاوی باشد.
به طور کلی فرایند کریسپ مدام در حال چرخش وتکرار است. به عنوان مثال، اگر در مرحله «فهم دادهها» دچار مشکل شدید باید به عقب برگردید و کسب و کار خود را تحلیل و بررسی کنید. یا اگر مرحله «مدلسازی» را به درستی انجام ندادهاید، باید در مرحله «آماده سازی دادهها» را بازبینی و اصلاح کنید. شما میتوانید با انجام بازنگری و اصلاح مراحل مختلف، همواره استاندارد crisp-dm را بهبود ببخشید و نسخههای جدیدتر نرم افزار خود را منتشر کنید.
با سلام
ممنون از اطلاعات مفیدتان
آیا پیاده سازی این متدولوژی با پایتون امکان پذیر است؟