گام پس از جمع آوری دادهها، پاکسازی دادهها است. اینکه مطمئن باشیم دیتاست ما عاری از هر گونه اشتباه و داده ی ناقص است حائز اهمیت است. به فرایند تشخیص و اصلاح و حذف داده ها و رکوردهای خراب در مجموعه ایی از داده ها، جداول و دیتابیس ها گفته می شود. این فرآیند را می توان به صورت دستی یا اتوماتیک انجام داد. و شامل تشخیص داده های نامربوط، نادرست، ناقص و جایگزینی و یا اصلاح و یا حذف داده های کثیف اطلاق میشود.
بعد از انجام عمیات پاکسازی داده ها، دیتاست باید با سایر دیتاست های داخل سیستم سازگار باشد. و این داده های خراب می تواند از طریق کاربر، زمان انتقال داده ها و یا در هنگام ذخیره سازی بوجود آید. اهمیت این بحث، از آن جهت است که وجود این داده های خراب باعث نتیجه گیری اشتباه در مورد داده ها و الگوهای موجود در آن می شود.
همانطور که می دانید، دانشمندهای داده بین 50 تا 80 درصد وقت خود را صرف پاک سازی و اصلاح داده ها می نمایند و 20 درصد آن را به آنالیز آن داده ها می پردازند.
برای تحقق این امر، ابزارها و متدهای زیادی وجود دارد. و اصولا به دو طریق که یکی از طریق اجرای اسکریپت و دیگری استفاده از ابزار است میتوان پاک سازی داده را انجام داد. متاسفانه در دوره های یادگیری ماشین و آنالیز داده ها کمتر به این موضوع پرداخته می شود ولی همانطور که اشاره شد بخش خیلی مهمی در فرایند آنالیز داده ها می باشد.
با گسترش روزافزون تکنولوژی در زندگی، داده های تولید شده روز به روز افزایش می یابد و پیدا کردن داده های خراب و اصلاح آنها سخت تر می گردد. زیرا با کلان داده مواجه هستیم.
ابزارهای پاکسازی داده:
JASP – Rattle – Rapid Miner – Orange – Talend data preparation – Trifacta wrangler
مراحل پاکسازی داده را به چند بخش زیر باید تقسیم نمود: جمع آوری داده، پاک سازی داده، آنالیز و مدل سازی داده، انتشار نتیجه به مخاطبین.
چندین دلیل وجود دارد که اهمیت پاک سازی داده ها را ثابت می کند که در ادامه به آنها اشاره شده است:
- فرایند آنالیز داده ها را سرعت می بخشد.
- از خطا های احتمالی زمان آنالیز داده ها جلوگیری می کند. به این صورت که اگر داده ها پاک سازی نشده باشد به نتیجه غلطی می رسیم و مجبور می شویم مجددا آنالیز را انجام دهیم که این باعث اتلاف وقت می گردد.
مراحل پاک سازی داده که سرعت شما را بالا می برد:
- قوانین داده ها را استاندارد سازی کنید.
- اعتبارسنجی فرایند ها باعث کاهش هزینه پردازش داده ها و خطای انسانی می شود.
- داده های تکراری حذف گردد. زیرا یکپارچگی داده های استخراج شده از منابع مختلف را کم می کند و فضای ذخیره سازی و زمان زیادی را می برد.
- سلامت داده ها می بایست چک شود و باید خودکارسازی شود.
بهترین روش ها برای ساخت فرایند پاک سازی داده ها:
- مانیتور کردن خطاهاست، با این روش محل ایجاد خطا در داده ها شناسایی می شود و می توان جلوی آن را گرفت.
- استانداردسازی فرایند، بسیار با اهمیت است و از این طریق می توان مطمئن شد که نقطه ورودی داده ها مشکل ساز نمی باشد.
- صحت سنجی داده ها، بعد از اولین پاک سازی دیتاست، می بایست داده های پاک سازی شده صحت سنجی شوند تا از درست بودن آن داده ها اطمینان حاصل شود.
- حذف داده های تکراری، می توان از ابزارهای موجود جهت انجام این فرایند استفاده نمود.
- انجام آنالیز داده ها
- ارتباط با تیم، جهت بروزرسانی فرایند پاک سازی داده ها
تکنیک های پاک سازی داده با نرم افزار اکسل:
- فاصله های زائد در دادهها:
همانطور که در تصویر مشخص است، اگر دادههای درون دیتاست دارای فاصلههای زائد بود با استفاده از تابع =Trim(CellNo) در اکسل میتوان آنها را حذف نمود. (CellNo شماره سلولی از اکسل است که دادهی نادرست در آن قرار دارد. به طور مثال در تصویر زیر دادهی نادرست در B1 قرار دارد که همان ستون B و سطر 1 میباشد)
- محتویات Blank در دادهها:
احتمال دارد با دیتاستی برخورد نمایید که دارای دادههای زیادی باشد، با استفاده از تکنیکی که در ادامه گفته میشود میتوانید به راحتی آنها را در انبوه دادهها شناسایی نمایید. برای اینکار ابتدا مطابق شکل زیر دادهها را انتخاب نموده و از منوی مشخص شده گزینهی Go To Special را انتخاب نمایید.
سپس در پنجرهی باز شده گزینه Blanks را انتخاب نمایید. و بلافاصله متنی را که میخواهید در جای خالی نمایان شود را تایپ مینمایید. به طور مثال در اینجا کلمهی “خالی” تایپ شده است. سپس دکمهی Ctrl+Enter را فشار دهید تا تمامی سلولها با این مقدار پر شود. خروجی به صورت زیر میگردد.
- محتویات عددی که به صورت رشته ذخیره شدهاند:
اگر درون سلولهای اکسل محتویاتی مثل ‘456 قرار داشت که ترکیبی از عدد و تک کوتیشن است، با ضرب محتویات آن سلول با عدد 1 محتویات آن به عدد تبدیل می شود. به این صورت اعدادی که به اشتباه به صورت رشته ذخیره شدهاند، اصلاح میگردند.
- دادههای تکراری:
در صورتیکه دادههای تکراری از دیتاست حذف نگردد، باعث میشود آنالیز دادههای مان با مشکل مواجه شود. یکی از روش های حذف دادهی تکراری در یک یا چند ستون، انتخاب آن ستونها است و در نهایت در منوی بالای نرمافزار اکسل منوی Data بر روی گزینه Remove Duplicates کلیک مینمایید تا دادههای تکراری حذف شود. در تصویر زیر مراحل کار مشخص شده است:
- رشتهها با حروف بزرگ و کوچک:
این تغییر شامل حال رشتهها به زبان فارسی نمیگردد ولی زمانیکه با متون انگلیسی در ارتباط باشید، این تغییر کاربردی خواهد بود. برای اینکار به سراغ سلول مورد نظر رفته و از تابع =LOWER(CellNo) یا =UPPER(CellNo) و یا =PROPER(CellNo) استفاده مینمایید. (در توابع بالا CellNo همان شماره سلولی است که داده رشتهای در آن قرار دارد.)
- داده با املا نادرست:
در صورتیکه دادههای انگلیسی دارای غلط املایی بود، میتوانید مطابق شکل زیر بر روی سلول مورد نظر کلیک کرده و سپس دکمه F7 را کلیک نمایید و مطابق تصویر زیر پنجره Spelling باز می شود و لغت صحیح را پیشنهاد میکند.
در این مطلب به صورت مختصر با نحوهی پاک سازی دادهها آشنا شدیم.