ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی در مورد کاربرد داده کاوی در ... |
-
- رکوردهای مربوط به جدول پیام ها یا همان تماس های مشتریان شامل ۱۲ فیلد می شد که اکثراً از نوع اسمی (رشته ای) بود که در مرحله آماده سازی داده ها مقادیر عددی فیلدهای مورد نظر از طریق اضافه شدن ستون های جدید به انتهای جدول ایجاد گردید.
-
- رکوردهای مربوط به جداول جمعیت، بارندگی و اعتبار مصوب همگی از نوع عددی می باشند.
شرح دقیق فیلدهای اطلاعاتی در هر جدول در فصل بعد آورده شده است.
ساختار اجرایی تحقیق
همان طور که در ابتدای این فصل بیان شد، ماهیت تحقیق، داده محور می باشد و پایه اصلی تحقیق حاضر برکشف دانش از پایگاه های داده شهرداری تهران بنا نهاده شده است. از این رو استاندارد جهانی CRISP-DM جهت انجام فرایند تحقیق مورد استفاده قرار گرفته است که در این بخش ساختار اجرایی تحقیق بر اساس مراحل این استاندارد تشریح شده است.
درک مساله کسب و کار
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه بیان گردیده است:
-
- تعیین اهداف کسب و کار
-
- ارزیابی موقعیت
-
- تعیین اهداف داده کاوی
در این فاز، ابتدا اهداف کسب و کار تعیین و تبیین گردید که اصلی ترین هدف کسب و کار، به کارگیری تکنیک های مختلف داده کاوی نظیر Clustering، Classification، Association Rules و … بر روی اطلاعات سامانه ۱۳۷ و بررسی و تحلیل نتایج به دست آمده به منظور ارتقای کیفیت خدمات شهری.
گام بعدی که در این مرحله انجام شده است تعیین اهداف داده کاوی تحقیق است که به طور کاملاً روشن می توان گفت که نوع داده کاوی، هم از نوع پیش بینی کننده و هم از نوع تشریح کننده می باشد.
درک داده ها
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه بیان شده است:
-
- جمع آوری داده های اولیه
-
- توصیف داده ها
-
- تصدیق کیفیت داده ها و شناسایی داده های هدف
در مرحله ی قبل یک تصویر کلی از وضعیت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوی برای محقق حاصل گردید. در این مرحله با توجه به درک صورت گرفته از این اهداف و وضعیت موجود لازم است تا درک صحیحی از وضعیت داده ها، نحوه ی جمع آوری و اطمینان از کیفیت داده های مورد بررسی، حاصل گردد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در مجموع مهم ترین اقداماتی که در این بخش به آن ها پرداخته شده تعیین داده های مورد نیاز و نحوه ی دسترسی به آن داده ها می باشد.
در این مرحله برای ارزیابی اولیه از داده های موجود، ابتدا ساختار بانک اطلاعاتی سامانه ی ۱۳۷ شهرداری تهران با ۱۲ فیلد دریافت گردید. لازم به ذکر است که برخی از فیلدها مثل فیلد نام و شماره تماس شهروند به علت اختیاری بودن حاوی رکوردهای تهی بود که در فرایند تحقیق قابل کاربرد نبودند و لذا از این فرایند حذف گردیدند.
هم چنین اطلاعات مربوط به جمعیت و بودجه مناطق و نیز وضعیت آب و هوای تهران در سال ۱۳۸۹ به ترتیب از وب سایت شهرداری تهران و وب سایت سازمان هواشناسی دریافت و در جداول جداگانه ذخیره گردید.
نکته ی قابل توجه این که نه در سازمان هواشناسی و نه در شهرداری تهران وضعیت آب و هوایی شهر به تفکیک مناطق ۲۲ گانه اندازه گیری و ثبت نمی شود و تنها اطلاعات مذکور به تفکیک ایستگاه های پنج گانه سازمان هواشناسی قابل دسترس می باشد. بنابراین محقق با در نظر گرفتن مجاورت جغرافیایی مناطق درنقشه ی شهر تهران و نیز راهنمایی کارشناسان هواشناسی، اطلاعات هر ایستگاه را برای مناطقی که در همسایگی و
شکل۳-۱وضعیت ایستگاه های پنج گانه هواشناسی مستقر در شهر تهران می باشد.
مجاورت آن ایستگاه بود تعمیم داد. شکل۳-۱ نمایانگر وضعیت ایستگاه های هواشناسی مستقر در شهر تهران می باشد. به طور مثال اطلاعات ایستگاه اقدسیه که در منطقه ۱ واقع شده است به مناطق ۱، ۳ و ۴ تعمیم داده شد.
آماده سازی داده ها
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه آورده شده است:
-
- جمع آوری و انتخاب داده ها
-
- یکپارچه سازی داده ها
-
- پاکسازی داده ها (کاهش داده ها)
-
- شکل دادن وساخت داده ها (تغییر داده ها)
-
- قالب بندی داده ها ( برای مدل سازی در نرم افزار)
در مرحله قبل داده های هدف، جهت جمع آوری و پالایش مشخص شدند. در این مرحله داده های مرتبط با تماس های مشتریان شناسایی و از تماس های مرتبط با کارمندان و کارکنان سازمان شهرداری تفکیک گردید.
در ادامه فرایند آماده سازی، باید برای پاکسازی و پیش پردازش داده ها، دو عملیات مهم کاهش داده و اعمال تغییرات در شکل داده ها بر روی اطلاعات صورت گیرد.
کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر از داده های اولیه که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست می دهد (مرشدلو، ۱۳۸۶)
در این مرحله بر حسب نیاز، عملیات کاهش داده ها به صورت حذف فیلد های شماره تماس ثابت و همراه شهروند - نام و نام خانوادگی شهروند به علت تهی بودن بیش از نیمی از رکوردهای بانک اطلاعاتی صورت گرفت.
همان طور که قبلاً نیز بحث شد داده های بانک اطلاعاتی سامانه ۱۳۷ در مقطع سال ۸۹ به همراه اطلاعات وضعیت بارندگی و جمعیت و اعتبار مصوب عمرانی در همان سال به منظور تحلیل، انتخاب و گردآوری گردید. پس از بررسی و انتخاب فیلدهای مورد نظر از هر یک از جداول از طریق ایجاد دید[۵۹] های تو در تو در نرم افزار Sql 2008 داده های هر ۳ جدول با یکدیگر ترکیب شدند. با عنایت به این موضوع که بیشتر فیلدهای جدول مربوط به اطلاعات پیام ها حاوی رکوردهای فارسی می شد لازم بود تا مقادیر فارسی به کدهای متناظر عددی تبدیل شوند. بنابراین فیلد جدیدی به انتهای جدول پیام ها اضافه و کدهای عددی جای مقادیر منحصر به فرد داده های فارسی را گرفت. در این راستا حذف فاصله های اضافی انتهای رکورد و یکسان کردن حروف عربی و فارسی به کدپیچ واحد از مقدمات کار بود.
با توجه به این که اکثر تحلیل های انجام گرفته در این تحقیق به تفکیک منطقه و یا ناحیه می باشد لذا می بایست وجود مقادیر صحیح کد منطقه و ناحیه در کلیه رکوردهای جدول کنترل می شد. لذا با انجام پرس جو[۶۰] های متعدد از طریق نرم افزار Sql 2008 دو فیلد جدید به انتهای جدول پیام اضافه و مقادیر کد منطقه و ناحیه شناسایی شده که ترکیب آن (نام منطقه – نام ناحیه) در ستون دیگری از همان جدول قرار داشت به صورت عددی و تفکیک شده، اضافه گردید. در مواردی که نام منطقه یا ناحیه در ستون مربوطه آورده نشده بود، تلاش شد تا از طریق ستون متن پیام، مقادیر آن شناسایی گردد. که تکمیل داده ها به این روش بسیار زمان بر بود. البته در مواردی که کد ناحیه ومنطقه از هیچ روشی قابل تعیین نبود به ناچار رکورد مربوط به آن از مجموعه رکوردهای مورد بررسی حذف گردید.
طبق بررسی های انجام شده بر روی داده ها مشخص گردید بخشی از پیام های ثبت شده در این سامانه مربوط به تماس های شهروندان با شهرداری نبوده بلکه مربوط می شود به شکایات یا درخواست های کارکنان و پرسنل سازمان شهرداری از واحدهای اجرایی همان سازمان. بنابراین با توجه به این که اساساً این رکوردها موضوعیتی با نیازها و معضلات شهری شهروندان تهرانی پیدا نمی کرد، به ناچار از مجموعه رکوردهای مورد بررسی حذف گردید.
همان طور که پیش تر گفته شد داده های سامانه ۱۳۷ (جدول پیام ها) بر اساس نوع و موضوع پیام ۶۴۴ عنوان دارد که ذیل ۵۱ عنوان کلی طبقه بندی شده است. به عبارت دیگر در مجموع ۶۴۴ نوع مشکل در سطح شهر تهران شناسایی شده است که هر کدام در یکی از ۵۱ طبقه تعیین شده قرار می گیرد. با بررسی های به عمل آمده بر روی داده ها مشخص شد در برخی از این ۵۱ طبقه، تعداد تماس های شهروندان بسیار کم و ناچیز می باشد. به عبارت دیگر فراوانی بسیار کم آن ها در میان سایر مشکلات نشان دهنده موردی بودن و بی اهمیت بودن مشکلات آن طبقه بود و از آن جا که بیم آن می رفت که در روند تکرار پذیری پیام ها اختلال ایجاد نماید لذا با امکان پرس جوی نرم افزار Sql 2008 این طبقه ها شناسایی و به همراه مشکلات آن طبقه از مجموع داده های مورد بررسی حذف گردیدند.
گفته شد که مرحله آماده سازی داده ها مهم ترین و زمان بر ترین بخش از فرایند داده کاوی محسوب می شود. در این بخش، فارسی بودن اکثر فیلدهای جدول پیام و نیز حجم زیاد رکوردها خود منجر به طولانی تر شدن این مرحله گردید به گونه ای که محقق برای جلوگیری از حذف رکوردهای صحیح ، که به علت رشته ای بودن نوع فیلدها ممکن بود رخ دهد، این مرحله را با صرف زمان و دقت بیشتری به انجام رساند.
در نهایت پس از مرحله آماده سازی، داده ها در قالب SPSS تجمیع و به عنوان ورودی در نرم افزار Clementine مورد استفاده قرار گرفت.
مدل سازی
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه بیان شده است:
- انتخاب تکنیک های مدل سازی
فرم در حال بارگذاری ...
[دوشنبه 1400-09-29] [ 12:07:00 ق.ظ ]
|