دکتر ندا عبدالوند، عضو هیات علمی دانشگاه الزهرا

طرح درس داده‌‎کاوی

ترم دوم سال تحصیلی 1399-1400

مرجع اصلی درس

 

 

 

Data Mining: Concepts and Techniques, Third Edition by Jiawei Han, Micheline Kamber and Jian Pei, 2012

داده‌کاوی: مفاهیم و تکنیک‌ها، تالیف هان، کامبر، و پی، ترجمه حاجی حیدری و خاکباز، دانشگاه تهران، 1392

داده‌کاوی کاربردی، صنیعی آباده، محمودی و طاهرپرور، نیاز دانش، 1391

 

کتابهای مفید برای مطالعه

 

Data Science for Business – What you need to know about data mining and data-analytics thinking, F. Provost & T. Fawcett, 2013

 

Data Mining: Practical Machine Learning Tools and Techniques. 4th Edition by I. H. Witten, E. Frank, M. A. Hall, C. J. Pal, 2017

 

شرح و اهداف

این درس مقدمه‌ای بر داده‌کاوی است و به دانشجویان مفاهیم و تکنیک‌های پایه داده‌کاوی را با استفاده از نرم‌افزارهای مرتبط می‌آموزد. مفاهیمی که در این درس پوشش داده می‌شود، از این قرار است:

داده‌کاوی چیست؟ (فصل 1- مقدمه)

درک داده (فصل 2)

پیش پردازش داده (فصل 3)

داده‌های پرت (فصل 12)

تکنیک‌های مدلسازی شامل

تحلیل الگو (فصل 6)

دسته‌بندی (فصل 8)

خوشه‌بندی (فصل 10)

متن کاوی (فصل 13)

وب کاوی (فصل 14)

در صورت پیشرفت مناسب و داشتن زمان، مباحث گراف‌کاوی نیز تدریس خواهد شد.

 

فعالیت‌های دانشجویان

 

حضور در کلاس

تمرین‌های کلاسی

مطالعه مقاله

پروژه درس

 

ساختار ارزیابی کلاس

امتحانات کلاسی

امتحان 1- آزمون آمادگی دانشجویان (0%)

امتحان 2- آزمون نهایی دانشجویان (40%)

مشارکت فعال در کلاس و تمرین‌ها (10%)

پروژه درس (50%)

 

نرم افزار Rapid Miner در کلاس TA آموزش داده میشود.

یادگیری نرم‌افزار R یا پایتون و انجام پروژه با آن براساس سطح یادگیری تا 2 نمره اضافه دارد.

 

پروژه درس

داده پروژه درس می‌تواند در صورت دسترسی دانشجو داده واقعی باشد یا از مراجع ارائه داده به‌دست آید.

نکته1 دانشجو لازم است که 3 مجموعه داده انتخابی خود را تا هفته 3 کلاس مشخص کند و تا هفته 7 پس از بررسی مجموعه داده، نوع مدلسازی و عملیات را مشخص نماید.

توضیح: دانشجویان باید داده را قبل از انتخاب بررسی و مطالعه نمایند تا قابلیت استفاده برای پروژه درسی را داشته باشد. داده لازم است حداقل 10 ویژگی و بیش از 2000 رکورد داشته باشد. بهتر است missing value در کمترین مقدار باشد. در این زمینه دانشجویان میتوانند از مشورت TA استفاده نمایند.

نکته 2 دانشجویان نمی‌توانند از مجموعه داده‌های مشابه استفاده نمایند.

نکته 3 حجم داده و تعداد ویژگی باید مناسب پروژه 10 نمره‌ای باشد.

نکته 4 انتخاب به موقع داده و ارائه گزارش به موقع از هر مرحله، نمره مجزای خود را دارد.

 

نکات مهم درس

یادگیری یک نرم‌افزار داده‌کاوی ضروری است.

حضور در کلاس‌های دستیار آموزشی جز فعالیت کلاسی محسوب می‌شود.

تحویل پروژه به صورت حضوری و به صورت آزمون خواهد بود. با هر گونه تخلفی در انجام پروژه، طبق قوانین و مقررات آموزشی عمل خواهد شد و هیچ فرصت مجددی در اختیار دانشجو قرار داده نخواهد شد.

 

مرجع کسب داده

https://snap.stanford.edu/data/

https://vincentarelbundock.github.io/Rdatasets/datasets.html

http://archive.ics.uci.edu/ml/datasets.html

https://www.kaggle.com/datasets

موتور جستجوی گوگل خاص جستجوی دیتاست.

 

 

 

مطالب کلاس

جلسه

مبحث درس

نرم افزار

1

آشنایی و معرفی درس

 

2

مقدمهای بر دادهکاوی

درک داده

 

3 و 4

پیشپردازش داده

آموزش پیشپردازش در Rapidminer

5 و 6

تحلیل الگو (فصل 6 کتاب)

آموزش الگوریتمهای مرتبط در نرمافزار و آموزش ارزیابی

7 و 8 و 9

دستهبندی (فصل 8 کتاب)

10 و 11

خوشهبندی

12 و 13

متنکاوی

 

14

وبکاوی

 

15

آزمون آمادگی