Khai phá các tập dữ liệu lớn

Thông tin chung
Mã học phần: 
MAT6216
Chuyên ngành: 
Khoa học dữ liệu
Tóm tắt môn học

Học phần có mục tiêu trang bị cho học viên các kiến thức về các kĩ thuật trong khai phá dữ liệu và học máy được sử dụng nhằm xử lý các tập dữ liệu lớn và các phương pháp khai phá tri thức có giá trị từ các tập dữ liệu lớn. Các chủ đề chính được giới thiệu trong học phần bao gồm: hệ tư vấn và MapReduce; các kĩ thuật sử dụng mảng băm; xử lý luồng dữ liệu; kĩ thuật của máy tìm kiếm; khai phá tập mục thường xuyên; các thuật toán phân cụm cho cơ sở dữ liệu lớn có số chiều cao; các vấn đề chính thường gặp trong ứng dụng Web; v.v. Sau khi kết thúc học phần, học viên sẽ nắm được các kiến thức cơ bản nêu trên và có thể vận dụng được kiến thức đã học trong các bài toán thực tế.

Tài liệu tham khảo

  • Tài liệu bắt buộc
    • Bài giảng của giảng viên
    • Rajaraman A., Ullman J.D (2012), Mining of Massive Datasets, Cambridge University Press.
  • Tài liệu tham khảo thêm
    • Hastie T., Tibshirani R., Friedman J. (2011). The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Springer, 2nd edition.
    • Murphy K.P. (2013). Machine Learning: A Probablistic Perspective, MIT Press.