Học tập có giám sát như tên gọi cho biết sự hiện diện của người giám sát như một giáo viên. Về cơ bản, học có giám sát là cách học mà chúng ta dạy hoặc đào tạo máy bằng cách sử dụng dữ liệu được gắn nhãn tốt, nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời đúng. Sau đó, máy được cung cấp một bộ ví dụ (dữ liệu) mới để thuật toán học có giám sát phân tích dữ liệu đào tạo (bộ ví dụ đào tạo) và tạo ra kết quả chính xác từ dữ liệu được gắn nhãn.
Ví dụ, giả sử bạn được tặng một giỏ chứa đầy các loại trái cây khác nhau. Bây giờ, bước đầu tiên là đào tạo chiếc máy với tất cả các loại trái cây khác nhau như sau:
Nếu hình dạng của đối tượng được làm tròn và phần lõm ở trên cùng có màu Đỏ thì nó sẽ được gắn nhãn là –Apple.
Nếu hình dạng của vật thể là hình trụ uốn cong dài có màu Xanh lục-Vàng thì vật thể đó sẽ được gắn nhãn là –Banana.
Bây giờ, giả sử sau khi huấn luyện dữ liệu, bạn đã đưa ra một loại trái cây riêng biệt mới nói là Chuối từ giỏ và yêu cầu xác định nó.
Vì máy đã học được những thứ từ dữ liệu trước và lần này phải sử dụng nó một cách khôn ngoan. Đầu tiên nó sẽ phân loại trái cây với hình dạng và màu sắc của nó và xác nhận tên trái cây là CHUỐI và xếp nó vào loại Chuối. Do đó ML những thứ từ dữ liệu đào tạo (giỏ chứa trái cây) và sau đó áp dụng kiến thức để kiểm tra dữ liệu (trái cây mới).
Học tập có giám sát được phân loại thành hai loại thuật toán:
- Phân loại: Vấn đề phân loại là khi biến đầu ra là một danh mục, chẳng hạn như “Đỏ” hoặc “xanh” hoặc “bệnh” và “không bệnh”.
- Hồi quy: Một vấn đề hồi quy là khi biến đầu ra là một giá trị thực, chẳng hạn như “đô la” hoặc “trọng lượng”.
Việc học có giám sát giải quyết hoặc học với dữ liệu “được gắn nhãn”. Điều này ngụ ý rằng một số dữ liệu đã được gắn thẻ với câu trả lời đúng.
Các loại: –
- hồi quy
- Hồi quy logistic
- Phân loại
- Naïve Bayes phân loại
- Cây quyết định
- Hỗ trợ bộ máy vector
Ưu điểm:
- Học tập có giám sát cho phép thu thập dữ liệu và tạo ra dữ liệu đầu ra từ những kinh nghiệm trước đó.
- Giúp tối ưu hóa các tiêu chí hiệu suất với sự trợ giúp của kinh nghiệm.
- ML có giám sát giúp giải quyết nhiều loại vấn đề tính toán trong thế giới thực.
Nhược điểm:
- Phân loại dữ liệu lớn có thể là một thách thức.
- Đào tạo cho việc học có giám sát cần rất nhiều thời gian tính toán, vì vậy, nó đòi hỏi rất nhiều thời gian.
Nội dung chính
1. Học tập không giám sát
Học không giám sát là việc đào tạo máy sử dụng thông tin không được phân loại cũng như không được gắn nhãn và cho phép thuật toán hoạt động trên thông tin đó mà không cần hướng dẫn. Ở đây, nhiệm vụ của máy là nhóm các thông tin chưa được sắp xếp theo những điểm tương đồng, kiểu mẫu và sự khác biệt mà không cần đào tạo trước dữ liệu.
Không giống như học tập có giám sát, không có giáo viên nào được cung cấp có nghĩa là máy sẽ không được đào tạo. Do đó, máy bị hạn chế tự tìm kiếm cấu trúc ẩn trong dữ liệu không được gắn nhãn.
Ví dụ, giả sử nó được đưa ra một hình ảnh có cả chó và mèo chưa từng thấy.
Do đó, máy không có ý tưởng về các đặc điểm của chó và mèo nên chúng ta không thể phân loại chúng ở chó và mèo. Nhưng nó có thể phân loại chúng theo những điểm tương đồng, kiểu mẫu và khác biệt, tức là chúng ta có thể dễ dàng phân loại bức tranh trên thành hai phần. Phần đầu tiên có thể chứa tất cả các bức ảnh có chó trong đó và phần thứ hai có thể chứa tất cả các bức ảnh có mèo trong đó. Ở đây bạn chưa học bất cứ điều gì trước đây, có nghĩa là không có dữ liệu hoặc ví dụ đào tạo.
Nó cho phép mô hình tự hoạt động để phát hiện ra các mẫu và thông tin mà trước đó không bị phát hiện. Nó chủ yếu xử lý dữ liệu không có nhãn.
Học không giám sát được phân loại thành hai loại thuật toán:
- Phân cụm: Vấn đề phân cụm là nơi bạn muốn khám phá các nhóm vốn có trong dữ liệu, chẳng hạn như nhóm khách hàng theo hành vi mua hàng.
- Liên kết: Một vấn đề học tập quy tắc liên kết là nơi bạn muốn khám phá các quy tắc mô tả phần lớn dữ liệu của bạn, chẳng hạn như những người mua X cũng có xu hướng mua Y.
2. Các kiểu học không giám sát: –
- Phân cụm
- Độc quyền (phân vùng)
- Tổng hợp
- Qua nối chồng
- Xác suất
Các loại phân cụm:
- Phân cụm theo thứ bậc
- K-có nghĩa là phân cụm
- K-NN (k hàng xóm gần nhất)
- Phân tích thành phần chính
- Phân rã giá trị đơn lẻ
- Phân tích thành phần độc lập
3. Học máy không giám sát và không giám sát
Tham số | Học máy được giám sát | Học máy không giám sát |
Các thuật toán dữ liệu đầu vào | được đào tạo bằng cách sử dụng dữ liệu có nhãn. | Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn |
Phương pháp | đơn giản | tính toán phức tạp |
Độ chính xác | chính xác Cao | Kém chính xác |
Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.
Nguồn và Tài liệu tiếng anh tham khảo:
Tài liệu từ cafedev:
- Full series tự học Python từ cơ bản tới nâng cao tại đây nha.
- Tự học ML bằng Python từ cơ bản tới nâng cao.
- Ebook về python tại đây.
- Các series tự học lập trình MIỄN PHÍ khác
- Nơi liên hệ hợp tác hoặc quảng cáo cùng Cafedevn tại đây.
Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:
Chào thân ái và quyết thắng!