Học tăng cường là một lĩnh vực của ML. Đó là việc thực hiện hành động phù hợp để tối đa hóa phần thưởng trong một tình huống cụ thể. Nó được sử dụng bởi các phần mềm và ML khác nhau để tìm ra hành vi hoặc đường dẫn tốt nhất có thể mà nó nên thực hiện trong một tình huống cụ thể. Học tăng cường khác với học có giám sát ở chỗ trong học có giám sát, dữ liệu huấn luyện có khóa trả lời với nó, do đó mô hình được huấn luyện với câu trả lời chính xác trong khi trong học củng cố, không có câu trả lời nhưng tác nhân củng cố quyết định phải làm gì để thực hiện nhiệm vụ đã cho. Trong trường hợp không có tập dữ liệu đào tạo, nó nhất định phải học hỏi kinh nghiệm của nó.

Ví dụ: Bài toán như sau: Chúng ta có một tác nhân và một phần thưởng, với nhiều rào cản ở giữa. Người đại diện phải tìm ra con đường tốt nhất có thể để đạt được phần thưởng. Bài toán sau giải thích vấn đề dễ hiểu hơn.

Hình ảnh trên cho thấy robot, kim cương và lửa. Mục tiêu của robot là nhận được phần thưởng là viên kim cương và tránh các chướng ngại vật là lửa. Robot học bằng cách thử tất cả các con đường có thể và sau đó chọn con đường mang lại cho anh ta phần thưởng với ít trở ngại nhất. Mỗi bước đúng sẽ cho robot phần thưởng và mỗi bước sai sẽ trừ phần thưởng của robot. Tổng phần thưởng sẽ được tính khi đạt đến phần thưởng cuối cùng là kim cương.

1. Những điểm chính trong học tập củng cố

  • Đầu vào: Đầu vào phải là trạng thái ban đầu mà từ đó mô hình sẽ bắt đầu
  • Đầu ra: Có thể có nhiều đầu ra vì có nhiều giải pháp cho một vấn đề cụ thể
  • Đào tạo: Đào tạo dựa trên đầu vào, Mô hình sẽ trả về một trạng thái và người dùng sẽ quyết định thưởng hoặc phạt mô hình dựa trên đầu ra của nó.
  • Mô hình giữ tiếp tục học hỏi.
  • Giải pháp tốt nhất được quyết định dựa trên phần thưởng tối đa.

Sự khác biệt giữa học tập củng cố và học tập có giám sát:

HỌC TĂNG CƯỜNGHỌC TẬP ĐƯỢC GIÁM SÁT
Học tập củng cố là tất cả về việc đưa ra quyết định một cách tuần tự. Nói một cách đơn giản, chúng ta có thể nói rằng đầu ra phụ thuộc vào trạng thái của đầu vào hiện tại và đầu vào tiếp theo phụ thuộc vào đầu ra của đầu vào trước đóTrong học có giám sát, quyết định được thực hiện trên đầu vào ban đầu hoặc đầu vào được đưa ra lúc bắt đầu
Trong Gia cố quyết định học tập là phụ thuộc, Vì vậy, chúng ta cung cấp nhãn cho chuỗi các quyết định phụ thuộc Học tập có giám sát, các quyết định là độc lập với nhau vì vậy các nhãn được cấp cho mỗi quyết định.
Ví dụ: Trò chơi cờ vua Ví dụ: Nhận dạng đối tượng

2. Các loại gia cố: Có hai loại gia cố:

  1. Tích cực 

Tăng cường tích cực được định nghĩa là khi một sự kiện xảy ra do một hành vi cụ thể, làm tăng cường độ và tần suất của hành vi đó. Nói cách khác, nó có ảnh hưởng tích cực đến hành vi.

Ưu điểm của việc học tăng cường là:

  • Tối đa hóa hiệu suất
  • Duy trì thay đổi trong một thời gian dài

Nhược điểm của học tăng cường:

  • Quá nhiều gia cố có thể dẫn đến quá tải các trạng thái có thể làm giảm kết quả

2.Tiêu cực

  • Tăng cường tiêu cực được định nghĩa là tăng cường một hành vi bởi vì một điều kiện tiêu cực bị dừng lại hoặc tránh được.

Ưu điểm của việc học củng cố:

  • Tăng hành vi
  • Tuân theo tiêu chuẩn hiệu suất tối thiểu

Nhược điểm của học tăng cường:

-->
  • Nó chỉ cung cấp đủ để đáp ứng các hành vi tối thiểu

Các ứng dụng thực tế khác nhau của việc học củng cố –

  • RL có thể được sử dụng trong robot tự động hóa công nghiệp.
  • RL có thể được sử dụng trong học máy và xử lý dữ liệu
  • RL có thể được sử dụng để tạo ra các hệ thống đào tạo cung cấp hướng dẫn và tài liệu tùy chỉnh theo yêu cầu của sinh viên.

RL có thể được sử dụng trong môi trường lớn trong các trường hợp sau:

Một mô hình của môi trường đã được biết đến, nhưng một giải pháp phân tích không có sẵn

Chỉ một mô hình mô phỏng của môi trường được đưa ra (chủ đề của tối ưu hóa dựa trên mô phỏng)

Cách duy nhất để thu thập thông tin về môi trường là tương tác với nó.

Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.

Nguồn và Tài liệu tiếng anh tham khảo:

Tài liệu từ cafedev:

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

Chào thân ái và quyết thắng!

Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you!