Trang chủ Tự học Machine Learning Tự học ML | Học tăng cường

Tự học Machine Learning

Tự học ML | Học tăng cường

Reinforcement learning

Bởi

30 Tháng Mười Hai, 2020

883

🔥CHỌN LỌC TOP NHỮNG KHOÁ HỌC LẬP TRÌNH ONLINE NHIỀU NGƯỜI THEO HOC TẠI ĐÂY🔥

Học tăng cường là một lĩnh vực của ML. Đó là việc thực hiện hành động phù hợp để tối đa hóa phần thưởng trong một tình huống cụ thể. Nó được sử dụng bởi các phần mềm và ML khác nhau để tìm ra hành vi hoặc đường dẫn tốt nhất có thể mà nó nên thực hiện trong một tình huống cụ thể. Học tăng cường khác với học có giám sát ở chỗ trong học có giám sát, dữ liệu huấn luyện có khóa trả lời với nó, do đó mô hình được huấn luyện với câu trả lời chính xác trong khi trong học củng cố, không có câu trả lời nhưng tác nhân củng cố quyết định phải làm gì để thực hiện nhiệm vụ đã cho. Trong trường hợp không có tập dữ liệu đào tạo, nó nhất định phải học hỏi kinh nghiệm của nó.

Ví dụ: Bài toán như sau: Chúng ta có một tác nhân và một phần thưởng, với nhiều rào cản ở giữa. Người đại diện phải tìm ra con đường tốt nhất có thể để đạt được phần thưởng. Bài toán sau giải thích vấn đề dễ hiểu hơn.

Hình ảnh trên cho thấy robot, kim cương và lửa. Mục tiêu của robot là nhận được phần thưởng là viên kim cương và tránh các chướng ngại vật là lửa. Robot học bằng cách thử tất cả các con đường có thể và sau đó chọn con đường mang lại cho anh ta phần thưởng với ít trở ngại nhất. Mỗi bước đúng sẽ cho robot phần thưởng và mỗi bước sai sẽ trừ phần thưởng của robot. Tổng phần thưởng sẽ được tính khi đạt đến phần thưởng cuối cùng là kim cương.

Nội dung chính

1. Những điểm chính trong học tập củng cố

Đầu vào: Đầu vào phải là trạng thái ban đầu mà từ đó mô hình sẽ bắt đầu
Đầu ra: Có thể có nhiều đầu ra vì có nhiều giải pháp cho một vấn đề cụ thể
Đào tạo: Đào tạo dựa trên đầu vào, Mô hình sẽ trả về một trạng thái và người dùng sẽ quyết định thưởng hoặc phạt mô hình dựa trên đầu ra của nó.
Mô hình giữ tiếp tục học hỏi.
Giải pháp tốt nhất được quyết định dựa trên phần thưởng tối đa.

Sự khác biệt giữa học tập củng cố và học tập có giám sát:

HỌC TĂNG CƯỜNG	HỌC TẬP ĐƯỢC GIÁM SÁT
Học tập củng cố là tất cả về việc đưa ra quyết định một cách tuần tự. Nói một cách đơn giản, chúng ta có thể nói rằng đầu ra phụ thuộc vào trạng thái của đầu vào hiện tại và đầu vào tiếp theo phụ thuộc vào đầu ra của đầu vào trước đó	Trong học có giám sát, quyết định được thực hiện trên đầu vào ban đầu hoặc đầu vào được đưa ra lúc bắt đầu
Trong Gia cố quyết định học tập là phụ thuộc, Vì vậy, chúng ta cung cấp nhãn cho chuỗi các quyết định phụ thuộc	Học tập có giám sát, các quyết định là độc lập với nhau vì vậy các nhãn được cấp cho mỗi quyết định.
Ví dụ: Trò chơi cờ vua	Ví dụ: Nhận dạng đối tượng

2. Các loại gia cố: Có hai loại gia cố:

Tích cực

Tăng cường tích cực được định nghĩa là khi một sự kiện xảy ra do một hành vi cụ thể, làm tăng cường độ và tần suất của hành vi đó. Nói cách khác, nó có ảnh hưởng tích cực đến hành vi.

Ưu điểm của việc học tăng cường là:

Tối đa hóa hiệu suất
Duy trì thay đổi trong một thời gian dài

Nhược điểm của học tăng cường:

Quá nhiều gia cố có thể dẫn đến quá tải các trạng thái có thể làm giảm kết quả

2.Tiêu cực

Tăng cường tiêu cực được định nghĩa là tăng cường một hành vi bởi vì một điều kiện tiêu cực bị dừng lại hoặc tránh được.

Ưu điểm của việc học củng cố:

Tăng hành vi
Tuân theo tiêu chuẩn hiệu suất tối thiểu

Nhược điểm của học tăng cường:

Nó chỉ cung cấp đủ để đáp ứng các hành vi tối thiểu

Các ứng dụng thực tế khác nhau của việc học củng cố –

RL có thể được sử dụng trong robot tự động hóa công nghiệp.
RL có thể được sử dụng trong học máy và xử lý dữ liệu
RL có thể được sử dụng để tạo ra các hệ thống đào tạo cung cấp hướng dẫn và tài liệu tùy chỉnh theo yêu cầu của sinh viên.

RL có thể được sử dụng trong môi trường lớn trong các trường hợp sau:

Một mô hình của môi trường đã được biết đến, nhưng một giải pháp phân tích không có sẵn

Chỉ một mô hình mô phỏng của môi trường được đưa ra (chủ đề của tối ưu hóa dựa trên mô phỏng)

Cách duy nhất để thu thập thông tin về môi trường là tương tác với nó.

Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.

Nguồn và Tài liệu tiếng anh tham khảo:

Tài liệu từ cafedev:

Full series tự học Python từ cơ bản tới nâng cao tại đây nha.
Tự học ML bằng Python từ cơ bản tới nâng cao.
Ebook về python tại đây.
Các series tự học lập trình MIỄN PHÍ khác
Nơi liên hệ hợp tác hoặc quảng cáo cùng Cafedevn tại đây.

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

Chào thân ái và quyết thắng!

Tự học ML | Học tăng cường

1. Những điểm chính trong học tập củng cố

2. Các loại gia cố: Có hai loại gia cố:

Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you!

BÀI VIẾT TIÊU BIỂU

Liệu mã nguồn mở có thể tồn tại trước làn sóng...

Bản cập nhật Next.js 15.4 nâng cấp Turbopack trước phiên bản...

Google tuyển dụng đội Windsurf nhằm thúc đẩy các dự án...

BÀI VIẾT PHỔ BIẾN

Tổng hợp toàn bộ tài liệu học hướng đối tượng và...

[Tự học C++] Số dấu phẩy động(float, double,…) trong C++

Tổng hợp và chọn lọc bài tập SQL full hướng dẫn...

MỤC XEM NHIỀU