Cây quyết định: Cây quyết định là công cụ mạnh mẽ và phổ biến nhất để phân loại và dự đoán. Cây quyết định là một lưu đồ giống như cấu trúc cây, trong đó mỗi nút bên trong biểu thị một phép thử trên một thuộc tính, mỗi nhánh biểu thị một kết quả của phép thử và mỗi nút lá (nút đầu cuối) chứa một nhãn lớp.
Nội dung chính
1. Cây quyết định cho khái niệm PlayTennis.
Xây dựng cây quyết định:
Một cây có thể được “học” bằng cách tách tập nguồn thành các tập con dựa trên kiểm tra giá trị thuộc tính. Quá trình này được lặp lại trên mỗi tập con dẫn xuất theo cách đệ quy được gọi là phân vùng đệ quy. Quá trình đệ quy được hoàn thành khi tất cả các tập con tại một nút đều có cùng giá trị của biến mục tiêu hoặc khi việc tách không còn thêm giá trị vào các dự đoán. Việc xây dựng bộ phân loại cây quyết định không yêu cầu bất kỳ kiến thức miền hoặc cài đặt tham số nào, và do đó thích hợp cho việc khám phá kiến thức khám phá. Cây quyết định có thể xử lý dữ liệu chiều cao. Nhìn chung bộ phân loại cây quyết định có độ chính xác tốt. Quy nạp cây quyết định là một cách tiếp cận quy nạp điển hình để học kiến thức về phân loại.
Biểu diễn cây quyết định:
Cây quyết định phân loại các cá thể bằng cách sắp xếp chúng theo cây từ gốc đến một số nút lá, điều này cung cấp sự phân loại của cá thể. Một cá thể được phân loại bằng cách bắt đầu từ nút gốc của cây, kiểm tra thuộc tính được chỉ định bởi nút này, sau đó di chuyển xuống nhánh cây tương ứng với giá trị của thuộc tính như trong hình trên. Quá trình này sau đó được lặp lại cho cây con bắt nguồn từ nút mới.
Cây quyết định trong hình trên phân loại một buổi sáng cụ thể tùy theo việc nó có phù hợp để chơi quần vợt hay không và trả về phân loại liên quan đến lá cụ thể. (Trong trường hợp này là Có hoặc Không).
Ví dụ, ví dụ
(Triển vọng = Mưa, Nhiệt độ = Nóng, Độ ẩm = Cao, Gió = Mạnh)
sẽ được sắp xếp xuống nhánh ngoài cùng bên trái của cây quyết định này và do đó sẽ được phân loại là một trường hợp phủ định.
Nói cách khác, chúng ta có thể nói rằng cây quyết định đại diện cho sự kết hợp các liên kết của các ràng buộc trên các giá trị thuộc tính của các cá thể.
(Outlook = Nắng ^ Độ ẩm = Bình thường) v (Outllok = U ám) v (Outlook = Mưa ^ Gió = Yếu)
2. Điểm mạnh và điểm yếu của phương pháp tiếp cận Cây quyết định
Điểm mạnh của phương pháp cây quyết định là:
- Cây quyết định có thể tạo ra các quy tắc dễ hiểu.
- Cây quyết định thực hiện phân loại mà không yêu cầu tính toán nhiều.
- Cây quyết định có thể xử lý cả biến liên tục và biến phân loại.
- Cây quyết định cung cấp một dấu hiệu rõ ràng về các trường nào là quan trọng nhất để dự đoán hoặc phân loại.
Điểm yếu của phương pháp cây quyết định:
- Cây quyết định ít thích hợp hơn cho các nhiệm vụ ước tính trong đó mục tiêu là dự đoán giá trị của một thuộc tính liên tục.
- Cây quyết định dễ mắc lỗi trong các bài toán phân loại với nhiều lớp và số lượng ví dụ huấn luyện tương đối nhỏ.
- Cây quyết định có thể tốn kém về mặt tính toán để đào tạo. Quá trình trồng cây quyết định rất tốn kém về mặt tính toán. Tại mỗi nút, mỗi trường phân tách ứng viên phải được sắp xếp trước khi có thể tìm thấy trường phân tách tốt nhất của nó. Trong một số thuật toán, kết hợp các trường được sử dụng và phải thực hiện tìm kiếm để có trọng số kết hợp tối ưu. Các thuật toán cắt tỉa cũng có thể tốn kém vì nhiều cây con ứng cử viên phải được hình thành và so sánh.
Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.
Nguồn và Tài liệu tiếng anh tham khảo:
Tài liệu từ cafedev:
- Full series tự học Python từ cơ bản tới nâng cao tại đây nha.
- Tự học ML bằng Python từ cơ bản tới nâng cao.
- Ebook về python tại đây.
- Các series tự học lập trình MIỄN PHÍ khác
- Nơi liên hệ hợp tác hoặc quảng cáo cùng Cafedevn tại đây.
Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:
Chào thân ái và quyết thắng!