Sau các bài tìm hiểu về các thuật toán và các khái niệm cơ bản trong ML. Sau đây chúng ta cùng với Cafedev tìm hiểu chi tiết về khái niệm ML là gì?
Nội dung chính
1. Khái niệm về ML?
Arthur Samuel, nhà tiên phong trong lĩnh vực trí tuệ nhân tạo và chơi game trên máy tính, đã đặt ra thuật ngữ “Machine Learning”. Ông định nghĩa Machine Learning(ML) là – “Lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học mà không cần được lập trình rõ ràng”.
Theo cách hiểu rất đơn giản, Machine Learning(ML) có thể được giải thích là tự động hóa và cải thiện quá trình học tập của máy tính dựa trên trải nghiệm của chúng mà không được lập trình thực sự, tức là không có bất kỳ sự trợ giúp nào của con người. Quá trình bắt đầu với việc cung cấp dữ liệu chất lượng tốt và sau đó đào tạo máy của chúng ta (máy tính) bằng cách xây dựng các mô hình học máy sử dụng dữ liệu và các thuật toán khác nhau. Việc lựa chọn thuật toán phụ thuộc vào loại dữ liệu chúng ta có và loại tác vụ chúng ta đang cố gắng tự động hóa.
Ví dụ: Huấn luyện học sinh khi ôn thi.
Trong khi chuẩn bị cho các kỳ thi, học sinh không thực sự nhồi nhét chủ đề mà cố gắng học nó với sự hiểu biết đầy đủ. Trước khi kiểm tra, họ cung cấp cho máy (não) của mình một lượng dữ liệu chất lượng cao (câu hỏi và câu trả lời từ các cuốn sách khác nhau hoặc ghi chú của giáo viên hoặc các bài giảng video trực tuyến). Trên thực tế, họ đang huấn luyện bộ não của họ với đầu vào cũng như đầu ra, tức là họ có cách tiếp cận hoặc logic nào để giải quyết một loại câu hỏi khác nhau. Mỗi lần họ giải các bài kiểm tra thực hành và tìm ra hiệu suất (độ chính xác / điểm số) bằng cách so sánh các câu trả lời với câu trả lời được đưa ra, dần dần, hiệu suất không ngừng tăng lên, có được sự tự tin hơn với phương pháp đã áp dụng. Đó là cách thực sự mô hình được tạo ra, đào tạo máy với dữ liệu (cả đầu vào và đầu ra đều được cung cấp cho mô hình) và khi đến thời điểm kiểm tra dữ liệu (chỉ với đầu vào) và đạt được điểm với mô hình của chúng ta bằng cách so sánh câu trả lời của nó với đầu ra thực tế trong khi huấn luyện. Các nhà nghiên cứu đang nỗ lực không ngừng để cải thiện các thuật toán, kỹ thuật để các mô hình này hoạt động tốt hơn nhiều
2. Sự khác biệt cơ bản trong ML và Lập trình truyền thống?
Lập trình truyền thống: Chúng ta cung cấp dữ liệu trong DỮ LIỆU (Đầu vào) + CHƯƠNG TRÌNH (logic), chạy nó trên máy và nhận đầu ra.
ML: Chúng ta cung cấp dữ liệu trong DỮ LIỆU (Đầu vào) + Đầu ra, chạy nó trên máy trong quá trình đào tạo và chương trình riêng (logic), có thể được đánh giá trong khi thử nghiệm.
3. Học chính xác có nghĩa là gì đối với máy tính?
Một máy tính được cho là đang học hỏi từ Trải nghiệm đối với một số loại Nhiệm vụ, nếu hiệu suất của nó trong một Nhiệm vụ nhất định được cải thiện với Trải nghiệm.
Một chương trình máy tính được cho là học hỏi từ trải nghiệm E đối với một số loại nhiệm vụ T và thước đo hiệu suất P, nếu hiệu suất của nó ở các nhiệm vụ trong T, được đo bằng P, cải thiện với trải nghiệm E
Ví dụ: chơi cờ caro.
E = kinh nghiệm chơi nhiều trò cờ caro
T = nhiệm vụ chơi cờ caro.
P = xác suất chương trình sẽ thắng trong trò chơi tiếp theo
Nói chung, bất kỳ vấn đề ML nào đều có thể được gán cho một trong hai cách phân loại:
Học có giám sát và Học không giám sát.
4. Cách mọi thứ hoạt động trong thực tế:
Nói về mua sắm trực tuyến, có hàng triệu người dùng với vô số sở thích về thương hiệu, màu sắc, phạm vi giá cả và nhiều hơn nữa. Trong khi mua sắm trực tuyến, người mua có xu hướng tìm kiếm một số sản phẩm. Giờ đây, việc tìm kiếm một sản phẩm thường xuyên sẽ khiến Facebook của người mua, các trang web, công cụ tìm kiếm hoặc cửa hàng trực tuyến đó bắt đầu đề xuất hoặc hiển thị các ưu đãi về sản phẩm cụ thể đó. Không có ai ngồi ở đó để viết code cho nhiệm vụ như vậy cho từng người dùng, tất cả nhiệm vụ này là hoàn toàn tự động. Ở đây, ML phát huy vai trò của nó. Các nhà nghiên cứu, nhà khoa học dữ liệu, người làm ML xây dựng các mô hình trên máy bằng cách sử dụng chất lượng tốt và lượng dữ liệu khổng lồ và giờ đây máy của họ đang tự động thực hiện và thậm chí cải tiến với ngày càng nhiều kinh nghiệm và thời gian.
Theo truyền thống, quảng cáo chỉ được thực hiện trên báo, tạp chí và đài phát thanh nhưng giờ đây công nghệ đã khiến chúng ta đủ thông minh để thực hiện Quảng cáo nhắm mục tiêu (hệ thống quảng cáo trực tuyến), đây là một phương pháp hiệu quả hơn để nhắm mục tiêu đến đối tượng dễ tiếp thu nhất.
Ngay cả trong lĩnh vực chăm sóc sức khỏe, ML cũng đang làm một công việc tuyệt vời. Các nhà nghiên cứu và nhà khoa học đã chuẩn bị các mô hình đào tạo máy phát hiện ung thư chỉ bằng cách nhìn vào hình ảnh tế bào slide. Đối với con người để thực hiện nhiệm vụ này sẽ mất rất nhiều thời gian. Nhưng bây giờ, không còn sự chậm trễ nào nữa, máy móc dự đoán khả năng mắc hoặc không bị ung thư với độ chính xác nhất định và các bác sĩ chỉ cần đưa ra một cuộc gọi đảm bảo, thế là xong. Câu trả lời cho – làm thế nào điều này có thể thực hiện được là rất đơn giản – tất cả đều được yêu cầu, đó là, máy tính toán cao, một lượng lớn dữ liệu hình ảnh chất lượng tốt, mô hình ML với các thuật toán tốt để đạt được kết quả hiện đại.
Các bác sĩ đang sử dụng ML thậm chí để chẩn đoán bệnh nhân dựa trên các thông số khác nhau đang được xem xét.
Tất cả các bạn có thể đã sử dụng xếp hạng IMDB, Google Photos nơi nó nhận dạng khuôn mặt, Google Ống kính nơi mô hình nhận dạng văn bản hình ảnh ML có thể trích xuất văn bản từ hình ảnh bạn cung cấp, Gmail phân loại E-mail là xã hội, quảng cáo, cập nhật hoặc diễn đàn bằng cách sử dụng phân loại văn bản, là một phần của ML.
5. ML hoạt động như thế nào?
- Thu thập dữ liệu trong quá khứ dưới bất kỳ hình thức nào phù hợp để xử lý. Chất lượng dữ liệu càng tốt thì càng phù hợp cho việc lập mô hình
- Xử lý dữ liệu – Đôi khi, dữ liệu được thu thập ở dạng thô và nó cần được xử lý trước.
Ví dụ: Một số bộ giá trị có thể bị thiếu giá trị cho các thuộc tính nhất định, trong trường hợp này, nó phải được điền bằng các giá trị thích hợp để thực hiện học máy hoặc bất kỳ hình thức khai thác dữ liệu nào.
Các giá trị bị thiếu cho các thuộc tính số như giá nhà có thể được thay thế bằng giá trị trung bình của thuộc tính trong khi các giá trị bị thiếu cho các thuộc tính số có thể được thay thế bằng thuộc tính có chế độ cao nhất. Điều này luôn phụ thuộc vào loại bộ lọc mà chúng ta sử dụng. Nếu dữ liệu ở dạng văn bản hoặc hình ảnh thì việc chuyển đổi nó sang dạng số sẽ được yêu cầu, có thể là danh sách hoặc mảng hoặc ma trận. Đơn giản, Dữ liệu phải được làm cho phù hợp và nhất quán. Nó sẽ được chuyển đổi thành một định dạng mà máy có thể hiểu được
- Chia dữ liệu đầu vào thành các tập huấn luyện, xác nhận chéo và thử nghiệm. Tỷ lệ giữa các bộ tương ứng phải là 6: 2: 2
- Xây dựng mô hình với các thuật toán và kỹ thuật phù hợp trên tập huấn luyện.
- Kiểm tra mô hình được khái niệm hóa của chúng ta với dữ liệu không được cung cấp cho mô hình tại thời điểm đào tạo và đánh giá hiệu suất của nó bằng các chỉ số như điểm F1, độ chính xác và thu hồi.
6. Ace lưu ý một số điều kiện tiên quyết để học ML
- Đại số tuyến tính
- Thống kê và xác suất
- Giải tích
- Lý thuyết đồ thị
- Kỹ năng lập trình – Ngôn ngữ như Python, R, MATLAB, C ++ hoặc Octave
Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.
Nguồn và Tài liệu tiếng anh tham khảo:
Tài liệu từ cafedev:
- Full series tự học Python từ cơ bản tới nâng cao tại đây nha.
- Tự học ML bằng Python từ cơ bản tới nâng cao.
- Ebook về python tại đây.
- Các series tự học lập trình MIỄN PHÍ khác
- Nơi liên hệ hợp tác hoặc quảng cáo cùng Cafedevn tại đây.
Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:
Chào thân ái và quyết thắng!