Bài này cafedev sẽ đi sâu về dữ liệu dùng trong ML là gì, cách dùng nó, .vv…v..

  • DỮ LIỆU: Nó có thể là bất kỳ dữ kiện, giá trị, văn bản, âm thanh hoặc hình ảnh chưa được xử lý nào không được giải thích và phân tích. Dữ liệu là phần quan trọng nhất của tất cả Phân tích dữ liệu, ML,, Trí tuệ nhân tạo. Nếu không có dữ liệu, chúng ta không thể đào tạo bất kỳ mô hình nào và tất cả các nghiên cứu và tự động hóa hiện đại sẽ trở nên vô ích. Các doanh nghiệp lớn đang chi rất nhiều tiền chỉ để thu thập càng nhiều dữ liệu nhất định càng tốt.

Ví dụ: Tại sao Facebook mua lại WhatsApp bằng cách trả một mức giá khổng lồ là 19 tỷ đô la?

Câu trả lời rất đơn giản và hợp lý – đó là quyền truy cập thông tin của người dùng mà Facebook có thể không có nhưng WhatsApp sẽ có. Thông tin này về người dùng của họ là điều tối quan trọng đối với Facebook vì nó sẽ tạo điều kiện thuận lợi cho công việc cải tiến dịch vụ của họ.

  • THÔNG TIN: Dữ liệu đã được diễn giải và xử lý và hiện có một số suy luận có ý nghĩa cho người dùng.
  • KIẾN THỨC: Tổng hợp thông tin suy luận, kinh nghiệm, học tập và hiểu biết sâu sắc. Kết quả trong việc xây dựng nhận thức hoặc khái niệm cho một cá nhân hoặc tổ chức.

1. Làm thế nào chúng ta phân chia dữ liệu trong ML?

  • Dữ liệu đào tạo: Phần dữ liệu chúng ta sử dụng để đào tạo mô hình của mình. Đây là dữ liệu mà mô hình của bạn thực sự nhìn thấy (cả đầu vào và đầu ra) và học hỏi từ đó.
  • Dữ liệu xác thực: Một phần dữ liệu được sử dụng để đánh giá mô hình thường xuyên, phù hợp với tập dữ liệu đào tạo cùng với việc cải thiện các siêu tham số liên quan (ban đầu đặt tham số trước khi mô hình bắt đầu học). Dữ liệu này đóng vai trò quan trọng khi mô hình thực sự đang được đào tạo.
  • Dữ liệu thử nghiệm: Sau khi mô hình của chúng ta được đào tạo hoàn chỉnh, dữ liệu thử nghiệm cung cấp đánh giá không thiên vị. Khi chúng ta cung cấp đầu vào của dữ liệu Thử nghiệm, mô hình của chúng ta sẽ dự đoán một số giá trị (mà không thấy đầu ra thực tế). Sau khi dự đoán, chúng ta đánh giá mô hình của mình bằng cách so sánh nó với thực tế có trong dữ liệu thử nghiệm. Đây là cách chúng ta đánh giá và xem mô hình của chúng ta đã học được bao nhiêu từ các trải nghiệm được cung cấp dưới dạng dữ liệu đào tạo, được đặt tại thời điểm đào tạo.

2. Hãy xem xét một ví dụ:

Có một Chủ sở hữu siêu thị mua sắm đã thực hiện một cuộc khảo sát mà anh ta có một danh sách dài các câu hỏi và câu trả lời mà anh ta đã hỏi từ khách hàng, danh sách các câu hỏi và câu trả lời này là DỮ LIỆU. Giờ đây, bất cứ khi nào anh ta muốn suy luận bất cứ điều gì và không thể chỉ lướt qua từng câu hỏi của hàng nghìn khách hàng để tìm điều gì đó có liên quan vì nó sẽ tốn thời gian và không hữu ích. Để giảm lãng phí thời gian và chi phí này và để làm cho công việc dễ dàng hơn, dữ liệu được thao tác thông qua phần mềm, tính toán, đồ thị, v.v. theo sự thuận tiện của riêng mình, suy luận từ dữ liệu được thao tác này là Thông tin. Vì vậy, Dữ liệu phải dành cho Thông tin. Bây giờ Tri thức có vai trò của nó trong việc phân biệt giữa hai cá nhân có cùng thông tin. Kiến thức thực chất không phải là một nội dung kỹ thuật mà gắn với quá trình tư duy của con người.

3. Thuộc tính của dữ liệu 

  • Khối lượng: Quy mô dữ liệu. Với dân số thế giới ngày càng tăng và công nghệ bị phơi nhiễm, dữ liệu khổng lồ đang được tạo ra từng mili giây.
  • Đa dạng: Các dạng dữ liệu khác nhau – chăm sóc sức khỏe, hình ảnh, video, đoạn âm thanh.
  • Tốc độ: Tốc độ truyền và tạo dữ liệu.
  • Giá trị: Ý nghĩa của dữ liệu về mặt thông tin mà các nhà nghiên cứu có thể suy ra từ nó.
  • Tính xác thực: Độ chắc chắn và đúng đắn trong dữ liệu mà chúng ta đang nghiên cứu.

4. Một số thông tin về Dữ liệu:

So với năm 2005, gấp 300 lần tức là 40 Zettabyte (1ZB = 10 ^ 21 byte) dữ liệu sẽ được tạo vào năm 2020.

Đến năm 2011, lĩnh vực chăm sóc sức khỏe có dữ liệu là 161 tỷ Gigabyte

400 triệu tweet được gửi bởi khoảng 200 triệu người dùng tích cực mỗi ngày

Mỗi tháng, hơn 4 Tỷ giờ phát trực tuyến video được thực hiện bởi người dùng.

30 Tỷ loại nội dung khác nhau được người dùng chia sẻ mỗi tháng.

Theo báo cáo, khoảng 27% dữ liệu không chính xác và do đó, cứ 3 nhà lãnh đạo hoặc lý tưởng kinh doanh thì có 1 người không tin tưởng vào thông tin mà họ đang đưa ra quyết định.

Các dữ kiện nêu trên chỉ là một cái nhìn thoáng qua về số liệu thống kê dữ liệu khổng lồ đang thực sự tồn tại. Khi chúng ta nói về bối cảnh thế giới thực, kích thước dữ liệu hiện đang có và đang được tạo ra từng khoảnh khắc vượt quá tầm tưởng tượng của chúng ta.

Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.

Nguồn và Tài liệu tiếng anh tham khảo:

Tài liệu từ cafedev:

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

Chào thân ái và quyết thắng!

Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you!