Google Cloud AI và Nền tảng học máy đang thiếu một số phần và nhiều thứ vẫn đang trong giai đoạn thử nghiệm, nhưng phạm vi và chất lượng của nó thì không ai sánh kịp.

Google có một trong những hệ thống máy học lớn nhất trong ngành, hiện đang tập trung vào Google Cloud AI và Nền tảng máy học. Cách đây nhiều năm, Google đã tách TensorFlow ra làm nguồn mở, nhưng TensorFlow vẫn là framework sâu và hoàn thiện nhất và được trích dẫn rộng rãi. Tương tự, cách đây nhiều năm, Google đã tách Kubernetes ra làm nguồn mở, nhưng nó vẫn là hệ thống quản lý vùng chứa thống trị.

Google là một trong những nguồn cung cấp công cụ và cơ sở hạ tầng hàng đầu cho các developer,, nhà khoa học dữ liệu và chuyên gia học máy, nhưng về mặt lịch sử, AI của Google không hề hấp dẫn đối với các nhà phân tích kinh doanh, những người thiếu kiến ​​thức về khoa học dữ liệu hoặc lập trình. Điều đó đang bắt đầu thay đổi.

Nền tảng AI và Máy học của Google Cloud bao gồm các khối xây dựng AI, nền tảng AI và trình tăng tốc cũng như các giải pháp AI. Các giải pháp AI khá mới và nhắm đến các nhà quản lý doanh nghiệp hơn là các nhà khoa học dữ liệu. Chúng có thể bao gồm tư vấn từ Google hoặc các đối tác của Google.

Các block xây dựng AI, được đào tạo trước nhưng có thể tùy chỉnh, có thể được sử dụng mà không cần kiến ​​thức sâu sắc về lập trình hoặc khoa học dữ liệu. Tuy nhiên, chúng thường được các nhà khoa học dữ liệu lành nghề sử dụng vì những lý do thực dụng, về cơ bản là để hoàn thành công việc mà không cần đào tạo mô hình rộng rãi.

Nền tảng AI và máy gia tốc thường dành cho các nhà khoa học dữ liệu nghiêm túc và đòi hỏi kỹ năng viết code, kiến ​​thức về kỹ thuật chuẩn bị dữ liệu và nhiều thời gian đào tạo. Tôi khuyên bạn chỉ nên đến đó sau khi thử các khối xây dựng có liên quan.

Vẫn còn thiếu một số liên kết trong các dịch vụ AI của Google Cloud, đặc biệt là trong khâu chuẩn bị dữ liệu. Điều gần nhất mà Google Cloud có đối với dịch vụ nhập và điều chỉnh dữ liệu là Cloud Dataprep bên thứ ba của Trifacta; Tôi đã thử nó một năm trước và bị choáng ngợp. Tuy nhiên, kỹ thuật này được tích hợp trong Cloud AutoML Tables rất hứa hẹn và sẽ rất hữu ích nếu có sẵn loại dịch vụ đó cho các tình huống khác.

Mặt dưới của AI liên quan đến đạo đức và trách nhiệm (hoặc sự thiếu sót), cùng với các thành kiến ​​mô hình dai dẳng (thường là do dữ liệu thiên vị được sử dụng để đào tạo). Google đã xuất bản Nguyên tắc AI của mình vào năm 2018. Đây là một công việc đang được tiến hành, nhưng đó là cơ sở để hướng dẫn như đã thảo luận trong một bài đăng blog gần đây về AI có trách nhiệm.

Có rất nhiều cạnh tranh trên thị trường AI (hơn một chục nhà cung cấp) và rất nhiều cạnh tranh trong thị trường đám mây công cộng (hơn nửa tá nhà cung cấp đáng tin cậy).. Để so sánh rõ ràng nhất, tôi có thể tóm tắt: AWS làm hầu hết những gì Google làm và cũng rất tốt, nhưng nhìn chung tính giá cao hơn.

Các khối xây dựng AI của Google Cloud không yêu cầu nhiều chuyên môn về máy học, thay vào đó được xây dựng dựa trên các mô hình được đào tạo trước và đào tạo tự động. Nền tảng AI cho phép bạn đào tạo và triển khai các mô hình học máy và học sâu của riêng mình.

1.Khối xây dựng AI trên đám mây của Google

Khối xây dựng AI trên đám mây của Google là các thành phần dễ sử dụng mà bạn có thể kết hợp vào các ứng dụng của riêng mình để thêm hình ảnh, ngôn ngữ, hội thoại và dữ liệu có cấu trúc. Nhiều khối xây dựng AI là mạng thần kinh được đào tạo trước, nhưng có thể được tùy chỉnh bằng tính năng học truyền và tìm kiếm mạng thần kinh nếu chúng không đáp ứng được nhu cầu của bạn. AutoML Tables hơi khác một chút, ở chỗ nó tự động hóa quy trình mà nhà khoa học dữ liệu sẽ sử dụng để tìm ra mô hình học máy tốt nhất cho tập dữ liệu dạng bảng.

2. AutoML

Các dịch vụ Google Cloud AutoML cung cấp sâu các mạng thần kinh được tùy chỉnh để dịch cặp ngôn ngữ, phân loại văn bản, phát hiện đối tượng, phân loại hình ảnh cũng như phân loại và theo dõi đối tượng video. Họ yêu cầu dữ liệu được gắn thẻ để đào tạo, nhưng không yêu cầu kiến ​​thức đáng kể về học sâu, học chuyển tiếp hoặc lập trình.

Google Cloud AutoML tùy chỉnh các mạng thần kinh sâu có độ chính xác cao đã được thử nghiệm của Google cho dữ liệu được gắn thẻ của bạn. Thay vì bắt đầu từ đầu khi đào tạo mô hình từ dữ liệu của bạn, AutoML triển khai học truyền sâu tự động (nghĩa là nó bắt đầu từ một mạng nơ-ron sâu hiện có được đào tạo trên dữ liệu khác) và tìm kiếm kiến ​​trúc thần kinh (nghĩa là nó tìm thấy sự kết hợp phù hợp của các lớp mạng bổ sung ) để dịch cặp ngôn ngữ và các dịch vụ khác được liệt kê ở trên.

Trong mỗi lĩnh vực, Google đã có một hoặc nhiều dịch vụ được đào tạo trước dựa trên mạng nơ-ron sâu và tập hợp dữ liệu được gắn nhãn khổng lồ. Những điều này có thể hoạt động tốt đối với dữ liệu của bạn không bị sửa đổi và bạn nên kiểm tra điều đó để tiết kiệm thời gian và tiền bạc. Nếu họ không làm những gì bạn cần, Google Cloud AutoML sẽ giúp bạn tạo một mô hình làm được điều đó mà không yêu cầu bạn biết cách thực hiện quá trình học chuyển giao hoặc cách thiết kế mạng nơ-ron.

Học chuyển giao mang lại hai lợi thế lớn so với việc đào tạo một mạng nơ-ron từ đầu. Đầu tiên, nó yêu cầu ít dữ liệu hơn rất nhiều để đào tạo, vì hầu hết các lớp của mạng đã được đào tạo tốt. Thứ hai, nó đào tạo nhanh hơn rất nhiều, vì nó chỉ tối ưu hóa các lớp cuối cùng.

Mặc dù các dịch vụ Google Cloud AutoML từng được trình bày cùng nhau dưới dạng một gói, nhưng giờ đây chúng được liệt kê với các dịch vụ được đào tạo trước cơ sở của chúng. Điều mà hầu hết các công ty khác gọi là AutoML được thực hiện bởi Google Cloud AutoML Tables.

Tôi đã thử nghiệm một công cụ phân loại hoa tùy chỉnh AutoML Vision mà tôi đã đào tạo trong một giờ từ các hình ảnh mẫu của Google, với một bức ảnh hoa tulip mà tôi chụp tại một bảo tàng nghệ thuật gần đó.

3. Bảng AutoML

Quy trình khoa học dữ liệu thông thường cho nhiều vấn đề hồi quy và phân loại là tạo một bảng dữ liệu để đào tạo, làm sạch và điều chỉnh dữ liệu, thực hiện kỹ thuật tính năng và cố gắng đào tạo tất cả các mô hình thích hợp trên bảng đã chuyển đổi, bao gồm một bước để tối ưu hóa siêu tham số của các mô hình tốt nhất. Bảng AutoML của Google Cloud có thể tự động thực hiện toàn bộ quá trình này sau khi bạn xác định trường mục tiêu theo cách thủ công.

AutoML Table tự động tìm kiếm dữ liệu có cấu trúc trong vườn bách thú mô hình của Google để tìm ra mô hình tốt nhất cho nhu cầu của bạn, từ các mô hình hồi quy tuyến tính / logistic cho các tập dữ liệu đơn giản hơn cho đến các phương pháp tìm kiếm kiến ​​trúc sâu, tổng thể và nâng cao cho các mô hình lớn hơn, phức tạp hơn. Nó tự động hóa kỹ thuật tính năng trên một loạt các nguyên thủy dữ liệu dạng bảng – chẳng hạn như số, lớp, chuỗi, dấu thời gian và danh sách – đồng thời giúp bạn phát hiện và xử lý các giá trị bị thiếu, giá trị ngoại lệ và các vấn đề dữ liệu phổ biến khác.

Giao diện không mã của nó hướng dẫn bạn toàn bộ vòng đời máy học từ đầu đến cuối, giúp mọi người trong nhóm của bạn dễ dàng xây dựng các mô hình và kết hợp chúng vào các ứng dụng rộng lớn hơn một cách đáng tin cậy. AutoML Tables cung cấp dữ liệu đầu vào mở rộng và các tính năng giải thích hành vi của mô hình, cùng với các lan can để ngăn ngừa các lỗi thường gặp. Bảng AutoML cũng có sẵn trong môi trường API và sổ ghi chép.

AutoML Table cạnh tranh với Driverless AI và một số khuôn khổ và triển khai AutoML khác.

4. API Vision

API Google Cloud Vision là một dịch vụ học máy được đào tạo trước để phân loại hình ảnh và trích xuất các tính năng khác nhau. Nó có thể phân loại hình ảnh thành hàng nghìn danh mục được đào tạo trước, từ các vật thể và động vật chung chung được tìm thấy trong hình ảnh (chẳng hạn như con mèo), đến các điều kiện chung (ví dụ: hoàng hôn), đến các địa danh cụ thể (Tháp Eiffel, Hẻm núi lớn), và xác định các thuộc tính chung của hình ảnh, chẳng hạn như màu sắc chủ đạo của nó. Nó có thể cô lập các khu vực là khuôn mặt, sau đó áp dụng phân tích hình học (hướng khuôn mặt và các điểm mốc) và phân tích cảm xúc cho khuôn mặt, mặc dù nó không nhận dạng khuôn mặt là của những người cụ thể, ngoại trừ những người nổi tiếng (yêu cầu giấy phép sử dụng đặc biệt). Vision API sử dụng OCR để phát hiện văn bản bên trong hình ảnh bằng hơn 50 ngôn ngữ và nhiều loại tệp khác nhau. Nó cũng có thể xác định logo sản phẩm và phát hiện nội dung người lớn, bạo lực và y tế.

5. API video thông minh(Video Intelligence API)

API Google Cloud Video Intelligence tự động nhận dạng hơn 20.000 đối tượng, địa điểm và hành động trong video được lưu trữ và phát trực tuyến. Nó cũng phân biệt các thay đổi cảnh và trích xuất siêu dữ liệu phong phú ở cấp video, cảnh quay hoặc khung hình. Nó cũng thực hiện phát hiện và trích xuất văn bản bằng OCR, phát hiện nội dung khiêu dâm, tự động hóa phụ đề và phụ đề, nhận dạng biểu trưng và phát hiện khuôn mặt, người và tư thế.

Google đề xuất API Video Intelligence để trích xuất siêu dữ liệu để lập chỉ mục, sắp xếp và tìm kiếm nội dung video của bạn. Nó có thể phiên âm video và tạo phụ đề, cũng như gắn cờ và lọc nội dung không phù hợp, tất cả đều tiết kiệm chi phí hơn so với người sao chép. Các trường hợp sử dụng bao gồm kiểm duyệt nội dung, đề xuất nội dung, lưu trữ phương tiện và quảng cáo theo ngữ cảnh.

IDGT API ngôn ngữ tự nhiên trên đám mây của Google tìm các thực thể, tình cảm, cú pháp và danh mục. Ở đây, chúng ta thấy sơ đồ cú pháp cho hai câu từ một thông cáo báo chí của Google.

6. API ngôn ngữ tự nhiên(Natural Language API)

Xử lý ngôn ngữ tự nhiên (NLP) là một phần quan trọng của “nước sốt bí mật” giúp đầu vào cho Google Tìm kiếm và Trợ lý Google hoạt động tốt. API ngôn ngữ tự nhiên trên đám mây của Google đưa ra công nghệ tương tự cho các chương trình của bạn. Nó có thể thực hiện phân tích cú pháp (xem hình ảnh bên dưới), trích xuất thực thể, phân tích tình cảm và phân loại nội dung, bằng 10 ngôn ngữ. Bạn có thể chỉ định ngôn ngữ nếu bạn biết nó; nếu không, API sẽ cố gắng tự động phát hiện ngôn ngữ. Một API riêng biệt, hiện có sẵn để truy cập sớm theo yêu cầu, chuyên về nội dung liên quan đến chăm sóc sức khỏe.

7. Dịch(Translation)

API dịch thuật đám mây của Google có thể dịch hơn một trăm cặp ngôn ngữ, có thể tự động phát hiện ngôn ngữ nguồn nếu bạn không chỉ định ngôn ngữ đó và có ba phiên bản: Cơ bản, Nâng cao và Dịch phương tiện. API dịch nâng cao hỗ trợ bảng thuật ngữ, dịch hàng loạt và sử dụng các mô hình tùy chỉnh. API dịch cơ bản về cơ bản là thứ được sử dụng bởi giao diện Google Dịch của người tiêu dùng. Dịch thuật AutoML cho phép bạn đào tạo các mô hình tùy chỉnh bằng cách sử dụng học chuyển giao.

API dịch phương tiện dịch nội dung trực tiếp từ âm thanh (lời nói), tệp âm thanh hoặc luồng, bằng 12 ngôn ngữ và tự động tạo dấu câu. Có các mô hình riêng biệt cho âm thanh cuộc gọi video và điện thoại.

Các nguồn kiến thức từ cafedev:

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

Chào thân ái và quyết thắng!