Học sâu là gì?


(Tín dụng: Shutterstock / prawest, patrice6000)

Học sâu, một kỹ thuật trí tuệ nhân tạo tiên tiến, ngày càng trở nên phổ biến trong vài năm qua, nhờ dữ liệu dồi dào và sức mạnh tính toán tăng lên. Đó là công nghệ chính đằng sau nhiều ứng dụng chúng ta sử dụng hàng ngày, bao gồm dịch ngôn ngữ trực tuyến, tự động gắn thẻ khuôn mặt trên mạng xã hội, trả lời thông minh trong email của bạn và làn sóng mô hình thế hệ mới. Mặc dù học sâu không phải là mới, nhưng nó đã được hưởng lợi nhiều từ dữ liệu sẵn có hơn và những tiến bộ trong điện toán.

ChatGPT, chatbot được hỗ trợ bởi AI đã trở thành ứng dụng phát triển nhanh nhất mọi thời đại(Mở ra trong một cửa sổ mới), được cung cấp bởi một mô hình học sâu đã được đào tạo dựa trên hàng tỷ từ được thu thập từ internet. DALL-E, Midjourney và Stable Diffusion, các hệ thống AI có thể tạo hình ảnh từ mô tả văn bản, là các hệ thống học sâu mô hình hóa mối quan hệ giữa hình ảnh và mô tả văn bản.


Học sâu so với học máy

Học sâu là một tập hợp con của học máy, một nhánh của trí tuệ nhân tạo cấu hình máy tính để thực hiện các tác vụ thông qua kinh nghiệm. Trái ngược với các hệ thống AI cổ điển, dựa trên quy tắc, các thuật toán máy học phát triển hành vi của chúng bằng cách xử lý các ví dụ có chú thích, một quá trình gọi là “đào tạo”.

Chẳng hạn, để tạo một chương trình phát hiện gian lận, bạn sẽ đào tạo một thuật toán máy học với danh sách các giao dịch ngân hàng và kết quả cuối cùng của chúng (hợp pháp hoặc gian lận). Mô hình học máy kiểm tra các ví dụ và phát triển biểu diễn thống kê về các đặc điểm chung giữa các giao dịch hợp pháp và gian lận.

Sau đó, khi bạn cung cấp cho thuật toán dữ liệu của một giao dịch ngân hàng mới, thuật toán sẽ phân loại giao dịch đó là hợp pháp hay lừa đảo dựa trên các mẫu thu thập được từ các ví dụ đào tạo. Theo nguyên tắc thông thường, bạn càng cung cấp nhiều dữ liệu chất lượng cao thì thuật toán máy học càng chính xác hơn khi thực hiện các tác vụ của nó.

Học máy đặc biệt hữu ích trong việc giải quyết các vấn đề mà các quy tắc không được xác định rõ ràng và không thể mã hóa thành các lệnh riêng biệt. Các loại thuật toán khác nhau vượt trội ở các nhiệm vụ khác nhau.


Học sâu và mạng lưới thần kinh

Mặc dù các thuật toán học máy cổ điển giải quyết được nhiều vấn đề mà các chương trình dựa trên quy tắc gặp khó khăn, nhưng chúng lại kém trong việc xử lý dữ liệu mềm như hình ảnh, video, tệp âm thanh và văn bản phi cấu trúc.

Chẳng hạn, việc tạo ra một mô hình dự đoán ung thư vú bằng cách sử dụng các phương pháp học máy cổ điển sẽ đòi hỏi nỗ lực của hàng chục chuyên gia lĩnh vực, lập trình viên máy tính và nhà toán học, theo nhà nghiên cứu AI và nhà khoa học dữ liệu Jeremy Howard trong video trên.

Các nhà nghiên cứu sẽ phải thực hiện rất nhiều kỹ thuật tính năng, một quy trình gian khổ lập trình máy tính để tìm các mẫu đã biết trong quá trình quét X-quang và MRI. Sau đó, các kỹ sư sử dụng công nghệ máy học trên các tính năng được trích xuất. Việc tạo ra một mô hình AI như vậy phải mất nhiều năm.

Mạng lưới thần kinh nhân tạo

Mạng thần kinh nhân tạo (Tín dụng: Wikipedia)

Các thuật toán học sâu giải quyết cùng một vấn đề bằng cách sử dụng mạng lưới thần kinh sâu, một loại kiến ​​trúc phần mềm lấy cảm hứng từ bộ não con người (mặc dù mạng thần kinh khác với tế bào thần kinh sinh học(Mở ra trong một cửa sổ mới)). Mạng lưới thần kinh là các lớp trên các lớp biến tự điều chỉnh theo các thuộc tính của dữ liệu mà chúng được đào tạo và có khả năng thực hiện các tác vụ như phân loại hình ảnh và chuyển đổi lời nói thành văn bản.

Mạng lưới thần kinh đặc biệt giỏi trong việc tìm kiếm một cách độc lập các mẫu phổ biến trong dữ liệu phi cấu trúc. Ví dụ: khi bạn đào tạo một mạng lưới thần kinh sâu trên hình ảnh của các đối tượng khác nhau, nó sẽ tìm cách trích xuất các đặc điểm từ những hình ảnh đó. Mỗi lớp của mạng thần kinh phát hiện các tính năng cụ thể như cạnh, góc, khuôn mặt, nhãn cầu, v.v.

các lớp mạng nơ-ron

Các lớp trên cùng của mạng thần kinh phát hiện các tính năng chung. Các lớp sâu hơn phát hiện các đối tượng thực tế. (Tín dụng: arxiv.org)

Mạng lưới thần kinh đã tồn tại từ những năm 1950 (ít nhất là về mặt khái niệm). Nhưng cho đến gần đây, cộng đồng AI phần lớn đã loại bỏ chúng vì chúng yêu cầu một lượng lớn dữ liệu và sức mạnh tính toán. Trong vài năm qua, tính sẵn có và khả năng chi trả của các tài nguyên lưu trữ, dữ liệu và máy tính đã đẩy các mạng thần kinh lên hàng đầu trong đổi mới AI.

Ngày nay, có nhiều loại kiến ​​trúc học sâu khác nhau, mỗi loại phù hợp với các nhiệm vụ khác nhau. Mạng thần kinh chuyển đổi (CNN) đặc biệt tốt trong việc chụp các mẫu trong hình ảnh. Mạng thần kinh hồi quy (RNN) rất tốt trong việc xử lý dữ liệu tuần tự như giọng nói, văn bản và nốt nhạc. Mạng thần kinh đồ thị (GNN) có thể tìm hiểu và dự đoán mối quan hệ giữa dữ liệu đồ thị, chẳng hạn như mạng xã hội và mua hàng trực tuyến.

Một kiến ​​trúc học sâu đã trở nên rất phổ biến gần đây là máy biến áp(Mở ra trong một cửa sổ mới), được sử dụng trong các mô hình ngôn ngữ lớn (LLM) chẳng hạn như GPT-4 và ChatGPT. Transformers đặc biệt giỏi trong các nhiệm vụ ngôn ngữ và chúng có thể được đào tạo trên một lượng lớn văn bản thô.


Deep Learning được sử dụng để làm gì?

Có một số lĩnh vực mà học sâu đang giúp máy tính giải quyết các vấn đề nan giải trước đây:

Tầm nhìn máy tính

Thị giác máy tính là khoa học sử dụng phần mềm để hiểu nội dung của hình ảnh và video. Đây là một trong những lĩnh vực mà deep learning đã đạt được nhiều tiến bộ. Ngoài ung thư vú, các thuật toán xử lý hình ảnh học sâu có thể phát hiện các loại ung thư khác(Mở ra trong một cửa sổ mới) và giúp chẩn đoán các bệnh khác(Mở ra trong một cửa sổ mới).

Nhưng kiểu học sâu này cũng ăn sâu vào nhiều ứng dụng bạn sử dụng hàng ngày. Face ID của Apple sử dụng thị giác máy tính để nhận dạng khuôn mặt của bạn, cũng như Google Photos cho các tính năng khác nhau như tìm kiếm đối tượng và cảnh cũng như chỉnh sửa hình ảnh. Facebook đã sử dụng công nghệ học sâu để tự động gắn thẻ mọi người trong ảnh bạn tải lên, trước khi tính năng này ngừng hoạt động vào năm 2021.

Học sâu cũng giúp các công ty truyền thông xã hội tự động xác định và chặn nội dung đáng ngờ, chẳng hạn như bạo lực và ảnh khoả thân. Và cuối cùng, học sâu đang đóng một vai trò rất quan trọng trong việc cho phép ô tô tự lái hiểu được môi trường xung quanh.

Nhận dạng giọng nói và giọng nói

Khi bạn ra lệnh cho loa thông minh Amazon Echo hoặc Trợ lý Google, các thuật toán học sâu sẽ chuyển đổi giọng nói của bạn thành lệnh văn bản. Một số ứng dụng trực tuyến cũng sử dụng deep learning để phiên âm các tệp âm thanh và video. Ứng dụng bàn phím của Google, Gboard, sử dụng công nghệ học sâu để cung cấp bản ghi lời nói theo thời gian thực trên thiết bị mà bạn nhập khi bạn nói.

Xử lý và tạo ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP), khoa học trích xuất ý nghĩa của văn bản phi cấu trúc, đã từng là một điểm đau lịch sử đối với phần mềm cổ điển. Việc xác định tất cả các sắc thái khác nhau và ý nghĩa ẩn giấu của ngôn ngữ viết bằng các quy tắc máy tính là hầu như không thể. Nhưng các mạng thần kinh được đào tạo trên các khối văn bản lớn có thể thực hiện chính xác nhiều tác vụ NLP.

Dịch vụ dịch thuật của Google có hiệu suất tăng đột biến(Mở ra trong một cửa sổ mới) khi công ty chuyển sang học sâu. Loa thông minh sử dụng NLP học sâu để hiểu các sắc thái khác nhau của lệnh, chẳng hạn như các cách khác nhau mà bạn có thể hỏi về thời tiết hoặc chỉ đường.

Học sâu cũng rất hiệu quả trong việc tạo văn bản có ý nghĩa, còn được gọi là thế hệ ngôn ngữ tự nhiên (NLG). Tính năng Trả lời thông minh và Soạn thư thông minh của Gmail sử dụng công nghệ học sâu để đưa ra các phản hồi có liên quan cho email của bạn và các đề xuất để hoàn thành câu của bạn. Một mô hình tạo văn bản do OpenAI phát triển đã tạo ra các đoạn trích dài của văn bản mạch lạc.

Các mô hình ngôn ngữ lớn (LLM) chẳng hạn như ChatGPT của OpenAI có thể thực hiện nhiều tác vụ khác nhau, bao gồm tóm tắt văn bản, trả lời câu hỏi, viết bài và tạo mã phần mềm. LLM đang được tích hợp trong nhiều ứng dụng, bao gồm ứng dụng email và nhắn tin của công ty, ứng dụng năng suất và công cụ tìm kiếm.

Được giới thiệu bởi các biên tập viên của chúng tôi

Học máy là gì?

Trí tuệ nhân tạo (AI) là gì?

GPT-4 so với ChatGPT-3.5: Đâu là sự khác biệt?

thế hệ nghệ thuật

Một lĩnh vực mà học sâu đã trở nên rất hữu ích gần đây là tạo hình ảnh. Các mô hình như DALL-E và Stable Diffusion có thể tạo ra những hình ảnh tuyệt đẹp từ các mô tả bằng văn bản. Microsoft đã sử dụng DALL-E trong một số sản phẩm, bao gồm cả Designer. Adobe cũng đang sử dụng các mô hình tổng quát trong một số ứng dụng của mình.


bit và byte

(Tín dụng: fotograzia/Getty Images)

Giới hạn của Deep Learning

Mặc dù có tất cả những lợi ích của nó, học sâu cũng có một số nhược điểm.

Phụ thuộc dữ liệu

Nói chung, các thuật toán học sâu yêu cầu một lượng lớn dữ liệu đào tạo để thực hiện các nhiệm vụ của chúng một cách chính xác. Thật không may, không có đủ dữ liệu đào tạo chất lượng để tạo các mô hình học sâu có thể giải quyết nhiều loại vấn đề.

khả năng giải thích

Mạng lưới thần kinh phát triển hành vi của chúng theo những cách cực kỳ phức tạp—ngay cả những người tạo ra chúng cũng phải vật lộn để hiểu được hành động của chúng. Thiếu khả năng diễn giải khiến việc khắc phục lỗi và sửa lỗi trong các thuật toán học sâu trở nên vô cùng khó khăn.

Xu hướng thuật toán

Các thuật toán học sâu cũng tốt như dữ liệu mà chúng được đào tạo. Vấn đề là dữ liệu đào tạo thường chứa các sai lệch ẩn hoặc rõ ràng và các thuật toán kế thừa những sai lệch này. Ví dụ: thuật toán nhận dạng khuôn mặt được đào tạo chủ yếu dựa trên ảnh của người da trắng sẽ hoạt động kém chính xác hơn đối với những người không phải da trắng.

Thiếu khái quát hóa

Các thuật toán học sâu thực hiện tốt các nhiệm vụ tập trung nhưng kém trong việc khái quát hóa kiến ​​thức của chúng. Không giống như con người, một mô hình học sâu được đào tạo để chơi StarCraft sẽ không thể chơi một trò chơi tương tự—chẳng hạn như WarCraft.

Ngoài ra, deep learning kém trong việc xử lý dữ liệu sai lệch so với các ví dụ đào tạo của nó, còn được gọi là “trường hợp cạnh”. Điều này có thể trở nên nguy hiểm trong các tình huống như ô tô tự lái, nơi những sai lầm có thể gây ra hậu quả chết người.


dấu chấm hỏi ai là gì

(Tín dụng: Getty)

Tương lai của học sâu

Năm 2019, những người tiên phong trong lĩnh vực học sâu đã được trao Giải thưởng Turing, giải thưởng khoa học máy tính tương đương với Giải thưởng Nobel. Nhưng công việc về học sâu và mạng thần kinh còn lâu mới kết thúc. Nhiều nỗ lực khác nhau đang được thực hiện để cải thiện việc học sâu.

Một số công việc thú vị bao gồm các mô hình học sâu có thể giải thích hoặc mở để giải thích, các mạng thần kinh có thể phát triển hành vi của chúng với ít dữ liệu đào tạo hơn và các mô hình AI tiên tiến, các thuật toán học sâu có thể thực hiện các tác vụ của chúng mà không cần phụ thuộc vào tài nguyên điện toán đám mây lớn.

Và mặc dù học sâu hiện là kỹ thuật trí tuệ nhân tạo tiên tiến nhất, nhưng nó không phải là đích đến cuối cùng của ngành công nghiệp AI. Sự phát triển của học sâu và mạng thần kinh có thể mang đến cho chúng ta những kiến ​​trúc hoàn toàn mới.

Logo PCMag Robot AI này được tạo ra để trở thành người bạn tốt nhất của bạn

Nhận những câu chuyện hay nhất của chúng tôi!

Đăng ký cho Có gì mới bây giờ để nhận những câu chuyện hàng đầu của chúng tôi được gửi đến hộp thư đến của bạn mỗi sáng.



Bản tin này có thể chứa các liên kết quảng cáo, giao dịch hoặc liên kết. Đăng ký nhận bản tin cho biết bạn đồng ý với Điều khoản sử dụng và Chính sách quyền riêng tư của chúng tôi. Bạn có thể hủy đăng ký nhận bản tin bất cứ lúc nào.


Cảm ơn bạn đã đăng ký!

Đăng ký của bạn đã được xác nhận. Theo dõi hộp thư đến của bạn!

Đăng ký nhận các bản tin khác

Đánh giá bài post này
No Comments

Post A Comment

Solverwp- WordPress Theme and Plugin