angle-left null Phương pháp phân tích dữ liệu của Trung tâm phân tích dữ liệu thông minh tại Ấn Độ- CEDA
Trang chủ

04/10/2020 22:31

(data.gov.vn) Tiếp nối các bài về kinh nghiệm triển khai Trung tâm phân tích dữ liệu cho Chính phủ Ấn Độ. Trong hai bài trước ta đã nghiên cứu sơ bộ về tổng quan sự thành lập của CEDA, các dịch vụ cung cấp và quy trình cung cấp dịch vụ. Trong bài này, chúng ta sẽ nghiên cứu chuyên sâu hơn về các kỹ thuật, phương pháp phân tích được sử dụng để cung cấp dịch vụ.

Trước tiên cùng nhắc lại Trung tâm phân tích dữ liệu thông minh của Chính phủ Ấn độ CEDA được thành lập bởi sự hợp tác của Trung tâm thông tin quốc gia – NIC và Trung tâm dịch vụ thông tin quốc gia – NICSI. Trong đó NIC là đơn vị chịu trách nhiệm về mặt kỹ thuật chuyên môn. Giải pháp của NIC cho phép người khách hang triển khai phân tích dữ liệu tại trung tâm dữ liệu của mình cũng như có thể thuê và sử dụng trung tâm dữ liệu thuê dưới dạng điện toán đám mây.

Về hạ tầng, phân tích dữ liệu yêu cầu năng lực cơ sở hạ tầng mạnh có khả năng lưu trữ và xử lý lượng dữ liệu lớn. Về nền tảng, tùy theo mục đích sử dụng mà người dùng có thể chọn nền tảng Hadoop (Big Data) hoặc các công nghệ xử lý dữ liệu phân tán để xây dựng hạ tầng các hệ thống phân tích, xử lý dữ liệu của mình

Việc triển khai các giai đoạn phân tích dữ liệu phụ thuộc vào đặc điểm dữ liệu và các công cụ phân tích dữ liệu phù hợp.  Về đặc điểm dữ liệu, có hai loại dữ liệu là dữ liệu truyền thống và dữ liệu lớn. Về phân tích dữ liệu có 4 phương pháp phân tích dữ liệu theo độ phức tạo và kết quả phân tích.

Đặc điểm dữ liệu

Dữ liệu thường được phân loại thành dữ liệu truyền thống và dữ liệu lớn dựa trên ba đặc điểm chính của dữ liệu: khối lượng, sự thay đổi và sự đa dạng. Dữ liệu truyền thống đề cập đến dữ liệu được nhận với khối lượng dữ liệu và sự thay đổi có thể quản lý được. Dữ liệu truyền thống cũng thường có cấu trúc cao, phổ biến nhất ở dạng cơ sở dữ liệu quan hệ và phần lớn được lưu trữ trong các lược đồ được xác định rõ ràng. Ví dụ về dữ liệu truyền thống là hầu hết dữ liệu được quản lý như một phần của các chương trình phần mềm, ứng dụng trong Chính phủ điện tử.

Mặt khác, dữ liệu lớn được phân biệt với dữ liệu truyền thông ở một hoặc cả ba đặc điểm trên. Nói cách khác, Dữ liệu lớn thường đề cập đến dữ liệu có khối lượng lớn, dữ liệu nhận được thay đổi rất nhanh (dữ liệu truyền trực tuyến) và/hoặc dữ liệu có nhiều cấu trúc hay cấu trúc đa dạng – dữ liệu có định dạng khác nhau bao gồm có cấu trúc, bán cấu trúc và phi cấu trúc. Ví dụ như các loại dữ liệu đa dạng như dưới dạng văn bản, video, âm thanh, hình ảnh, v.v.

Ví dụ về dữ liệu lớn bao gồm cơ sở dữ liệu khối lượng lớn như cơ sở dữ liệu về thông tin thời tiết; dữ liệu truyền trực tuyến với sự thay đổi nhanh như dữ liệu có nguồn đầu vào đến từ các thiết bi IOT hay nhiều loại dữ liệu thu thập được được từ mạng xã hội, phương tiện truyền thông như Twitter và Facebook, YouTube, v.v.

Do tính chất khác nhau của dữ liệu, các dữ liệu này cần được xử lý bởi các phương pháp và sử dụng các công cụ khác so với dữ liệu truyền thống. Dữ liệu truyền thống thường sử dụng mô hình kiến ​​trúc tập trung trong đó việc xử lý dữ liệu được thực hiện bởi một hệ thống đơn, chẳng hạn như hệ quản trị cơ sở dữ liệu quan hệ (RDBMS). Các máy chủ cơ sở dữ liệu thường được triển khai bằng các máy mạnh để cải thiện hiệu suất và khả năng chịu lỗi.

Mặt khác, vì các đặc điểm đặc thù dữ liệu lớn; dữ liệu lớn thường được xử lý theo cách phân tán với hàng trăm, đôi khi hàng nghìn thiết bị phần cứng, thường là các thiết bị có chi phí thấp. Việc xử lý song song dữ liệu cho phép xử lý nhanh hơn với số lượng lớn. Các hệ thống phân tán  cũng được xây dựng có khả năng chịu lỗi cao. Ngoài ra, các công cụ dữ liệu lớn cho phép tập hợp nhiều loại dữ liệu khác nhau từ các nguồn khác nhau vào một kho dữ liệu duy nhất để có thể thực hiện phân tích trên dữ liệu không đồng nhất.

Các phương pháp phân tích dữ liệu

Gartner mô tả bốn loại khả năng phân tích khác nhau dựa trên nhu cầu về dữ liệu và được sắp xếp theo mức độ khó và giá trị thông tin mang lại. Chúng bao gồm phân tích mô tả, chẩn đoán, dự đoán và đề xuất. Bốn khả năng phân tích này cũng khác nhau về mức độ cần thiết của con người để đi đến quyết định và cuối cùng là lựa chọn phương án. CEDA cung cấp các giải pháp cho Chính phủ sử dụng tất cả giải pháp phân tích. Các giải pháp phân tích cụ thể:

  1. Phân tích mô tả - Bước đầu tiên trong phân tích là luôn hiểu điều gì đã xảy ra để có thể thực hiện hành động thích hợp. Luôn luôn đặt các câu hỏi để xác định các trả lời bằng nhiều chỉ số hiệu suất, truy vấn và báo cáo. Ví dụ có thể có số lượng bao nhiêu người thụ hưởng theo khu vực, mức độ dịch vụ trung bình giữa các huyện, v.v. Khả năng này đòi hỏi sự tham gia của con người ở tất cả các khâu bao gồm diễn giải kết quả, đưa ra quyết định và cuối cùng là hành động theo quyết định. Thống kê mô tả, màn hình KPI, bảng điều khiển, v.v. là một số công cụ hữu ích trong việc thực hiện loại phân tích này.

  2. Phân tích chẩn đoán - Phân tích mô tả nhắc người dùng đặt thêm câu hỏi để cố gắng tìm ra lời giải hoặc xu hướng cụ thể. Phân tích chẩn đoán cố gắng tìm câu trả lời cho những câu hỏi này thông qua phân tích chi tiết hơn và phân tích mối quan hệ với dữ liệu khác. Ví dụ, nếu mức độ dịch vụ công ở một đơn vị hành chính kém, thì những câu hỏi cần được trả lời: có thể có các đơn vị phục vụ trong đơn vị hành chính đó hoạt động kém không?, liệu số lượng hồ sơ nhận được trong dơn vị hành chính đó có quá nhiều hay không và cuối cùng là liệu có đủ nhân lực phục vụ ở các đơn vị hành chính đó hay không?. Một cái nhìn toàn cảnh 360o về dữ liệu liên quan sẽ cung cấp khả năng chẩn đoán phục vụ người ra quyết định, giúp họ dễ dàng hơn trong việc lý giải tại sao và như thế nào một điều gì đó đã xảy ra. Hình khối OLAP, trang tổng quan cho phép xem 360 độ, phân tích tương quan, v.v. là một số kỹ thuật được sử dụng để thực hiện phân tích chẩn đoán. Ở kỹ thuật phân tích này mức độ tương tác của người sử dụng cũng rất cao; tuy nhiên, các công cụ và kỹ thuật giúp thực hiện phân tích dễ dàng và nhanh chóng hơn.

  3. Phân tích dự đoán- Khả năng này trả lời câu hỏi "Điều gì sẽ xảy ra?" Nó sử dụng các thuật toán thống kê và học máy để cung cấp cho những người ra quyết định cái nhìn về tương lai để họ có thể chủ động hành động nhằm đảm bảo kết quả mong muốn. Đối với một số người, phân tích dự đoán có thể là một bước tiếp theo từ phân tích mô tả và chẩn đoán để hiểu liệu các xu hướng hoặc hành vi hiện tại có tiếp tục trong tương lai hay không. Trong những trường hợp khác, đó có thể là một nhu cầu nghiệp vụ liên tiếp, chẳng hạn như dự báo giá cả hàng hóa trong tương lai để có thể thực hiện tốt các hành động thích ứng kịp thời. Các thuật toán phân tích dự đoán sử dụng quy trình hai giai đoạn để đi đến dự đoán: đầu tiên là giai đoạn đào tạo trong đó dữ liệu lịch sử được sử dụng để đào tạo và xây dựng mô hình; thứ hai, giai đoạn thực thi trong đó mô hình được sử dụng để đưa ra dự đoán. Ví dụ về phân tích dự đoán bao gồm dự đoán liệu người nộp thuế có vỡ nợ hay không dựa trên mô hình được xây dựng dựa trên các hành vi lịch sử của người vỡ nợ. Một ví dụ khác là dự báo doanh thu, giá cả hàng hóa, không. các ứng dụng sẽ được nhận cho một dịch vụ cụ thể, v.v. Các kỹ thuật như phân tích hồi quy, phân tích chuỗi thời gian, mạng nơron, hồi quy logistic, rừng ngẫu nhiên, mô hình tổng hợp, v.v. được sử dụng trong phân tích dự đoán. Trong phân tích dự đoán, đầu vào của người dùng trong việc xây dựng mô hình và dự đoán bị giảm đáng kể; tuy nhiên, quyết định hành động dựa trên các dự đoán vẫn được trao cho người dùng. các ứng dụng sẽ được nhận cho một dịch vụ cụ thể, v.v. Các kỹ thuật như phân tích hồi quy, phân tích chuỗi thời gian, mạng nơron, hồi quy logistic, rừng ngẫu nhiên, mô hình tổng hợp, v.v. được sử dụng trong phân tích dự đoán. Trong phân tích dự đoán, đầu vào của người dùng trong việc xây dựng mô hình và dự đoán bị giảm đáng kể; tuy nhiên, quyết định hành động dựa trên các dự đoán vẫn được trao cho người dùng. Các ứng dụng sẽ được nhận cho một dịch vụ cụ thể, v.v. Các kỹ thuật như phân tích hồi quy, phân tích chuỗi thời gian, mạng nơ ron, hồi quy logistic, rừng ngẫu nhiên, mô hình tổng hợp, v.v. được sử dụng trong phân tích dự đoán. Trong phân tích dự đoán, đầu vào của người dùng trong việc xây dựng mô hình và dự đoán bị giảm đáng kể; tuy nhiên, quyết định hành động dựa trên các dự đoán vẫn được trao cho người dùng.

  4. Phân tích đề xuất- Phân tích đề xuất nâng khả năng lên một cấp độ hoàn toàn mới bằng cách cung cấp cho người ra quyết định quyết định tốt nhất trong khuôn khổ của một tập hợp các mục tiêu và ràng buộc nhất định. Nó có thể đưa ra một quyết định mà dựa trên đó người ra quyết định có thể thực hiện lời kêu gọi hành động hoặc tự động hóa hành động đó. Nó luôn sử dụng các thuật toán tối ưu hóa phức tạp để đi đến quyết định đưa ra một tập hợp các ràng buộc. Phân tích đề xuất thường được sử dụng cùng với phân tích dự đoán vì bất kỳ quyết định nào cho tương lai sẽ phải cân nhắc đến dự đoán của kịch bản trong tương lai. Một ví dụ về phân tích đề xuất có thể là xác định mức giảm mà từ đó một cửa hàng giá hợp lý nên chọn các loại ngũ cốc thực phẩm do những hạn chế về thời gian và chi phí đi lại,

Trong mô hình bậc thang phân tích dữ liệu, độ phức tạp của các mô hình tăng lên. Tuy nhiên, mỗi phương pháp phân tích dữ liệu giải quyết các giai đoạn khác nhau của quá trình quyết định và do đó cần được sử dụng kết hợp để xây dựng một mức độ trưởng thành của việc ứng dụng khoa học dữ liệu phục vụ ra quyết định dựa trên dữ liệu, dựa trên thực tế.

 Kết luận:

CEDA là một mô hình mới, là sự tiếp cận của Chính phủ Ấn độ khi triển khai các hoạt động ứng dụng công nghệ thông tin trong Chính phủ điện tử trong đó đặt dữ liệu là trọng tâm. CEDA là kết quả của quá trình hợp tác giữa các cơ quan để tận dụng thế mạnh của nhau cùng phối hợp để phân tích dữ liệu chuyên sâu cung cấp cho các cơ quan nhà nước từ Trung ương đến địa phương. Đây cũng là một mô hình đáng để cân nhắc và học tập áp dụng khi Việt Nam đang thúc đẩy quá trình chuyển số, xác định dữ liệu là trọng tâm khi xây dựng Chính phủ điện tử hướng tới chính phủ số.

  1.  

    Tài liệu thao khảo:

    http://ceda.gov.in

    https://www.nic.in/

    https://nicsi.com/


Tin xem nhiều

placeholder image

Các câu hỏi để kiểm tra mức độ an toàn khi chia sẻ dữ liệu