(data.gov.vn) Trong bài trước đã giới thiệu về mô hình tổ chức và hoạt động cung cấp dịch vụ của Trung tâm phân tích dữ liệu thông minh của Ấn Độ - CEDA. Trung tâm này sẽ cung cấp các dịch vụ cho các cơ quan Chính phủ để khai thác và hiểu sâu về dữ liệu hiện trạng cũng như cung cấp các thông tin về quy luật của các hoạt động đã sảy ra và dự đoán, dự báo cho các hoạt động trong tương lai. Trong bài này, ta sẽ nghiên cứu và tìm hiểu sâu hơn về quá trình thực hiện các hoạt động cung cấp các dịch vụ phân tích dữ liệu này và mô hình cung cấp dịch vụ cho cơ quan Chính phủ.
Trong bài trước đã giới thiệu về mô hình tổ chức và hoạt động cung cấp dịch vụ của Trung tâm phân tích dữ liệu thông minh của Ấn Độ - CEDA. Trung tâm này sẽ cung cấp các dịch vụ cho các cơ quan Chính phủ để khai thác và hiểu sâu về dữ liệu hiện trạng cũng như cung cấp các thông tin về quy luật của các hoạt động đã sảy ra và dự đoán, dự báo cho các hoạt động trong tương lai.
Trong bài này, ta sẽ nghiên cứu và tìm hiểu sâu hơn về quá trình thực hiện các hoạt động cung cấp các dịch vụ phân tích dữ liệu này và mô hình cung cấp dịch vụ cho cơ quan Chính phủ.
CEDA cung cấp các dịch vụ phân tích dữ liệu cho chính phủ một cách hiệu quả và an toàn thông qua kho lưu trữ các công cụ và công nghệ tiên tiến. Quy trình thực hiện xử lý phân tích dữ liệu bao gồm:
-
Xác định nhu cầu phân tích dữ liệu của các cơ quan có nhu cầu.
-
Xác định các bộ dữ liệu cần thiết để đáp ứng nhu cầu phân tích
-
Xác định quyền truy cập vào các nguồn dữ liệu liên quan (cả trong và ngoài Chính phủ)
-
Xây dựng các giải pháp phân tích dữ liệu cần thiết
-
Xử lý dữ liệu riêng rẽ được thu được từ các phòng, ban và xây dựng phương án tích hợp.
-
Thiết lập và xử lý tập dữ liệu lớn bằng các giải pháp dữ liệu lớn Bigdata.
-
Phát triển và triển khai giải pháp nghiệp vụ thông minh Business Intelligence và cung cấp trên nền tảng bảng điều khiển giám sát.
-
Sử dụng các thuật toán học máy để phân tích nâng cao
Các giai đoạn của phân tích dữ liệu
Quá trình phân tích dữ liệu là một quá trình dần dần làm sáng tỏ những hiểu biết sâu sắc có ý nghĩa từ lượng lớn dữ liệu thu thập được. Quá trình này thường được thực hiện thông qua một tập hợp các quy trình hướng dữ liệu để đạt được các thông tin kết quả cần thiết ở giai đoạn cuối cùng theo dự kiến. Quy trình khai thác dữ liệu được sử dụng có tên là CRISP-DM là một phương pháp phân tích dữ liệu khá mạnh.
Vòng đời của bất kỳ dự án phân tích dữ liệu nào bao gồm sáu giai đoạn. Trình tự các giai đoạn không cứng nhắc mà linh hoạt. Việc dịch chuyển qua lại giữa các giai đoạn khác nhau có thể sảy ra bất cứ khi nào. Kết quả của mỗi giai đoạn xác định có thể sử dụng cho giai đoạn tiếp theo. Các mũi tên chỉ ra sự phụ thuộc thường xuyên và quan trọng nhất giữa các giai đoạn.
Quá trình phân tích có tính chất chu kỳ và không kết thúc khi một giải pháp được triển khai. Các kết quả tích lũy trong quá trình này và từ giải pháp đã triển khai có thể kích hoạt các bài toán cần lời giải mới, thường tập trung, hội tụ hơn. Các quy trình phân tích dữ liệu tiếp theo sẽ được tận dụng và xử lý trên cơ sở các kết quả được tích lũy từ những quy trình trước đó. Cụ thể từng giai đoạn như sau:
Giai đoạn một - Xác định mục tiêu, yêu cầu
Đây là bước đầu tiên trong quá trình phân tích dữ liệu. Các tổ chức sẽ bắt đầu với một hoặc nhiều vấn đề mà họ có thể muốn thăm dò và phân tích và xác nhận bằng cách sử dụng dữ liệu và tìm ra giải pháp. Các báo cáo có thể bao gồm từ việc tìm hiểu xem chương trình đang được thực hiện bởi tổ chức có đạt được kết quả mong đợi hay không đến việc khám phá các mối quan hệ mới giữa các lĩnh vực để có thể xây dựng các chính sách và chương trình mới. Ở giai đoạn này, nhóm phân tích dữ liệu cần hiểu biết toàn diện về lĩnh vực hoạt động của tổ chức và hiểu rõ vấn đề mà tổ chức đó muốn kiểm tra thông qua một loạt các phiên thảo luận với các cán bộ chuyên môn
Giai đoạn hai – Tìm hiểu dữ liệu
Khi lĩnh vực nghiệp vụ và các lĩnh vực vấn đề đã được hiểu đầy đủ chi tiết, bước tiếp theo sẽ là hiểu các tập dữ liệu có sẵn trong từng bộ phận, phòng ban. Dữ liệu có thể có sẵn theo một nguồn dữ liệu duy nhất hoặc có thể nằm ở nhiều nguồn dữ liệu trong cùng một bộ phận, phòng ban hoặc thậm chí giữa các bộ phận, phòng, ban. Đôi khi, dữ liệu từ các nguồn bên ngoài cơ quan Chính phủ cũng có thể cần được sử dụng. Dữ liệu có thể có cấu trúc, bán cấu trúc hoặc không có cấu trúc. Việc kiểm tra sơ bộ dữ liệu có thể mang lại những thông tin chi tiết được ẩn giấu, những thông tin bổ sung mà người sử dụng không thể nhìn thấy ngay hoặc những thông tin chưa rõ ràng. Những thông tin chi tiết bổ sung này có thể được chia sẻ, phản ánh với các bộ phận, phòng, ban để hoàn thiện và làm đầu vào cho quá trình phân tích dữ liệu.
Giai đoạn ba - Chuẩn bị dữ liệu
Trước khi đi sâu vào mô hình hóa, cần phải hiểu rằng những hiểu biết sâu sắc thu được từ việc đánh giá sơ bộ dữ liệu. Chất lượng dữ liệu là thước đo tính chính xác, hợp lệ và đầy đủ của dữ liệu và tạo nền tảng cho triển khai phân tích đạt kết quả tốt. Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cần thiết để xây dựng tập dữ liệu đầu vào (dữ liệu sẽ được đưa vào công cụ mô hình hóa) từ dữ liệu thô ban đầu. Các công việc chuẩn bị dữ liệu có thể được thực hiện nhiều lần và không theo bất kỳ thứ tự quy định nào. Mức độ chuẩn bị dữ liệu có thể thay đổi dựa trên bản chất của mô hình sẽ được sử dụng và có thể bao gồm, trong số những người khác, việc tạo ra các tính năng hoặc thuộc tính mới hoặc sự chuyển đổi của các thuộc tính hiện có.
Giai đoạn bốn - Lập mô hình
Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau được lựa chọn và áp dụng, đồng thời các thông số của chúng được hiệu chỉnh đến các giá trị tối ưu. Luôn luôn lấy mẫu đại diện của dữ liệu bằng cách sử dụng các kỹ thuật lấy mẫu thích hợp và mô hình được tạo bằng cách sử dụng các thuật toán thống kê hoặc máy học thích hợp. Sau đó, mô hình đã tạo được xác thực dựa trên dữ liệu thử nghiệm để xem mô hình mô tả tình huống thực tế gần như thế nào. Thông thường, có một số kỹ thuật cho cùng một loại vấn đề khai thác dữ liệu. Một số kỹ thuật có các yêu cầu cụ thể về dạng dữ liệu. Do đó, quay lại giai đoạn chuẩn bị dữ liệu thường là cần thiết.
Giai đoạn năm - Đánh giá
Trước khi tiến hành triển khai mô hình cuối cùng, điều quan trọng là phải đánh giá kỹ lưỡng mô hình và xem xét các bước đã thực hiện để tạo ra mô hình đó, để chắc chắn rằng mô hình đạt được các mục tiêu nghiệp vụ một cách chính xác. Thông tin chi tiết rút ra từ mô hình đã hoàn thiện sẽ được xác minh với người sử dụng để xem liệu nó có phù hợp hay không. Bất kỳ điểm bất thường nào do người sử dụng chỉ ra đều khiến nhóm phân tích quay lại bảng vẽ để xem có vấn đề nào được bỏ qua hay không. Mục tiêu chính là xác định xem có vấn đề quan trọng nào đó chưa được xem xét đầy đủ hay không. Vào cuối giai đoạn này, sẽ đạt được quyết định về việc sử dụng kết quả phân tích dữ liệu.
Giai đoạn sáu - Triển khai
Việc tạo ra mô hình nói chung không phải là kết thúc của dự án. Kiến thức thu được trong toàn bộ vòng đời của dự án sẽ cần được tổ chức và trình bày theo cách mà tổ chức có thể sử dụng nó. Kết quả có thể được trình bày dưới dạng báo cáo hoặc được trình bày theo cách thân thiện với người dùng bằng cách sử dụng các công cụ trực quan. Trực quan hóa dữ liệu giúp mô tả kết quả phân tích cho người dùng dưới dạng trực quan để người dùng có thể hiểu và diễn giải tốt hơn những thông tin chi tiết do phân tích dữ liệu cung cấp. Tùy thuộc vào yêu cầu, giai đoạn triển khai có thể đơn giản như tạo báo cáo hoặc phức tạp như thực hiện quy trình khai thác dữ liệu có thể lặp lại trong toàn doanh nghiệp.
Mô hình dịch vụ được cung cấp bởi CEDA
Để triển cung cấp dịch vụ theo quy trình trên, CEDA sẽ cung cấp dịch vụ theo mô hình như sau:
CEDA sẽ cung cấp các dịch vụ của mình theo hình thức có tính chi phí cho các cơ quan nhà nước có nhu cầu. Việc cung cấp các dịch vụ theo một số điểm sau:
1. Giải pháp phân tích dữ liệu
Dựa trên các yêu cầu mà cơ quan Chính phủ đặt đầu bài, CEDA xây dựng giải pháp phân tích dữ liệu theo yêu cầu. Chi phí cho giải pháp sẽ thay đổi tùy thuộc vào phạm vi yêu cầu và do CEDA xác định dựa trên khối lượng thực hiện. Giải pháp có thể được xây dựng dựa trên các công cụ và phần mềm nguồn mở hoàn toàn hoặc bằng cách sử dụng các công cụ, phần mềm thương mại. Nếu giải pháp hoàn toàn là mã nguồn mở, thì cơ quan sử dụng dịch vụ sẽ không chụ phí bản quyền. Tuy nhiên, nếu cần thiết phải đầu tư các phần mềm bản quyền thì CEDA sẽ tính chi phí trong tổng chi phí cung cấp giải pháp.
2. Triển khai thực hiện
Sau khi giải pháp được xây dựng cần được triển khai trên máy chủ hoặc điện toán đám mây để người dùng cuối có thể truy cập và sử dụng các dịch vụ này. Các tùy chọn của dịch vụ bao gồm:
-
Lưu trữ nó trong Trung tâm Dữ liệu của cơ quan nhà nước có nhu cầu.
-
Lưu trữ nó trên đám mây của NICSI - Trong trường hợp này, cơ quan có nhu cầu phải trả phí hạ tầng điện toán đám mây để sử dụng dịch vụ
Cả hai mô hình triển khai hạ tầng nêu trên thì giải pháp phân tích dữ liệu sẽ được sở hữu bởi cơ quan đặt hàng. Cơ quan đặt hàng giữ bản quyền giải pháp sử dụng.
3. Hỗ trợ
Khi giải pháp phân tích dữ liệu được triển khai cho cơ quan, CEDA sẽ cung cấp hai hình thức hỗ trợ:
Hỗ trợ Tiêu chuẩn – CEDA sẽ cung cấp cung cấp dịch vụ bao gồm:
-
Quản lý hệ thống đảm bảo tính khả dụng của giải pháp 24x7
-
Cung cấp đào tạo một lần cho những người dùng cuối có liên quan.
-
Cung cấp chuyên gia hỗ trợ trong thời gian sáu tháng, các chuyên gia dữ liệu sẽ giúp các cán bộ, nhân viên của cơ quan sử dụng dịch vụ sử dụng các giải pháp, chức năng phân tích dữ liệu, giám sát việc vận hành hệ thống. Các chuyên gia cũng sẽ trao đổi, hỗ trợ về mặt kỹ thuật liên quan đến giải pháp đã triển khai.
4. Hỗ trợ đặc biệt – CEDA sẽ tính phí đăng ký hàng năm để duy trì và sự hỗ trợ về phân tích dữ liệu bao gồm cả việc phát sinh những yêu cầu mới trong thời gian cung cấp dịch vụ..
Tài liệu thao khảo:
Tin xem nhiều

Các câu hỏi để kiểm tra mức độ an toàn khi chia sẻ dữ liệu
- Tổng quan về mô hình hóa dữ liệu (Lượt đọc: 20759)
- Công nghệ tiêu chuẩn của kiến trúc Dịch vụ Web service (Lượt đọc: 18226)
- Kinh tế dữ liệu Châu Âu, hiện trạng và định hướng đến 2025 (Lượt đọc: 17245)
- Quản lý dữ liệu và các nguyên tắc quản lý dữ liệu tốt (Lượt đọc: 16619)
- Nghiên cứu và phân tích các mô hình cơ sở dữ liệu phổ biến (Lượt đọc: 12020)
- Tổng quan 7 điểm cơ bản về quản trị dữ liệu (Lượt đọc: 8125)
- Dữ liệu chủ và xác định dữ liệu chủ (Lượt đọc: 7827)
- Xác định cơ sở dữ liệu quốc gia và những điểm mới quy định về cơ sở dữ liệu quốc gia tại Nghị định 47/2020/NĐ-CP (Lượt đọc: 7351)
- Hướng dẫn mô hình công dân trong tổng thể các CSDL trong CQNN (Lượt đọc: 6176)
- Hiện trạng triển khai các Cơ sở dữ liệu quốc gia (Lượt đọc: 5859)
- Ứng dụng công nghệ thông tin trong điều tra thống kê và chia sẻ dữ liệu với các bộ, ngành (Lượt đọc: 5640)
- Phương pháp phân tích dữ liệu của Trung tâm phân tích dữ liệu thông minh tại Ấn Độ- CEDA (Lượt đọc: 5110)
- Tiêu chuẩn Lược đồ XML 1.1 (eXtensible Markup Language Schema 1.1 – XSD 1.1) (Lượt đọc: 5003)
- Bộ Thông tin và Truyền thông xin ý kiến về Chiến lược dữ liệu quốc gia (Lượt đọc: 4821)
- Hiểu đúng về chính phủ Mở (Lượt đọc: 4557)
- Hướng dẫn tuân thủ các yêu cầu cơ bản về tính năng, chức năng, đặc tính cung cấp dữ liệu của CSDLQG (Lượt đọc: 4179)
- Long An ban hành danh mục cơ sở dữ liệu dùng chung của tỉnh (Lượt đọc: 4173)
- Những thành phần cơ bản của XML (Lượt đọc: 3951)
- 61 cơ quan, đơn vị đã kết nối, liên thông dữ liệu qua nền tảng NGSP do Bộ TT&TT xây dựng (Lượt đọc: 3881)