(data.gov.vn) Kiểm kê dữ liệu là một hạng mục quan trọng trong quá trình quản trị dữ liệu của bất kỳ tổ chức nào. Kiểm kê dữ liệu giúp đảm bảo quá trình duy trì và vận hành dữ liệu chặt chẽ, hạn chế sự cố an toàn an ninh dữ liệu, giúp dữ liệu duy trì được chất lượng, tổ chức làm chủ được các giá trị mà dữ liệu mang lại khi khai thác.
Trong cơ quan nhà nước hiện nay, vấn đề kiểm kê dữ liệu còn rất mới. Hoạt động kiểm kê dữ liệu gần như chưa được thực hiện. Trong các văn bản quy định pháp luật, kiểm kê dữ liệu mới được đưa vào Nghị định số 47/2020/NĐ-CP ngày 9/4/2020 về quản lý, kết nối và chia sẻ dữ liệu số của cơ quan nhà nước. Kiểm kê là một hoạt động thuộc kiểm tra, đánh giá dữ liệu được quy định tại Điều 16 của Nghị định. Các văn bản hướng dẫn chi tiết hoạt động này chưa có. Để tạo thuận lợi cho quá trình triển khai hoạt động kiểm kê dữ liệu trong cơ quan nhà nước, tài liệu này sẽ tổng kết một số kinh nghiệp được thu thập về hoạt động kiểm kê được triển khai trên thế giới để chúng ta có những hiểu biết cơ bản về hoạt động này.
Nội dung được trình bày trong bài này giúp cung cấp thông tin cho các cơ quan, đơn vị hiểu kiểm kê dữ liệu là gì và cách kiểm kê dữ liệu. Bắt đầu bằng cách giải thích các khái niệm cơ bản và lợi ích của kiểm kê dữ liệu. Tiếp đó, cung cấp thêm thông tin về các hoạt động cần phải thực hiện cũng như một số hướng dẫn cơ bản nhất để kiểm kê trong thực tế.
Kiểm kê dữ liệu là gì?
Kiểm kê dữ liệu quá trình rà soát dữ liệu và tạo lập kết quả là một bản ghi được mô tả đầy đủ về các tài sản dữ liệu được duy trì và vận hành bởi một cơ quan, tổ chức. Bản kiểm kê ghi lại thông tin cơ bản về tài sản dữ liệu bao gồm tên, nội dung, tần suất cập nhật, tiêu chuẩn tuân thủ, nguồn gốc, số lượng các thành phần dữ liệu, quyền sử dụng, lịch sử chia sẻ, nguồn dữ liệu và các chi tiết liên quan khác trong đó có cân nhắc về các yêu cầu đối với dữ liệu cá nhân, dữ liệu là tài sản trí tuệ... Các dữ liệu chi tiết về dữ liệu được gọi là siêu dữ liệu.
Vì các cơ quan, tổ chức có thể có hàng nghìn tập dữ liệu, bản ghi trên nhiều máy chủ, cơ sở dữ liệu và mạng máy tính, nên việc rà soát và lập danh sách, mô tả về hiện trạng của dữ liệu giúp người quản lý biết được thông tin tổng thể về dữ liệu mình có và làm cơ sở để lập kế hoạch xây dựng, cập nhật trong tương lai. Các tập dữ liệu đáng được kiểm kê là những tập dữ liệu có giá trị mang lại thông tin cho tổ chức, các cán bộ, nhân viên, đơn vị và lãnh đạo trong nội bộ và cả các cơ quan, tổ chức bên ngoài. Nội dung dữ liệu có thể bao gồm từ các tập dữ liệu riêng lẻ được thu thập và quản lý rời rạc trên các thiết bị đến cơ sở dữ liệu tích hợp lớn, các cơ sở dữ liệu phục vụ nghiệp vụ của cơ quan, tổ chức.
Một cách hình dung đơn giản nhất, kiểm kê dữ liệu có thể coi như là lập một bản đồ về dữ liệu (data map), điều này rất quan trọng do dữ liệu nếu phân tán, rời rạc ở các đơn vị khác nhau thì người quản lý sẽ không thể biết được cơ quan, đơn vị mình đang có dữ liệu gì. Việc rà soát sẽ giúp người quản lý có phương án điều chỉnh, cải thiện được hiệu quả của dữ liệu. Kết quả từ kiểm kê dữ liệu cũng có thể dẫn đến tối ưu hóa hiệu suất hoạt động, ra quyết định và báo cáo tổng thể tốt hơn.
Kiểm kê dữ liệu làm giảm rủi ro và sự không chắc chắn bằng cách tạo danh sách kiểm tra cho các yêu cầu về bảo mật và tuân thủ, đồng thời cải thiện khả năng chỉ định trách nhiệm giải trình của đơn vị quản lý đối với chất lượng dữ liệu được thu thập và tạo ra. Cũng như điều quan trọng đối với các cơ quan, đơn vị là biết họ có dữ liệu gì, điều quan trọng không kém là phải biết cơ quan, đơn vị không có dữ liệu nào. Với một bức tranh tổng thể và hoàn chỉnh, các cơ quan, đơn vị có thể bắt đầu thu thập và sử dụng dữ liệu để làm cơ sở để sắp xếp tốt hơn các mục tiêu sứ mệnh, tăng tính nhất quán và sự tự tin trong việc ra quyết định cũng như xây dựng hiệu suất thông minh.
Kiểm kê dữ liệu là rất quan trọng để chia sẻ và tích hợp tốt hơn, làm cơ sở để xây dựng kế hoạch cung cấp, chia sẻ dữ liệu bền vững. Cung cấp danh mục dữ liệu công khai sẽ làm cho công việc của cán bộ của các cơ quan, đơn vị dễ thuận lợi hơn khi tiếp cận khai thác dữ liệu từ các cơ quan, đơn vị khác, phương pháp để tiếp cận và khai thác dữ liệu cần. Kiểm kê dữ liệu cung mang lại lợi ích cho việc tiếp cận dữ liệu của người dân, doanh nghiệp đối với dữ liệu của cơ quan nhà nước. Có một bản kiểm kê đầy đủ cũng rất quan trọng khi xác định bộ dữ liệu nào sẽ phát hành công khai dưới dạng dữ liệu mở. Việc phát hành tất cả các bộ dữ liệu mở của cơ quan, tổ chức cùng một lúc là không khả thi, vì vậy những người ra quyết định cần có chiến lược ưu tiên. Kiểm kê dữ liệu có thể được sử dụng để hoạch định mức độ ưu tiên khi cung cấp dữ liệu mở theo các ưu tiên vì lợi ích công cộng, v.v.
Kiểm kê dữ liệu cũng giúp đánh giá và giảm thiểu rủi ro và về sử dụng dữ liệu kém chất lượng bằng cách lập một danh sách kiểm tra đảm bảo tuân thủ các yêu cầu về bảo mật. Bên cạnh đó, kiểm kê dữ liệu phục vụ cho việc gán trách nhiệm và đảm bảo trách nhiệm giải trình. Việc này sẽ giúp điều chỉnh theo hướng cải thiện lộ trình đạt được các mục tiêu, sứ mệnh của cơ quan, tổ chức; tăng độ tin cậy và tính nhất quán cũng như thực hiện các hoạt động nghiệp vụ thông tin, tăng cường hiệu suất lao động.
Nếu không có bản kiểm kê chính xác, việc đánh giá mọi rủi ro tiềm ẩn sẽ khó hơn nhiều, điều này có thể gây khó khăn hơn nữa trong việc xác định các biện pháp kiểm soát mà cơ quan, tổ chức cần để bảo vệ tài sản thông tin có giá trị.
Kiểm kê dữ liệu giúp các nhà lãnh đạo tổ chức hiểu tất cả dữ liệu đến từ đâu
Với nhiều luồng dữ liệu đi vào hệ thống thông tin của cơ quan, đơn vị, điều quan trọng là phải hiểu tất cả dữ liệu đến từ đâu để có thể tổ chức, truy cập, phân tích và bảo vệ nó tốt hơn:
Dưới đây là một số nguồn dữ liệu phổ biến cần xem xét:
-
Các hệ thống hỗ trợ nghiệp vụ nội bộ bao gồm hệ thống kế toán, quản lý văn bản, quản lý hành chính, hệ thống hỗ trợ nghiệp vụ, quản lý tri thức....
-
Hệ thống lưu trữ đám mây và lưu trữ trên đám mây dựa trên các sản phẩm và quy trình phần mềm dựa trên web.
-
Các hệ thống của bên thứ ba, chẳng hạn như nguồn cấp dữ liệu từ cơ quan, tổ chức, cá nhân bên ngoài hoặc cơ quan khác qua trao đổi dữ liệu điện tử (EDI), giao tiếp thông tin điện tử mà trước đó đã từng được giao tiếp qua giấy.
-
Nguồn dữ liệu bên ngoài có thể bao gồm bản đồ, vị trí địa lý hoặc thông tin từ các nguồn công cộng.
-
Nguồn dữ liệu có thể đến từ Internet of Things (IoT), từ các thiết bị như máy ảnh, điện thoại thông minh, cảm biến, camera...
Kiểm kê dữ liệu cung cấp các công cụ để truy cập thông tin tốt hơn
Có được thông tin chi tiết tốt hơn về loại dữ liệu bạn thu thập, nơi lưu trữ, chia sẻ dữ liệu với ai và cách chuyển dữ liệu đó sẽ cung cấp khả năng truy cập tốt hơn, ngoài các lợi ích đã đề cập trước đó.
Khả năng truy cập được cải thiện dựa trên việc tìm hiểu thêm về nơi dữ liệu được lưu trữ, các hệ thống khác nhau giao tiếp hoặc tích hợp như thế nào?, liệu có các khóa duy nhất để liên kết dữ liệu liên quan giữa các nguồn và liệu có trùng lặp hoặc xung đột có thể xảy ra giữa các nguồn dữ liệu khác nhau hay không.
Khi hiểu rõ về những vấn đề này, ta có thể tìm ra các phương pháp quản trị hợp lý để để truy cập dữ liệu nhanh chóng và dễ dàng.
Những điều cần lưu ý khi tiến hành kiểm kê dữ liệu
Quá trình kiểm kê dữ liệu, tạo lập danh sách dữ liệu, bản đồ bản đồ dữ liệu của cơ quan, tổ chức, cần lưu ý những cân nhắc sau:
-
Rà soát các đơn vị, phòng ban có nhiều khả năng chứa nhiều dữ liệu nhất.
-
Nắm giữ đầu mối là cán bộ liên hệ trong từng bộ phận để khi cần có thể thảo luận về dữ liệu mà cơ quan, đơn vị đó đang có.
-
Phương tiện giao tiếp tốt nhất với từng cán bộ, đầu mối liên hệ, ví dụ như phương pháp liên hệ với các cán bộ đầu mối email, điện thoại.
-
Các loại dữ liệu cá nhân cần thu thập trong cơ quan, tổ chức của mình và liệu cần thiết tìm hiểu thêm về lý do tại sao cơ quan, tổ chức của đang nắm giữ dữ liệu đó hay không.
-
Điều quan trọng nữa là phải biết dữ liệu được lưu giữ trong bao lâu, dữ liệu được truyền thường xuyên lưu trữ ở đâu và làm như thế nào hay phương pháp nào để bảo vệ.
-
Các bên liên quan trong tổ chức có thể có mối quan tâm đặc biệt đến kết quả kiểm kê dữ liệu, chẳng hạn như nhân viên bảo mật, giám đốc thông tin hoặc nhân viên bảo vệ dữ liệu.
-
Các hệ thống không hoạt động, cũng như các hệ thống đang hoạt động, để đảm bảo rằng bạn không bỏ sót dữ liệu có giá trị do vô tình để lại trong một hệ thống không còn tồn tại.
-
Hãy tính đến mọi quy định tuân thủ có thể có có thể ảnh hưởng đến dữ liệu và bản đồ dữ liệu của bạn, chẳng hạn như dữ liệu liên quan đến các cá nhân ở các quốc gia Châu Âu có thể phải tuân theo các quy tắc về quyền riêng tư của GDPR.
-
Năng lực và ràng buộc nguồn lực nội bộ, chẳng hạn như thời gian và đội ngũ nhân viên sẵn có, để tiến hành kiểm kê dữ liệu.
Phương pháp kiểm kê – kiểm kê dữ liệu bằng cách nào?
Không có phương pháp tiếp cận chung cho tất cả các cơ quan, đơn vị, tổ chức thậm chí với các cơ sở dữ liệu khác nhau.
Mặc dù có các nguyên tắc chung để thực hiện kiểm kê dữ liệu, chẳng hạn như xác định phạm vi và lập danh mục các tài sản dữ liệu, cơ sở dữ liệu, tập dữ liệu nhưng hầu hết các hướng dẫn, kiến thúc thông dụng đó có thể được tùy chỉnh để phù hợp với nhu cầu của mỗi cơ quan, tổ chức.
Để thực hiện việc kiểm kê, các chuyên gia dữ liệu phải nghiên cứu, xem xét nhu cầu của tổ chức đối với việc kiểm kê dữ liệu, kết quả kiểm kê dữ liệu và mong muốn trong việc quản trị dữ liệu của tổ chức. Chuyên gia dữ liệu sẽ xác định cách tiếp cận tốt nhất giúp các cơ quan, tổ chức thực hiện được các mục tiêu đề ra.
Trong trường hợp cơ quan, tổ chức không có các chuyên gia về dữ liệu, việc thuê các tổ chức, doanh nghiệp có hoạt động dữ liệu để kiểm kê dữ liệu nên được cân nhắc. Các doanh nghiệp, tổ chức có các cán bộ chuyên nghiệp và kinh nghiệm để thực hiện các công việc kiểm kê tiết kiệm thời gian, nhân lực và tiền bạc.
Cách tiến hành kiểm kê
Qua tổng hợp kinh nghiệm về kiểm kê của các tổ chức hoạt động về nội dung này, một số kinh nghiệm sau có thể cân nhắc để học hỏi, áp dụng vào hoạt động kiểm kê trong cơ quan, đơn vị mình trên thực tế. Quá trình kiểm kê dữ liệu được thực hiện theo các bước sau:
-
Bước 1: Thành lập nhóm thực hiện nhiệm vụ- Thực hiện kiểm kê dữ liệu giữa các đơn vị cần có sự phối hợp, giám sát và chỉ đạo. Bước đầu tiên để tiến hành kiểm kê là xác định ai sẽ chỉ đạo, quản lý quá trình kiểm kê. Nhóm thực hiện nhiệm vụ có thể có nhiều quy mô khác nhau và thường được xác định trong quy chế, chính sách, định hướng của các tổ chức. Một số trường hợp được lãnh đạo bởi Giám đốc dữ liệu (CDO), trong một số trường hợp, người chỉ đạo việc kiểm kê có thể là thuê nhân sự từ các doanh nghiệp hoặc chính lãnh đạo doanh nghiệp được thuê để thực hiện nhiệm vụ kiểm kê. Nhóm thực hiện nhiệm vụ kiểm kê là yếu tố quan trọng để thực hiện việc kiểm kê thành công.
-
Bước 2: Xác định phạm vi và kế hoạch kiểm kê dữ liệu - Nhóm thực hiện nhiệm vụ kiểm kê phải lập bản kế hoạch kiểm kê dữ liệu trong đó xác định rõ phạm vi dữ liệu cần kiểm kê.
Về phạm vi : Nếu phạm vi dữ liệu được kiểm kê có thể xác định trên cơ sở các quy định về quản lý dữ liệu, hiện trạng dữ liệu hiện có. Khi xác định phạm vi kiểm kê dữ liệu, cần xem xét những điều sau:
Các cơ sở dữ liệu, tập dữ liệu đã được đầu tư xây dựng, nhắc đến trong các văn bản, chính sách của cơ quan tổ chức được đưa vào phạm vi kiểm kê.
Phạm vi kiểm kê bao gồm các dữ liệu được xác định thuộc phạm vi quản lý của cơ quan. Phân biệt với dữ liệu có liên quan nhưng không thuộc phạm vi mình quản lý. Ví dụ các địa phương cần phân biệt dữ liệu do địa phương xây dựng với dữ liệu do bộ, ngành triển khai theo ngành dọc và quản lý thống nhất tại trung ương. Trong trường hợp này, địa phương chỉ thực hiện kiểm kê dữ liệu do mình quản lý.
Về kế hoạch kiểm kê dữ liệu: một số nội dung sau cần đưa vào kế hoạch kiểm kê bao gồm: siêu dữ liệu; thời hạn; các yêu cầu về kiểm kê theo kế hoạch;
-
Bước 3: Lập danh mục dữ liệu phù hợp với kế hoạch kiểm kê – Việc kiểm kê phải lập thành các mẫu kiểm kê để đảm bảo thống nhất kết quả kiểm kê. Các cán bộ kiểm kê cần phân thành các nhóm của người quản lý và chịu trách nhiệm. Mỗi nhóm thực hiện một phạm vi nhất định. Người quản lý chính của kiểm kê dữ liệu tổng hợp các kiểm kê của từng bộ phận thành một kiểm kê dữ liệu trên phạm vi toàn cơ quan, đơn vị. Định dạng kết quả kiểm kê phải được lập vào bảng có cấu trúc, sử dụng các định dạng máy có thể đọc được như Excel, CSV, JSON, XML v.v.
-
Bước 4: Kiểm tra chất lượng kết quả kiểm kê dữ liệu: Đây là bước xác nhận dữ liệu sau khi đã kiểm kê. Cơ quan có thẩm quyền sẽ tiến hành đánh giá báo cáo kiểm kê dữ liệu để xác định các hoạt động tiếp theo cần thực hiện với dữ liệu. Ví dụ sẽ công bố công khai, đưa vào khai thác hay thực hiện các hoạt động bảo trì.
-
Bước 5: Đưa dữ liệu vào khai thác. Đây là bước cuối cùng để thực hiện xuất bản dữ liệu.
Kiểm kê là một hoạt động rất quan trọng để đảm bảo dữ liệu được đánh giá và duy trì chất lượng. Nghị định 47/2020/NĐ-CP đã có quy định dữ liệu phải được đánh giá, kiểm kê hàng năm. Qua bài tổng hợp này, chúng ta rút ra được một số kinh nghiệm để hỗ trợ cho quá trình kiểm kê dữ liệu. Tuy các nội dung này chưa thực sự sát với các quy định hiện nay tại Nghị định 47 nhưng trong thời gian chưa có các quy định chi tiết hơn, các kinh nghiệm được đúc kết này cũng có giá trị định hướng, gợi mở cho chúng ta triển khai các hoạt động tiếp theo.
Tài liệu tham khảo:
https://gbq.com/data-inventory-what-do-you-have/
https://labs.centerforgov.org/data-governance/data-inventory/
https://www.researchgate.net/publication/327631764_How_to_create_a_data_inventory
Tin xem nhiều

Các câu hỏi để kiểm tra mức độ an toàn khi chia sẻ dữ liệu
- Tổng quan về mô hình hóa dữ liệu (Lượt đọc: 20758)
- Công nghệ tiêu chuẩn của kiến trúc Dịch vụ Web service (Lượt đọc: 18225)
- Kinh tế dữ liệu Châu Âu, hiện trạng và định hướng đến 2025 (Lượt đọc: 17244)
- Quản lý dữ liệu và các nguyên tắc quản lý dữ liệu tốt (Lượt đọc: 16618)
- Nghiên cứu và phân tích các mô hình cơ sở dữ liệu phổ biến (Lượt đọc: 12020)
- Tổng quan 7 điểm cơ bản về quản trị dữ liệu (Lượt đọc: 8125)
- Dữ liệu chủ và xác định dữ liệu chủ (Lượt đọc: 7824)
- Xác định cơ sở dữ liệu quốc gia và những điểm mới quy định về cơ sở dữ liệu quốc gia tại Nghị định 47/2020/NĐ-CP (Lượt đọc: 7350)
- Hướng dẫn mô hình công dân trong tổng thể các CSDL trong CQNN (Lượt đọc: 6175)
- Hiện trạng triển khai các Cơ sở dữ liệu quốc gia (Lượt đọc: 5859)
- Ứng dụng công nghệ thông tin trong điều tra thống kê và chia sẻ dữ liệu với các bộ, ngành (Lượt đọc: 5639)
- Phương pháp phân tích dữ liệu của Trung tâm phân tích dữ liệu thông minh tại Ấn Độ- CEDA (Lượt đọc: 5108)
- Tiêu chuẩn Lược đồ XML 1.1 (eXtensible Markup Language Schema 1.1 – XSD 1.1) (Lượt đọc: 5003)
- Bộ Thông tin và Truyền thông xin ý kiến về Chiến lược dữ liệu quốc gia (Lượt đọc: 4821)
- Hiểu đúng về chính phủ Mở (Lượt đọc: 4557)
- Hướng dẫn tuân thủ các yêu cầu cơ bản về tính năng, chức năng, đặc tính cung cấp dữ liệu của CSDLQG (Lượt đọc: 4179)
- Long An ban hành danh mục cơ sở dữ liệu dùng chung của tỉnh (Lượt đọc: 4173)
- Những thành phần cơ bản của XML (Lượt đọc: 3951)
- 61 cơ quan, đơn vị đã kết nối, liên thông dữ liệu qua nền tảng NGSP do Bộ TT&TT xây dựng (Lượt đọc: 3881)