angle-left null Các đặc điểm, yêu cầu của kiến trúc dữ liệu thế hệ mới
Trang chủ

10/11/2020 09:03

(data.gov.vn) Trong hầu hết các trường hợp, kiến ​​trúc dữ liệu xác định một tập hợp các sản phẩm và công cụ tiêu chuẩn mà một tổ chức sử dụng để quản lý dữ liệu. Bên cạnh đó, Kiến trúc dữ liệu xác định các quy trình để thu thập, chuyển đổi và cung cấp dữ liệu có thể sử dụng cho người dùng trong tổ chức. Quan trọng nhất, nó xác định những đối tượng sẽ sử dụng dữ liệu đó và các yêu cầu riêng của từng đối tượng. Một kiến ​​trúc dữ liệu tốt đáp ứng đầy đủ các yêu cầu xuất phát từ người sử dụng, mục đích sử dụng dữ liệu đến nguồn dữ liệu được tạo lập và khai thác.

 

Tuy nhiên, quá trình phát triển ứng dụng công nghệ thông tin có sự thay đổi và biến chuyển rất rõ nét. Điều đó kéo theo kiến trúc dữ liệu cũng dần thay đổi để đáp ứng và phù hợp với yêu cầu thực tế trong triển khai các hệ thống thông tin, các cơ sở dữ liệu. Theo truyền thống, các tổ chức đã xây dựng các kiến trúc dữ liệu tĩnh. Đó là thành lập các kho dữ liệu với các thiết kế cố định từ trước trên một nền tảng cụ thể. Đối với loại kiến trúc dữ liệu này, trong hầu hết các trường hợp cần phải một đội ngũ duy trì và thay đổi thiết kế khi có sự thay đổi theo yêu cầu của người sử dụng khai thác dữ liệu. Loại kiến trúc này có mức đầu tư tối thiểu nhưng mang lại hiệu quả cao. Kiến trúc dữ liệu loại này có thể cung cấp đa dạng dữ liệu theo nhiều chiều phục vụ các dạng báo cáo và phân tích dữ liệu của tổ chức, doanh nghiệp.

Bên cạnh kiến trúc dữ liệu truyền thống kể trên, hiện nay trong các tổ chức, doanh nghiệp đang định hình một loại kiến trúc dữ liệu mới, hiện đại hơn. Loại kiến trúc hiện đại này vẫn có thể được cung cấp một kho dữ liệu theo phương thức truyền thống nhưng mở rộng để đảm bảo có sự linh hoạt và thích ứng nhanh hơn. Kiến trúc dữ liệu hiện đại sẽ liên tục được điều chỉnh, thích nghi và phù hợp với yêu cầu thay đổi trên thực tế.

Mô hình kiến trúc dữ liệu mới tổng quát trong tổ chức:

 

Kiến trúc dữ liệu mới là sự tổng hòa của kiến trúc kho dữ liệu cũ và sự ứng dụng các công nghệ mới về khai phá dữ liệu. Nếu trong kiến trúc dữ liệu cũ, kho dữ liệu là yếu tố chủ đạo của kiến trúc, các kỹ sư dữ liệu truyền thông sử dụng các công nghệ của cơ sở dữ liệu quan hệ như ngôn ngữ truy vấn dữ liệu SQL, công cụ trích xuất, nạp dữ liệu, kho dữ liệu data warehouse thì trong kiến trúc dữ liệu mới bổ sung thêm một nhóm kỹ sư dữ liệu lớn với các công cụ liên quan để phân tích và khai phá dữ liệu lớn.

Theo kiến trúc dữ liệu mô hình mới, sau khi dữ liệu được thu thập từ nhiều nguồn vào hệ thống, dữ liệu sẽ được lưu trú tại vùng đệm bao gồm nhiều dữ liệu khác nhau với các định dạng, loại hình gọi là hồ dữ liệu (datalake). Dữ liệu sau đó được đưa vào DataHub. Dữ liệu trong DataHub được phân thành hai loại dữ liệu chính: nhóm dữ liệu đã được chuẩn hóa (dữ liệu chủ, dữ liệu tham chiếu…) và nhóm dữ liệu thô, sơ cấp (được tập hợp từ các nguồn và được phân loại).

Dữ liệu từ DataHub có thể được sử dụng phục vụ các hoạt động sau:

- Chuyển sang các nền tảng dữ liệu DataWarehouse, dataMart để phục vụ mục đích thống kê, báo cáo, trình diễn và giám sát.

- Được truy vấn và sử dụng thời gian thực trong các ứng dụng khai thác qua các dịch vụ dữ liệu API.

- Được trích xuất dữ liệu thông minh bởi các nền tảng xử lý dữ liệu lớn

- Sử dụng để phân tích bởi các công nghệ mới trong các hoạt động về khoa học dữ liệu.

Theo xu hướng phát triển của kiến trúc dữ liệu, kiến trúc dữ liệu thế hệ mới hiện nay có các đặc điểm sau:

Lấy người dùng làm trung tâm. Với kiến trúc dữ liệu thế hệ mới, thay vì tập trung vào dữ liệu hoặc công nghệ cần thiết để trích xuất, nhập, chuyển đổi và trình bày thông tin từ dữ liệu, kiến ​​trúc dữ liệu hiện đại xuất phát từ người dùng và các yêu cầu của người dùng để có thể tổ chức và khai thác dữ liệu phù hợp. Người dùng có thể là nội bộ hoặc bên ngoài một tổ chức và nhu cầu của họ thay đổi theo vai trò, chức năng, theo công việc và theo thời gian. Một kiến ​​trúc dữ liệu tốt liên tục phát triển để đáp ứng nhu cầu thông tin mới và thay đổi của người dùng.

Thích nghi. Trong kiến ​​trúc dữ liệu hiện đại, dữ liệu được thiết theo dòng chảy từ nguồn dữ liệu đến người dùng. Mục đích của kiến ​​trúc là quản lý luồng dữ liệu đó bằng cách tạo ra một loạt các kênh dữ liệu hai chiều và được kết nối với nhau phục vụ các nhu cầu nghiệp vụ khác nhau. Các kênh dữ liệu được xây dựng bằng cách sử dụng các đối tượng dữ liệu cơ sở - ảnh chụp nhanh dữ liệu, dữ liệu gia tăng, chế độ xem dữ liệu, dữ liệu tham chiếu, dữ liệu chủ và bảng phẳng, dữ liệu hướng chủ đề. Các đối tượng dữ liệu đóng vai trò như các khối thành phần liên tục được tái sử dụng và bổ sung để đảm bảo dòng chảy dữ liệu ổn định, tạo ra nguồn dữ liệu chất lượng cao cho tổ chức.

Tự động hóa. Để tạo ra một kiến ​​trúc thích ứng trong đó dòng chảy dữ liệu liên tục, các nhà thiết kế phải tự động hóa mọi thứ. Họ phải lập hồ sơ và gắn nhãn dữ liệu khi dữ liệu được nhập và ánh xạ dữ liệu đó với các tập dữ liệu và thuộc tính hiện có - một quy trình được gọi là bổ sung siêu dữ liệu – trong hoạt động thiết lập danh mục dữ liệu. Theo cách tương tự, họ cũng phải phát hiện các thay đổi trong lược đồ nguồn dữ liệu và xác định tác động của các thay đổi đối với các đối tượng người dùng sử dụng dữ liệu tại các ứng dụng cuối. Trong môi trường thời gian thực, dữ liệu bất thường phải được phát hiện và được thông báo cho các đối tượng thích hợp hoặc kích hoạt cảnh báo trong hệ thống giám sát tập trung của người quản trị.

Thông minh. Kiến trúc dữ liệu không chỉ là tự động hóa; nó sử dụng máy học và trí tuệ nhân tạo để xây dựng các đối tượng dữ liệu, bảng, chế độ trình diễn và mô hình giúp cho dữ liệu luôn lưu chuyển. Nó sử dụng trí thông minh thay thủ công để xác định các loại dữ liệu, các khóa chung và tham gia các đường dẫn, xác định và sửa lỗi chất lượng dữ liệu, lập bản đồ bảng, xác định mối quan hệ, đề xuất các bộ dữ liệu liên quan và phân tích, v.v. Kiến trúc dữ liệu hiện đại sử dụng trí thông minh để tìm hiểu, điều chỉnh, cảnh báo và khuyến nghị, giúp những người quản lý và sử dụng môi trường hiệu quả hơn.

Linh hoạt. Kiến ​​trúc dữ liệu hiện đại cần phải đủ linh hoạt để hỗ trợ nhiều nhu cầu nghiệp vụ. Nó cần hỗ trợ nhiều loại người dùng, hoạt động hiệu năng cao và tốc độ làm mới (xử lý hàng loạt, đa luồng), hoạt động truy vấn (tạo, đọc, cập nhật, xóa), triển khai (trong trung tâm dữ liệu riêng, đám mây công cộng, đám mây riêng, đám mây kết hợp), công cụ xử lý dữ liệu (quan hệ, OLAP, MapReduce, SQL, cơ sở dữ liệu đồ thị, lập bản đồ dữ liệu, lập trình) và các kênh dữ liệu (kho dữ liệu, data mart, khối OLAP, khám phá trực quan, ứng dụng hoạt động thời gian thực.) Một kiến ​​trúc dữ liệu hiện đại phải là sự tổng hợp của tất cả mọi công nghệ và phục vụ mọi đối tượng.

Hợp tác. Không giống như trước đây, nơi bộ phận công nghệ thông tin xây dựng mọi thứ, kiến ​​trúc dữ liệu hiện đại phân chia trách nhiệm thu thập và chuyển đổi dữ liệu giữa bộ phận công nghệ thông tin toàn tổ chức. Bộ phận công nghệ thông tin vẫn thực hiện công việc nhập dữ liệu từ các hệ thống hoạt động cốt lõi và tạo ra các khối thành phần có thể tái sử dụng chung. Nhưng từ đó, các đơn vị nghiệp vụ tiếp quản (nếu họ có đủ kỹ năng). Các kỹ sư và nhà phân tích dữ liệu trong các đơn vị nghiệp vụ sử dụng các công cụ tạo sẵn về dữ liệu và danh mục dữ liệu để tạo các tập dữ liệu tùy chỉnh, đồng thời sử dụng chúng để tạo và cung cấp các ứng dụng. Sự hợp tác này giải phóngcác cán bộ công nghệ thông tin khỏi việc phải biết bối cảnh nghiệp vụ và tập trung cho vấn đề phân tích dữ liệu chuyên sâu.

Được quản lý. Kiến trúc dữ liệu hiện đại xác định các điểm truy cập cho từng loại người dùng để đáp ứng các yêu cầu thông tin của họ. Một Kiến trúc tham chiếu cho phân tích dữ liệu phục vụ bốn loại đối tượng người dùng: người sử dụng dữ liệu, người khám phá dữ liệu, nhà phân tích dữ liệu và nhà khoa học dữ liệu. Ví dụ: các nhà khoa học dữ liệu cần được cấp quyền truy cập vào dữ liệu thô trong khu vực thu thập dữ liệu hoặc tốt nhất là thiết lập cơ chế SandBox xây dựng có mục đích, nơi các nhà khoa học có thể trộn các loại dữ liệu dữ liệu thô để phân tích ra các loại dữ liệu mới.

Đơn giản. Kiến ​​trúc đơn giản nhất là kiến ​​trúc tốt. Đây là một nhiệm vụ khó do sự đa dạng của các yêu cầu và sự phức tạp của các thành phần trong kiến ​​trúc dữ liệu mới hiện nay. Để áp dụng quy tắc này, một tổ chức có dữ liệu nhỏ có thể sử dụng các công cụ phân tích dữ liệu thông minh BI đạt hiệu quả tốt hơn bởi công cụ BI có môi trường quản lý dữ liệu tích hợp hơn là một hệ thống phức hợp lớn xử lý dữ liệu theo mạng lưới song song như hệ thống Hadoop. Để giảm độ phức tạp, các tổ chức nên cố gắng hạn chế việc di chuyển dữ liệu và nhân bản trùng lặp dữ liệu, đồng thời nên sử dụng một nền tảng cơ sở dữ liệu thống nhất bao gồm nền tảng quản lý dữ liệu và nền tảng phân tích.

Co giãn . Trong thời đại của dữ liệu lớn và khối lượng công việc thay đổi, các tổ chức cần một kiến ​​trúc có thể mở rộng, đàn hồi để thích ứng với các yêu cầu xử lý dữ liệu thay đổi theo yêu cầu. Nhiều công ty, tổ chức hiện đang ưu tiên sử dụng các nền tảng đám mây (cả khu vực công và tư) để có được khả năng mở rộng theo yêu cầu với chi phí hợp lý. Kiến trúc đàn hồi giải phóng người quản trị khỏi việc phải hiệu chỉnh chính xác dung lượng, giảm mức sử dụng nếu cần và đầu tư quá nhiều phần cứng. Tính đàn hồi cũng tạo ra nhiều loại ứng dụng và trường hợp sử dụng, chẳng hạn như môi trường phát triển và thử nghiệm theo yêu cầu, sẵn sàng cho cơ chế SandBox để triển khai nghiên cứu khoa học dữ liệu.

Bảo mật . Kiến trúc dữ liệu hiện đại phải cung cấp cho người dùng khả năng ủy quyền quyền truy cập vào dữ liệu trong khi ngăn chặn tin tặc và những kẻ xâm nhập. Nó cũng tuân thủ các quy định về quyền bảo mật thông tin cá nhân. Nó thực hiện điều này bằng cách mã hóa dữ liệu khi nhập, che dấu thông tin nhận dạng cá nhân và theo dõi tất cả các phần tử dữ liệu trong danh mục dữ liệu, bao gồm cách sử dụng và dấu vết dữ liệu thay đổi, truy cập. Quản lý vòng đời đảm bảo mỗi đối tượng dữ liệu có một chủ quản quản lý.

 

Tài liệu tham khảo:

https://www.eckerson.com/articles/ten-characteristics-of-a-modern-data-architecture

https://www.thedigitalgroup.com/data-solutions/data-management/data-architecture-model

 

 


Tin xem nhiều

placeholder image

Hiện trạng triển khai các Cơ sở dữ liệu quốc gia