angle-left null Tổng quan về mô hình hóa dữ liệu
Trang chủ

11/05/2020 11:12

(data.gov.vn) Người lập mô hình thông tin, người lập mô hình dữ liệu và các kiến trúc sư chịu trách nhiệm tạo ra các mô hình của một tổ chức thông tin bao trùm nhiều cấp độ trừu tượng, từ khái niệm đến logic và vật lý. Trong đó mô hình khái niệm độc lập về công nghệ, cho phép trình bày, thảo luận và thống nhất các khái niệm cơ bản trong miền

I. Tổng quan về mô hình dữ liệu

          Mô hình dữ liệu xác định dữ liệu, các thuộc tính dữ liệu và các mối quan hệ hoặc liên kết với dữ liệu khác. Mô hình dữ liệu cung cấp một cái nhìn tổng quát, do người dùng định nghĩa về dữ liệu đại diện cho kịch bản và dữ liệu nghiệp vụ.

          Mô hình dữ liệu bao gồm các đối tượng dữ liệu và giá trị dữ liệu. Các đối tượng mục (item) và thể loại (category) là các đối tượng cốt lõi trong mô hình dữ liệu, được xác định bởi đối tượng đặc tả (spec). Tập hợp các đối tượng mục là một danh mục (catalog). Đối tượng phân cấp (hierarchy) xác định một hình thức thứ bậc của tập hợp các danh mục.

          Mô hình hóa dữ liệu là quá trình tạo ra một mô hình dữ liệu. Khi tạo một mô hình dữ liệu, trước tiên phải xác định dữ liệu, các thuộc tính và mối quan hệ của nó với dữ liệu khác và xác định các ràng buộc hoặc giới hạn đối với dữ liệu. Ví dụ: có thể tạo mô hình dữ liệu cho sản phẩm trong đó thuộc tính nhà cung cấp của mặt hàng sản phẩm liên kết với id nhà cung cấp trong danh mục nhà cung cấp.

          Để xác định mô hình thành phần nào, thì phải hiểu rõ về miền Quản lý thông tin sản phẩm PIM (Product Information Management), IBM® InfoSphere® Master Data Management Collaboration Server (Máy chủ cộng tác quản lý dữ liệu chủ), và yêu cầu của khách hàng.

          Các yếu tố mô hình hóa dữ liệu bao gồm giao diện người dùng (UI User Interface), chuỗi công việc (Workflows) và tìm kiếm (Search).

Giao diện người dùng

          Giao diện người dùng ảnh hưởng đến mô hình dữ liệu để cho phép xác định các quy trình nghiệp vụ. Ví dụ: nếu tính năng đa chỉnh sửa được yêu cầu cho một nghiệp vụ, thì bạn phải lập mô hình UI phù hợp.

Chuỗi công việc

          Mô hình dữ liệu phải hỗ trợ chuỗi công việc bằng cách cung cấp quy trình nghiệp vụ từ đầu đến cuối (end-to-end) dựa trên vai trò của người dùng. Bạn phải kiểm tra nguyên mẫu của các quy trình nghiệp vụ điển hình và thực hiện kiểm tra xem thiết kế mô hình dữ liệu có hạn chế việc sử dụng quy trình công việc gốc không.

Tìm kiếm

          Mô hình dữ liệu phải tạo điều kiện tìm kiếm. Bạn phải hiểu cách người dùng sẽ tìm kiếm dữ liệu sản phẩm trước khi bạn tạo mô hình dữ liệu. Mô hình dữ liệu phải hỗ trợ tìm kiếm và yêu cầu ít tùy chỉnh giao diện người dùng UI cho người dùng.

          Chú ý: Tất cả các thuộc tính của một mục được lưu trữ ở dạng tuần tự trong cơ sở dữ liệu dưới dạng blob và không thể tìm kiếm trực tiếp. Các thuộc tính duy nhất được đánh dấu lập chỉ mục sẽ được lưu trữ trong bảng quan hệ cho phép tìm kiếm nhanh chóng và dễ dàng. Do đó, khi thiết kế mô hình dữ liệu, bạn cần đảm bảo chỉ đánh dấu các thuộc tính đó được lập chỉ mục cần được tìm kiếm một cách thường xuyên. Tuy nhiên, tránh lập chỉ mục tất cả các thuộc tính vì nó sẽ làm tăng nhu cầu không gian đĩa ở phía máy chủ cơ sở dữ liệu, do đó, ảnh hưởng đến hiệu suất của dữ liệu được truy cập.

          Để tạo mô hình dữ liệu thì cần phải xem xét các thuộc tính sản phẩm, dữ liệu nền tảng và phân loại sản phẩm.

          Thuộc tính sản phẩm là tập hợp các thuộc tính xác định sản phẩm.

          Các thuộc tính sản phẩm thường được nhóm thành một tập hợp các thuộc tính cốt lõi và phần mở rộng. Các thuộc tính cốt lõi là các thuộc tính chung cho tất cả các sản phẩm nghiệp vụ, ví dụ: thuộc tính UPC (UPC attribute). Các thuộc tính mở rộng dành riêng cho các loại hoặc danh mục sản phẩm nhất định, ví dụ: thuộc tính kích thước màn hình. Máy chủ cộng tác InfoSphere MDM (InfoSphere MDM Collaboration Server) cũng hỗ trợ dữ liệu quan hệ, ví dụ: cross-sell, up-sell và các dữ liệu quan hệ khác.

          Máy chủ cộng tác InfoSphere MDM đóng vai trò là một hệ thống bản ghi cho các thuộc tính tham chiếu.

          Những hạn chế

  • Xử lý các thuộc tính có tính chất giao dịch hoặc biến động bên ngoài hệ thống Quản lý thông tin sản phẩm PIM (Product Information Management) bằng cách sử dụng các ứng dụng tiêu thụ phù hợp. Ví dụ: giá hiện tại được xử lý bởi một công cụ định giá.

  • Không có mô hình hóa các thuộc tính có giá trị được lấy từ logic nghiệp vụ từ các ứng dụng bên ngoài trong hệ thống PIM. Bạn có thể giữ dữ liệu đó trong hệ thống PIM dưới dạng chỉ đọc, trên cơ sở đó, bạn cần một cơ chế cập nhật để giữ cho dữ liệu được đồng bộ hóa. Ngoài ra, việc giữ dữ liệu đó trong hệ thống PIM có thể thêm tải không cần thiết và yêu cầu về tính sẵn sàng cao.

Dữ liệu nền tảng (Foundation data)

          Dữ liệu nền tảng bao gồm mọi thực thể hỗ trợ và giá trị thuộc tính cần thiết để xác định sản phẩm. Ví dụ: dữ liệu nền tảng bao gồm danh sách các nhà cung cấp, địa điểm, nhãn hiệu sản phẩm và các thông tin liên quan khác.

Phân loại sản phẩm (Product classifications)

          Phân loại sản phẩm xác định cách các sản phẩm được nhóm lại với nhau, phục vụ cho một mục đích nghiệp vụ cụ thể như cơ cấu tổ chức hoặc điều hướng. Một sản phẩm có thể được phân loại theo nhiều cách. Ví dụ: có thể phân loại sản phẩm nội thất thành nội thất nhà bếp, nội thất phòng khách, nội thất phòng ngủ và nội thất phòng học…

          Cân nhắc thiết kế hiệu suất: Cân nhắc cho hiệu suất là quan trọng khi thiết kế một giải pháp. Máy chủ cộng tác quản lý dữ liệu InfoSphere Master của IBM cho phép các mô hình dữ liệu và logic nghiệp vụ rất phức tạp. Tính linh hoạt này cho phép xử lý các quy tắc nghiệp vụ tiên tiến. Tuy nhiên, sự sẵn có của tính linh hoạt có thể dẫn đến các giải pháp đơn giản trở nên phức tạp hơn mức cần thiết. Máy chủ cộng tác InfoSphere MDM không hạn chế kích thước hoặc số lượng đối tượng được sử dụng trong thiết kế giải pháp, do đó, điều quan trọng là phải tuân theo các cân nhắc thiết kế hiệu suất này.

          Thuộc tính sản phẩm: Thuộc tính sản phẩm là tập hợp các thuộc tính xác định sản phẩm đó.

          Thuộc tính vị trí trong mô hình dữ liệu: Thuộc tính vị trí lưu trữ dữ liệu dành riêng cho các vị trí cụ thể.

          Phân loại sản phẩm trong mô hình dữ liệu: Quá trình phân loại sản phẩm liên quan đến phân loại hoặc nhóm sản phẩm. Có thể phân loại sản phẩm dựa trên tập hợp các danh mục chung và phân loại tùy chỉnh dựa trên yêu cầu nghiệp vụ của sản phẩm đó.

          Mối quan hệ của chỉ mục: Khi bạn mô hình hóa các mối quan hệ, bạn liên kết các mặt hàng hoặc thực thể với nhau theo một mối quan hệ nhất định, chẳng hạn như liên quan đến hai mặt hàng để bán, hoặc liên quan đến một mặt hàng với các nhà cung cấp của nó.

II. Các loại mô hình dữ liệu

Bảng 1. Các loại mô hình dữ liệu

Các loại mô hình

Mô tả

Mô hình dữ liệu khái niệm (Conceptual Data Models)

Mô hình dữ liệu khái niệm, còn được gọi là mô hình miền (Domain models), thiết lập các khái niệm và ngữ nghĩa cơ bản của một miền nhất định đối với nhiều đối tượng của các bên liên quan.

Các mô hình khái niệm được xây dựng dựa trên Kiến trúc tổng thể bằng cách sử dụng các mô hình Mối quan hệ thực thể hoặc Lớp UML.

Mô hình dữ liệu logic (Logical Data Models)

Các mô hình dữ liệu logic xây dựng dựa trên mô hình khái niệm, chi tiết và chính xác hơn và tinh chỉnh cấu trúc của miền; chúng có thể được định nghĩa bằng các mô hình lớp quan hệ thực thể hoặc lớp UML.

Một lợi ích của mô hình dữ liệu logic là nó cung cấp nền tảng dựa trên mô hình vật lý và triển khai cơ sở dữ liệu tiếp theo.

Mô hình hóa mối quan hệ thực thể là một phương pháp mô hình hóa cơ sở dữ liệu trừu tượng và khái niệm, được sử dụng để tạo ra một lược đồ hoặc mô hình dữ liệu ngữ nghĩa như cơ sở dữ liệu quan hệ và các yêu cầu của nó, hình dung trong sơ đồ mối quan hệ thực thể ERDs (Entity-Relationship Diagrams).

ERDs hỗ trợ xây dựng các mô hình dữ liệu khái niệm thông qua việc tạo Ngôn ngữ định nghĩa dữ liệu DDL (Data Definition Language) cho Hệ quản trị cơ sở dữ liệu DBMS (Database Management System) đích.

Mô hình logic có thể được chuyển đổi thành mô hình dữ liệu vật lý bằng cách sử dụng chuyển đổi Ngôn ngữ định nghĩa dữ liệu DDL (Data Definition Language).

Mô hình dữ liệu vật lý (Physical Data Models)

Các mô hình dữ liệu vật lý trong Kiến trúc tổng thể EA giúp hình dung cấu trúc cơ sở dữ liệu và tự động lấy ra lược đồ cơ sở dữ liệu tương ứng; sử dụng cấu hình UML của kiến trúc tổng thể để mô hình hóa dữ liệu cụ thể.

Cấu hình này cung cấp các phần mở rộng hữu ích của tiêu chuẩn UML để ánh xạ các khái niệm cơ sở dữ liệu về các Bảng và các mối quan hệ lên các khái niệm UML của các Lớp và Liên kết; mô hình cột cơ sở dữ liệu, khóa, ràng buộc, chỉ mục, tính toàn vẹn tham chiếu và các tính năng cơ sở dữ liệu quan hệ khác.

Vì Kiến trúc tổng thể giúp hình dung từng loại mô hình dữ liệu trong cùng một kho lưu trữ, nên có thể dễ dàng quản lý các phụ thuộc giữa từng mức độ trừu tượng để tối đa hóa khả năng truy nguyên và xác minh tính hoàn chỉnh của việc triển khai hệ thống.

1. Mô hình dữ liệu khái niệm

          Mô hình dữ liệu khái niệm là dạng trừu tượng nhất của mô hình dữ liệu, nhằm truyền đạt ý tưởng đến một loạt các bên liên quan vì tính đơn giản của nó.

          Đây là một ví dụ về mô hình dữ liệu khái niệm, được hiển thị bằng hai trong số các ký hiệu được hỗ trợ bởi Kiến trúc tổng thể EA.

          Sử dụng ký hiệu liên kết thực thể ER (Entity-Relationship), chúng tôi biểu thị các khái niệm dữ liệu “Khách hàng - Customers” và “Địa chỉ của khách hàng - Customers Addresses” là các thực thể có mối quan hệ 1-n. Biểu diễn thông tin ngữ nghĩa giống nhau bằng cách sử dụng các lớp và liên kết UML.

          Việc sử dụng ký hiệu UML hay ER để thể hiện các khái niệm dữ liệu trong dự án tùy thuộc vào kinh nghiệm và sở thích của các bên liên quan. Cấu trúc chi tiết của các khái niệm dữ liệu được minh họa trong mô hình dữ liệu khái niệm được xác định bởi mô hình dữ liệu logic.

2. Mô hình dữ liệu logic

          Các mô hình dữ liệu logic giúp xác định cấu trúc chi tiết của các yếu tố dữ liệu trong một hệ thống và các mối quan hệ giữa các yếu tố dữ liệu. Chúng điều chỉnh các yếu tố dữ liệu được giới thiệu bởi mô hình dữ liệu khái niệm và tạo thành cơ sở của mô hình dữ liệu vật lý. Trong Kiến trúc tổng thể, mô hình dữ liệu logic thường được biểu diễn bằng ký hiệu lớp UML.

          Các kiểu dữ liệu dành riêng cho nền tảng và dữ liệu meta khác liên quan đến triển khai hệ quản trị cơ sở dữ liệu DBMS cụ thể được xác định bởi mô hình dữ liệu vật lý.

Sơ đồ thực thể liên kết ERDs (Entity Relationship Diagrams)

          Theo Wikipedia: Mô hình thực thể liên kết ERM (Entity-Relationship Model) là một mô hình được sử dụng rộng rãi trong các bản thiết kế cơ sở dữ liệu ở mức khái niệm. Mô hình thực thể liên kết là một phương pháp mô hình hóa cơ sở dữ liệu, được sử dụng để tạo ra một loại lược đồ khái niệm hoặc mô hình dữ liệu ngữ nghĩa của một hệ thống, thường là cơ sở dữ liệu quan hệ và các yêu cầu của nó theo hình thức từ trên xuống (top-down). Các sơ đồ được tạo bởi quá trình này được gọi là Sơ đồ thực thể liên kết, Sơ đồ ER hoặc ERD.

Sơ đồ thực thể liên kết ERDs trong Kiến trúc tổng thể EA

          Sơ đồ thực thể liên kết trong Kiến trúc tổng thể EA dựa trên các khối xây dựng ERD của Chen, bao gồm: các thực thể (bảng - tables) được biểu diễn dưới dạng hình chữ nhật, các thuộc tính (cột - columns) được biểu diễn dưới dạng hình elip (được nối với thực thể của chúng) và các mối quan hệ giữa các thực thể được biểu diễn dưới dạng các đầu nối hình kim cương.

          Công nghệ ERD trong Kiến trúc tổng thể EA hỗ trợ từ việc xây dựng mô hình dữ liệu khái niệm đến tạo Ngôn ngữ định nghĩa dữ liệu DDL cho hệ quản trị DBMS.

3. Mô hình dữ liệu vật lý

          Mô hình dữ liệu vật lý biểu thị trực quan cấu trúc dữ liệu được triển khai bởi lược đồ cơ sở dữ liệu quan hệ. Ngoài việc cung cấp sự trừu tượng hóa trực quan của cấu trúc cơ sở dữ liệu, thì nó còn xác định mô hình dữ liệu vật lý để có thể tự động lấy ra lược đồ cơ sở dữ liệu từ mô hình. Điều này có thể là do sự phong phú của dữ liệu đặc tả (metadata) được mô hình dữ liệu vật lý nắm bắt và ánh xạ gần với các khía cạnh của lược đồ cơ sở dữ liệu, chẳng hạn như Bảng cơ sở dữ liệu (Database Tables), cột (Columns), Khóa chính (Primary Keys) và Khóa ngoại (Foreign Keys).

          Ví dụ này cho thấy mô hình dữ liệu vật lý có thể được sử dụng để tự động tạo lược đồ cơ sở dữ liệu. Mỗi bảng được đại diện bởi một lớp UML; Cột bảng, Khóa chính và Khóa ngoại được mô hình hóa bằng các thuộc tính UML.

Cách tạo sơ đồ mô hình dữ liệu (Data Model Diagram)

          Để mô hình hóa cấu trúc của cơ sở dữ liệu quan hệ, thì phải sử dụng sơ đồ mô hình hóa dữ liệu, là sơ đồ Lớp mở rộng. Khi mở sơ đồ Mô hình hóa dữ liệu, Hộp công cụ biểu đồ phù hợp sẽ tự động được mở, chứa các thành phần sơ đồ sau đây:

          · Bảng (Table);

          · Tổng quan (View);

          · Phương thức (Procedure);

          · Tính liên tục (Sequence);

          · Chức năng (Function);

          · Liên kết (Association); và

·        Kết nối cơ sở dữ liệu (Database Connection).

III. Cách tạo sơ đồ mô hình hóa dữ liệu

Trường/nút (Field/Button)

Mô tả hoạt động (Action)

Tên (Name)

Trường này mặc định là Tên gói (Package name).

Nếu được yêu cầu, hãy ghi đè tên mặc định bằng tên ưa thích của bạn.

Chọn (Select From)

Nhấn click vào “Extended”

Loại sơ đồ (Diagram Types)

Nhấn click vào “Mô hình dữ liệu - Data Modeling”

OK

Nhấn vào nút button để tạo sơ đồ.

Giao diện sơ đồ hiển thị sơ đồ trống và “mô hình hóa dữ liệu” hiển thị trong Hộp công cụ Sơ đồ (Diagram Toolbox).

Kéo các phần tử và kết nối từ Hộp công cụ vào sơ đồ của bạn để tạo mô hình dữ liệu của bạn.

          Sơ đồ mô hình dữ liệu hiển thị mô hình dữ liệu của hệ thống kho lưu trữ sách. Bạn có thể kiểm tra mô hình này chi tiết hơn trong EAExampleModel.eap, được cài đặt với Kiến trúc tổng thể EA.

Kết luận

          Mô hình hóa dữ liệu là quá trình mô tả cấu trúc thông tin và nắm bắt các quy tắc nghiệp vụ để xác định các yêu cầu của hệ thống thông tin. Mô hình hóa dữ liệu tạo ra nhiều lợi ích:

          - Cho phép nhân viên phát triển ứng dụng và cơ sở dữ liệu để xác định các yêu cầu hệ thống và giao tiếp với nhau và với người dùng cuối;

          - Cung cấp một bức tranh rõ ràng về các ràng buộc toàn vẹn tham chiếu. Duy trì tính toàn vẹn tham chiếu là điều cần thiết trong mô hình quan hệ nơi các mối quan hệ được mã hóa hoàn toàn;

          - Cho phép tạo một sơ đồ tóm tắt kết quả của các nỗ lực mô hình hóa dữ liệu và tạo một lược đồ cơ sở dữ liệu từ mô hình đó.

theo http://qcvn109.gov.vn/cong-nghe/tong-quan-ve-mo-hinh-hoa-du-lieu.html


Tin xem nhiều

placeholder image

Tổng hợp hiện trạng mã định danh của các đơn vị cấp 1 sử dụng cho định dạng gói tin phục vụ kết nối các hệ thống văn bản quản lý và điều hành