angle-left null Những thành phần cơ bản của XML
Trang chủ

18/05/2020 03:32

(data.gov.vn) Theo W3C, XML được định nghĩa là: - Một tập hợp các quy tắc để mã hóa tài liệu ở định dạng có thể đọc được bằng máy; - Là ngôn ngữ xây dựng cấu trúc tài liệu văn bản...

1. Mở đầu

Theo W3C, XML được định nghĩa là:

- Một tập hợp các quy tắc để mã hóa tài liệu ở định dạng có thể đọc được bằng máy;

- Là ngôn ngữ xây dựng cấu trúc tài liệu văn bản;

- Là ngôn ngữ quan trọng trong việc chuyển tải, trao đổi dữ liệu và liên lạc giữa các ứng dụng;

- Là một tập con dựa theo chuẩn SGML (Standard Generalized Markup Language - siêu ngôn ngữ có khả năng sinh ngôn ngữ khác), có khả năng mô tả nhiều loại dữ liệu khác nhau. SGML được phát triển cho việc định cấu trúc và nội dung tài liệu điện tử, do tổ chức tiêu chuẩn quốc tế ISO (International Organization for Standards) chuẩn hóa năm 1986.

Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống thông tin khác nhau, đặc biệt là các hệ thống được kết nối với mạng Internet. Các ngôn ngữ dựa trên XML như RFD, RSS, MathML, XHTML, SVG, GML và cXML được định nghĩa theo cách thông thường, cho phép các chương trình sửa đổi và kiểm tra hợp lệ bằng các ngôn ngữ này mà không cần hiểu trước về hình thức của chúng

Những thành phần cơ bản của XML bao gồm:

- Thẻ XML (XML tag);

- Phần tử XML (XML element);

- Thuộc tính của XML (XML attribute);

- Prolog;

- Khai báo XML (XML declaration);

- Công cụ XML (XML tool).

Trong Quy chuẩn kỹ thuật quốc gia số 109:2017/BTTTT về cấu trúc thông điệp dữ liệu công dân trao đổi với cơ sở dữ liệu quốc gia về dân cư được Bộ Thông tin và Truyền thông ban hành ngày 04/4/2017, XML là ngôn ngữ dùng để trao đổi dữ liệu có cấu trúc giữa các hệ thống thông tin trong cơ quan nhà nước. Vì vậy, mục đích của bài viết này sẽ giới thiệu tổng quan về những thành phần cơ bản của XML để người đọc hiểu và có cách tiếp cận ban đầu về XML.

2. Những thành phần cơ bản của XML

a. Thẻ XML (XML tag)

Các thẻ XML cấu thành nên XML, thẻ XML định nghĩa phạm vi một phần tử trong XML, chúng cũng có thể được sử dụng để chèn các nhận xét (comment), khai báo các thiết lập cần thiết để phân tích môi trường và để chèn các chỉ lệnh đặc biệt.

Một phần tử XML, lần lượt, bao gồm một thẻ bắt đầu, thẻ kết thúc và thẻ phần tử trống. Thẻ bắt đầu (còn được gọi là thẻ mở) bắt đầu bằng . Thẻ kết thúc (còn gọi là thẻ đóng) bắt đầu bằng. Đặc tả XML rất cụ thể về các tên thẻ; bạn có thể bắt đầu tên thẻ bằng một chữ cái, dấu gạch dưới hoặc dấu hai chấm. Các ký tự tiếp theo có thể là chữ cái, chữ số, dấu gạch dưới, dấu gạch nối, dấu chấm và dấu hai chấm (nhưng không có khoảng trắng).

Thẻ mở trong XML: phần bắt đầu của mỗi phần tử XML không trống được đánh dấu bởi một thẻ mở.

Thẻ đóng trong XML: Mỗi phần tử mà có một thẻ mở nên kết thúc với một thẻ đóng.

(các thẻ đóng phải có dấu gạch chéo (/) ở trước tên phần tử)

Thẻ trống trong XML: Phần text xuất hiện giữa thẻ mở và thẻ đóng được gọi là nội dung. Một phần tử không có nội dung nào được coi là trống (empty). Một phần tử trống có thể được biểu diễn theo hai cách:

(1) Một thẻ mở bị đóng ngay bởi một thẻ đóng

(2) Một phần tử trống hoàn toàn.

b. Phần tử XML

Đơn vị cơ bản của XML là phần tử, là một đoạn thông tin do tác giả chỉ định. Phần tử bao gồm tên phần tử và nội dung phần tử.

Các phần tử trống:

Các phần tử trống chỉ có một thẻ chứ không có thẻ bắt đầu và thẻ kết thúc.

Phần tử gốc:

Mỗi tài liệu XML được định dạng phải chứa một phần tử chứa tất cả các phần tử khác. Phần tử chứa được gọi là phần tử gốc. Một tài liệu XML phải có một thẻ gốc duy nhất, để cho tất cả các thẻ khác được chứa trong thẻ gốc đó. Tất cả các phần tử tiếp theo phải được chứa trong thẻ gốc, mỗi phần tử được lồng trong thẻ gốc của nó.

Phần tử con:

Nút gốc chỉ có một nút con. Tất cả các nút khác có một nút cha, cũng như không có hoặc nhiều nút con. Các nút có thể có các phần tử có liên quan trên cùng một mức phân cấp.

Cấu trúc cây của tài liệu XML

Các phần tử trong một tài liệu XML tạo thành một cây tài liệu. Cây bắt đầu từ gốc và nhánh đến mức thấp nhất của cây.

c. Thuộc tính của XML (XML attribute)

Ngoài các thẻ và phần tử, tài liệu XML cũng có thể bao gồm các thuộc tính. Các thuộc tính XML có 3 loại: một kiểu chuỗi, một tập các kiểu được mã hóa và các kiểu liệt kê. Kiểu chuỗi có thể lấy bất kỳ chuỗi ký tự nào làm giá trị. Thuộc tính phải có giá trị ngay cả khi giá trị đó chỉ là một chuỗi rỗng (like “”).

d. Prolog

Phần Prolog của tài liệu XML đứng trước phần tử tài liệu. Các prolog có chứa những nội dung sau đây:

- Một khai báo XML

- Nội dung khác: hướng dẫn xử lý hoặc nhận xét

- Khai báo loại tài liệu, còn được gọi là khai báo DOCTYPE.

đ. Khai báo XML (XML declaration)

Cấu trúc phần tử của một tài liệu XML để xác nhận, ràng buộc bằng cách sử dụng các khai báo kiểu phần tử và danh sách thuộc tính. Khai báo kiểu phần tử ràng buộc nội dung của phần tử.

Khai báo kiểu phần tử thường hạn chế loại phần tử nào có thể xuất hiện dưới dạng con của phần tử. Theo tùy chọn của người dùng, một bộ xử lý XML có thể đưa ra cảnh báo khi một khai báo đề cập đến một kiểu phần tử mà không có khai báo nào được cung cấp.

Ví dụ điển hình về khai báo XML

- Khai báo XML bắt đầu bằng các ký tự .

- Khai báo XML bao gồm cả phiên bản, và được tùy chọn các thuộc tính mã hóa

- Các thuộc tính phiên bản, mã hóa và độc lập phải được sắp xếp theo thứ tự.

- XML phải được khai báo ở ngay đầu tệp. Nghĩa là ký tự đầu tiên trong tệp phải là “<”; không có dấu ngắt dòng hoặc dấu cách.

- Mã hóa ký tự là phương thức được sử dụng để biểu diễn các số trong mã ký tự kỹ thuật số (nói cách khác là nên sử dụng bao nhiêu byte cho mỗi số...). Một số được mã hóa là utf-8, utf-16...

Nếu thuộc tính XML độc lập (standalone) nằm trong khai báo XML, nó phải được đặt là có hoặc không. Có quy định rằng tài liệu này tồn tại hoàn toàn, không phụ thuộc vào bất kỳ tệp nào khác, không cho biết rằng tài liệu có thể phụ thuộc vào một DTD bên ngoài.

Sử dụng các phần tử đánh dấu đặc biệt

Sử dụng nhận xét để loại trừ tài liệu

e. Công cụ XML (XML tool)

- Biên tập XML: Chúng được sử dụng để tạo tài liệu XML. Một trong số đó là: firstobject, Adobe frameworker, XML pro, Altova XML spy, stylus studio, xml writer, enotepad, xml notepad.

- Trình duyệt XML: IE 6, Netscape Navigator 6, Jumbo

- Trình phân tích cú pháp XML: MSXML, SAX, expat, expat perl module, TClExpat, LT XML, XML for Java, XML test pad, XP, SXP, Python and XML processing preliminary XML parser

- Xác nhận XML: W3C XML validator, Tidy, XML.com lark parser, LTP, STG, VS.net

Ví dụ sử dụng STG:

Trình soạn thảo XML: giúp nhập và xác định các lỗi trong khi phân tích cú pháp tài liệu XML

3. Kết luận

Mỗi tài liệu XML chứa một hoặc nhiều phần tử, các ranh giới trong đó được phân cách bởi thẻ bắt đầu và thẻ kết thúc, hoặc, cho các phần tử rỗng, bởi một thẻ phần tử trống. Mỗi phần tử có một loại, được xác định theo tên, đôi khi được gọi là “số nhận dạng chung” (GI - Generic Identifier) và có thể có một tập hợp các đặc tả thuộc tính. Mỗi đặc tả thuộc tính có một tên và một giá trị.

Những thành phần cơ bản đã tạo nên XML, mục tiêu thiết kế của XML nhấn mạnh sự đơn giản, tính tổng quát và khả năng sử dụng trên Internet. Nó là một định dạng dữ liệu văn bản với sự hỗ trợ mạnh mẽ thông qua Unicode cho các ngôn ngữ khác nhau của con người.

XML là ngôn ngữ mô tả dữ liệu được sử dụng để phục vụ mục đích trao đổi dữ liệu, quy định bắt buộc sử dụng tại Thông tư số 22/2013/TT-BTTTT. Trong Quy chuẩn kỹ thuật quốc gia số 109:2017/BTTTT, các hệ thống thông tin trao đổi dữ liệu với cơ sở dữ liệu quốc gia về dân cư qua ngôn ngữ XML, kiểu dữ liệu XML được mô tả theo quy định thống nhất của lược đồ dữ liệu cơ bản XML (W3C XML Schema).

theo http://qcvn109.gov.vn/cong-nghe/nhung-thanh-phan-co-ban-cua-xml.html


Tin xem nhiều

placeholder image

Tổng hợp hiện trạng mã định danh của các đơn vị cấp 1 sử dụng cho định dạng gói tin phục vụ kết nối các hệ thống văn bản quản lý và điều hành