angle-left null Dữ liệu mở liên kết
Trang chủ

28/04/2020 07:48

(data.gov.vn) Dữ liệu liên kết (Linked Data) là một phương pháp để xuất bản dữ liệu có cấu trúc bằng cách sử dụng các từ vựng như schema.org có thể được kết nối với nhau và được diễn giải bằng máy. Sử dụng dữ liệu được liên kết, các câu lệnh được mã hóa trong bộ ba có thể được trải rộng trên các trang web khác nhau.

Dữ liệu Liên kết là gì?

Dữ liệu liên kết (Linked Data) là một phương pháp để xuất bản dữ liệu có cấu trúc bằng cách sử dụng các từ vựng như schema.org có thể được kết nối với nhau và được diễn giải bằng máy. Sử dụng dữ liệu được liên kết, các câu lệnh được mã hóa trong bộ ba có thể được trải rộng trên các trang web khác nhau.

Ví dụ dữ liệu được liên kết

Dữ liệu được liên kết hoạt động như thế nào? Ví dụ đơn giản này sẽ giúp bạn hiểu cách dữ liệu được liên kết truyền tải các khái niệm và kết nối.

Hãy nói rằng trên trang web A chúng ta có thể trình bày thực thể Jason và thực tế là anh ta biết Marie. Trên trang web B, chúng tôi có thể cung cấp tất cả thông tin về Marie và trên Trang web C, chúng tôi có thể tìm thấy thông tin về nơi sinh của Marie (Italy).

Mỗi trang chứa dữ liệu có cấu trúc để mô tả một thực thể (Jason, Marie và Italy) và liên kết đến thực thể có thể được mô tả trên một trang khác hoặc thậm chí trên một trang web khác.

Vai trò của dữ liệu được liên kết là gì?

Trở lại năm 2006 Tim Berners-Lee đã mô tả dữ liệu được liên kết như sau:

Semantic Web không chỉ là về việc đưa dữ liệu lên web. Đó là về việc tạo liên kết, để một người hoặc máy có thể khám phá web dữ liệu. Với Dữ liệu liên kết, khi bạn có một số dữ liệu, bạn có thể tìm thấy dữ liệu khác, có liên quan.

Dữ liệu liên kết xây dựng dựa trên các công nghệ Web tiêu chuẩn như HTTP và URI , thay vì sử dụng chúng để phục vụ các trang web cho người đọc, nó mở rộng chúng để chia sẻ thông tin theo cách mà máy tính có thể đọc tự động. Điều này cho phép dữ liệu từ các nguồn khác nhau được kết nối và truy vấn .

Các truy vấn về dữ liệu được liên kết được thực hiện bằng ngôn ngữ truy vấn ngữ nghĩa được gọi là SPARQL cho phép truy xuất và thao tác dữ liệu được lưu trữ ở định dạng Khung mô tả tài nguyên (RDF).

Nguyên tắc dữ liệu được liên kết

Có bốn nguyên tắc đơn giản để tuân theo khi xuất bản dữ liệu trên web (và có, dữ liệu có cấu trúc được liên kết dữ liệu mở vì nó có thể truy cập đầy đủ):

  1. Sử dụng URI làm tên cho các thứ (đây là định danh duy nhất mà chúng tôi đã giới thiệu ở trên)
  2. Sử dụng URI HTTP để mọi người có thể tra cứu các tên đó (điều này có nghĩa là ID của mọi thực thể sẽ có thể truy cập được qua HTTP URI)
  3. Khi ai đó tra cứu URI, hãy cung cấp thông tin hữu ích, sử dụng các tiêu chuẩn (Đằng sau các URI này, chúng tôi cần xuất bản dữ liệu bằng cách sử dụng một tiêu chuẩn dữ liệu được liên kết gọi là RDF)
  4. Bao gồm các liên kết đến các URI khác. để họ có thể khám phá thêm nhiều thứ (và đây chúng ta cần thêm thuộc tính dữ liệu, chẳng hạn owl:sameAs ).

Ví dụ:

Thông tin về Richard từ hồ sơ FOAF (Friend Of A Friend) của Richard có định danh URI là: http://richard.cyganiak.de/foaf.rdf#cygri.

Khi duyệt kiểu URI này trình duyệt (hỗ trợ dữ liệu) tham chiếu đến URI này trên Web, yêu cầu nội dung dạng RDF/XML và hiển thị thông tin nhận được. Trong hồ sơ của mình, Richard phát biểu rằng, anh ta ở Berlin, dùng DBpedia với URI http://www4.wiwiss.fu-berlin.de/rdf_browser/?browse_uri=http%3A//dbpedia.org/resource/Berlin biểu diễn cho tài nguyên phi thông tin Berlin.

Khi người duyệt quan tâm đến Berlin, anh ta chỉ cho trình duyệt tham chiếu đến URI đó bằng. Trình duyệt tham chiếu đến URI đó yêu cầu dữ liệu RDF tương ứng.

Mô hình dữ liệu RDF của Richard

Sau khi nhận dữ liệu trả lại, trình duyệt xử lý một đồ thị RDF mô tả Berlin rất chi tiết. Một phần của đồ thị này như hình dưới. Đồ thị chứa một phát biểu rằng Berlin có số dân là 3.405.259 và một liên kết RDF khác đến một tài nguyên biểu diễn danh sách các thành phố của Đức.

Cả hai đồ thị đều cùng có URI http://dbpedia.org/resource/Berlin, chúng được trộn lại như hình sau:\

Người duyệt có thể quan tâm đến các thành phố khác của Đức. Vì vậy, anh ta cho trình duyệt tham chiếu đến URI định danh của danh sách. Đồ thị RDF nhận được chứa nhiều liên kết RDF đến các thành phố của Đức, ví dụ như Hamburg và München như hình sau.

 

 

Tại sao việc xuất bản dữ liệu được liên kết 5 sao lại quan trọng?

Tim Berners-Lee đề xuất sơ đồ triển khai 5 sao cho Dữ liệu mở. Dưới đây, bạn có thể tìm thấy các ví dụ cho từng lớp để hiểu tại sao xuất bản dữ liệu liên kết 5-sao lại quan trọng như vậy:

                     ★ Làm cho nội dung của bạn có sẵn trên web với một giấy phép mở.

                 ★★ Làm cho nội dung của bạn có sẵn dưới dạng dữ liệu có cấu trúc có thể đọc được bằng máy (ví dụ: Excel thay vì quét hình ảnh của bảng).

              ★★★ Làm cho nội dung của bạn có sẵn ở định dạng mở không độc quyền (ví dụ: CSV thay vì Excel).

           ★★★★ Chỉ định URI duy nhất và vĩnh viễn cho mỗi thực thể để xác định chúng và làm cho nội dung của bạn dễ dàng được tìm thấy bởi những người sử dụng ID cố định.

        ★★★★★ Liên kết dữ liệu của bạn với dữ liệu khác để cung cấp ngữ cảnh: bây giờ web đã được kết nối và bạn đã đạt đến ngôi sao thứ 5.

Nói một cách đơn giản, bộ dữ liệu mở 5 sao chỉ đơn giản là một cách để xuất bản siêu dữ liệu (sử dụng dữ liệu được liên kết tiêu chuẩn) làm cho nó có thể đọc và truy cập bằng máy.

Đó là lý do tại sao bằng cách kết nối một đoạn văn bản, được viết bởi một con người với một bộ dữ liệu mở được tạo bởi một máy , nội dung của chúng tôi trở nên hoàn toàn có thể truy cập và thân thiện với máy.

Một số bộ dữ liệu chính triển khai lược đồ dữ liệu được liên kết 5-Sao là nền tảng cho các thuật toán học máy đằng sau các công cụ tìm kiếm ngữ nghĩa như Google và Bing cũng như các trợ lý cá nhân kỹ thuật số như Alexa, Cortana và Google Assistant.

Đám mây Dữ liệu mở liên kết (Linked Open Data Cloud)

Các bộ dữ liệu này (như DBpedia , Wikidata , Geonames chỉ để đặt tên cho một số) đều được liên kết với nhau để tạo thành Đám mây Dữ liệu mở liên kết .

Một phần của Đám mây dữ liệu liên kết mở (Nguồn: lod-cloud.net)


Tin xem nhiều

placeholder image

Tổng hợp hiện trạng mã định danh của các đơn vị cấp 1 sử dụng cho định dạng gói tin phục vụ kết nối các hệ thống văn bản quản lý và điều hành