angle-left null Xu hướng trong kiến trúc và nền tảng dữ liệu
Trang chủ

11/11/2020 11:40

(data.gov.vn) Hiện nay công nghệ đang phát triển nhanh như vũ bão, điều đó đòi hỏi cách tiếp cận triển khai công nghệ thông tin trong thực tế cũng có nhiều thay đổi. Đối với xây dựng, triển khai các hệ thống, nền tảng hỗ trợ xây dựng và phát triển, khai thác dữ liệu cũng có sự thay đổi rất nhanh chóng. Theo tổ chức McKinsey, quá trình thiết kế, triển khai kiến trúc các nền tảng dữ liệu đã có nhiều sự thay đổi qua các năm. Cụ thể có sáu vấn đề thay đổi lớn về nền tảng triển khai dữ liệu đã được ghi nhận. Cùng nghiên cứu và tham khảo các đánh giá tổng hợp về sự thay đổi của kiến trúc nền tảng dữ liệu để có những thông tin cập nhật kịp thời và làm cơ sở triển khai các hoạt động thiết kế, xây dựng kiến trúc về dữ liệu cho các cơ quan, tổ chức mình.

Trong thời gian qua, sự phát triển của công nghệ đã thể hiện sáu sự thay đổi cơ bản mà các công ty, tổ chức đang thực hiện đối với thiết kế kiến ​​trúc dữ liệu để cho phép cung cấp nhanh hơn các khả năng mới và đơn giản hóa đáng kể các phương pháp tiếp cận kiến ​​trúc hiện có. Chúng liên quan đến gần như tất cả các hoạt động dữ liệu, bao gồm thu thập, xử lý, lưu trữ, phân tích và hiển thị. Trước đòi hỏi theo xu hướng thay đổi công nghệ, một số tổ chức, doanh nghiệp đã tiếp cận từng bước thay đổi để phù hợp với xu hướng mới nhưng vẫn giữ các công nghệ cốt lõi của mình, trong khi đó một số tổ chức phải thực hiện tái cấu trúc toàn bộ cơ sở hạ tầng và nền tảng dữ liệu hiện có để áp dụng các công nghệ mới, kiến trúc mới bắt kịp xu thế và đòi hỏi thực tế.

Dữ liệu đóng vai trò rất quan trọng trong hoạt động của các tổ chức. Việc ứng dụng các công nghệ mới để tìm ra các thông tin mới hỗ trợ đắc lực cho hoạt động kinh doanh là điều vô cùng quan trọng. Chính vì thế, các tổ chức, doanh nghiệp đang nỗ lực không ngừng trong việc thay đổi kiến trúc và nền tảng công nghệ về dữ liệu để đáp ứng nhu cầu của mình. Từ việc tạo ra các báo cáo tổng hợp cơ bản về tình hình hoạt động có mức đầu tư khiêm tốn tới đầu tư hàng trăm triệu USD để đầu tư các hạng mục công nghệ xử lý dữ liệu tiên tiến như xử lý dữ liệu thời gian thực, dữ liệu lớn để nhanh chóng có các thông tin dự đoán cần thiết, tạo lợi thế cạnh tranh.

Do đó, điều quan trọng đối với các tổ chức là phải có một kế hoạch chiến lược rõ ràng và các nhà lãnh đạo dữ liệu và công nghệ sẽ cần phải đưa ra những lựa chọn để ưu tiên những thay đổi sẽ ảnh hưởng trực tiếp nhất đến mục tiêu hoạt động và đầu tư vào mức độ của kiến ​​trúc cũng như công nghệ về dữ liệu. Chính vì vậy, mỗi tổ chức, doanh nghiệp có các định hướng, thiết kế kiến trúc dữ liệu khác nhau và có đặc trưng riêng.

Nắm bắt xu hướng công nghệ, tận dụng về khả năng phân tích dữ liệu sẽ mang lại ưu thế vượt trội. Ví dụ một công ty dầu khí Hoa kỳ đã đầu tư 500 triệu USD vào công nghệ và dữ liệu nhưng kết quả đã mang lại tăng trưởng tỷ suất lợi nhuận cho tổng thể từ 12% đến 15%. Vì vậy, việc thay đổi và áp dụng các xu hướng mới là rất cần thiết để có thời cơ bắt kịp sự phát triển nhanh chóng. Doanh nghiệp, tổ chức nào không tận dụng cơ hội sử dụng dữ liệu để phát triển sẽ nhanh chóng vị bị tụt lại phía sau.

Vì vậy, để thích ứng nhanh với sự biến đổi, cần phải bắt kịp những thay đổi của công nghệ để tận dụng ưu thế công nghệ mới, mô hình mới. Hiện nay, các xu hướng chính liên quan đến triển khai dữ liệu và công nghệ dữ liệu đáng chú ý bao gồm:

Sự biến đổi từ triển khai trên nền tảng dữ liệu tại chỗ sang nền tảng đám mây

Đám mây có lẽ là động lực đột phá nhất của cách tiếp cận kiến ​​trúc dữ liệu và đây là giải pháp hoàn toàn mới, vì nó cung cấp cho các công ty, tổ chức khả năng mở rộng quy mô nhanh chóng đồng thời có thể dễ dàng ứng dụng các công cụ AI để có lợi thế cạnh tranh. Các nhà cung cấp đám mây toàn cầu lớn như Amazon (với Amazon Web Services), Google (với Google Cloud Platform) và Microsoft (với Microsoft Azure) đã cách mạng hóa cách thức tổ chức nền tảng dữ liệu để cung cấp dịch vụ nền tảng điện toán đám mây phục vụ lưu trữ và xử lý dữ liệu ở mọi quy mô khác nhau.

Ví dụ: một công ty dịch vụ tiện ích đã kết hợp nền tảng dữ liệu dựa trên đám mây với công nghệ xử lý dữ liệu, dịch vụ tích hợp dữ liệu, các dịch vụ thanh toán để thêm các chức năng tự phục vụ, khởi tạo tài khoản cho người dùng và thực hiện mô-đun hóa ứng dụng của mình. Điều này cho phép công ty triển khai các khả năng khách hàng tự tương tác triên ứng dụng. Từ đó, 100.000 khách hàng của doanh nghiệp đã được cung cấp hình thức dịch vụ mới trong vài ngày thay vì phải vài tháng. Sử dụng nền tảng điện toán đám mây cho lưu trữ, phân tích dữ liệu cũng dễ dàng triển khai để đáp ứng một lượng lớn dữ liệu giao dịch theo thời gian thực cho người dùng cuối với chi phí rẻ hơn rất nhiều thay vì phải đầu tư một hệ thống lớn với chi phí cao.

Các nền tảng dữ liệu phi máy chủ, chẳng hạn như Amazon S3 và Google BigQuery, cho phép các tổ chức xây dựng và vận hành các ứng dụng tập trung vào dữ liệu với quy mô không giới hạn mà không gặp vấn đề trong việc cài đặt và định cấu hình các giải pháp hoặc quản lý khối lượng công việc. Các dịch vụ như vậy không đòi hỏi yêu cầu chuyên môn cao về công nghệ thông tin của tổ chức sử dụng dịch vụ nhưng sẽ đạt được tốc độ triển khai rất nhanh từ vài tuần xuống còn ít nhất là vài phút và hầu như không yêu cầu chi phí duy trì, vận hành.

2. Từ xử lý dữ liệu theo gói sang xử lý thời gian thực

Hiện nay, chi phí cho việc truyền đưa dữ liệu trực tuyến đã giảm đáng kể so với trước đây. Điều này đã làm thay đổi cách thức triển khai các hệ thống thông tin xử lý dữ liệu. Thay vì phải chuyển dữ liệu theo lô định kỳ thì hệ thống hiện tại có xu hướng xử lý thời gian thực. Điều này cũng kéo theo các dịch vụ trong đời sống xã hội được biến đổi theo và tạo ra các dịch vụ mới. Ví dụ, các công ty vận tải taxi đã sử dụng ứng dụng gọi xe và cho phép người sử dụng biết và theo dõi được thời điểm xe đón khách; các công ty có thể phân tích dữ liệu hành vi theo thời gian thực của khách hàng được cung cấp từ các thiết bị thông minh cá nhân để cung cấp được các dịch vụ theo ngữ cảnh của khách hàng.

Các nền tảng nhắn tin có thể xử lý và lưu trữ hàng triệu tin nhắn mỗi giây để truyền tải ngay lập tức. Điều này cho phép người sử dụng có thể tương tác trực tiếp.

Các giải pháp xử lý và phân tích truyền trực tuyến  như Apache Kafka Streaming, Apache Flume, Apache Storm và Apache Spark Streaming cho phép phân tích trực tiếp các tin nhắn trong thời gian thực. Phân tích này có thể dựa trên quy tắc hoặc liên quan đến phân tích nâng cao để trích xuất các sự kiện hoặc tín hiệu từ dữ liệu. Thông thường, phân tích tích hợp dữ liệu lịch sử để so sánh các mẫu, điều này đặc biệt quan trọng trong các công cụ khuyến nghị và dự đoán.

Các nền tảng cảnh báo  như Graphite hoặc Splunk có thể tự động kích hoạt các chức năng khuyến cao cho người dùng, ví dụ như thông báo cho các đại lý bán hàng nếu họ không đạt mục tiêu doanh số hàng ngày hoặc tích hợp các hành động này vào các quy trình hiện có có thể chạy trong các hệ thống quản trị doanh nghiệp (ERP) hoặc hệ thống quản lý khách hàng (CRM).

3. Từ các giải pháp thương mại được tích hợp trước đến các nền tảng mô-đun

Để đáp ứng nhu cầu nghiệp vụ, các công ty thường cần phải vượt ra ngoài ranh giới của các ứng dụng, hệ thống và liên tục nâng cấp, mở rộng thêm khả năng và chức năng. Nhiều cơ quan, tổ chức đang hướng tới một kiến ​​trúc dữ liệu dạng mô-đun sử dụng các thành phần mã nguồn mở độc lập tương đối và có thể được thay thế bằng các công nghệ mới nếu cần mà không ảnh hưởng đến các phần khác của kiến ​​trúc dữ liệu hiện tại.

Ví dụ một xu thế là các công ty cung cấp dịch vụ tiện ích như điện, nước đang chuyển đổi sang cách tiếp cận này để nhanh chóng cung cấp các dịch vụ mới cho hàng triệu khách hàng và kết nối các ứng dụng dựa trên đám mây trên quy mô lớn. Hệ thống có thể cung cấp dữ liệu hàng ngày về mức tiêu thụ năng lượng của khách hàng và dữ liệu phân tích, so sánh về mức tiêu thụ năng lượng trong các kỳ trước đây để khách hàng theo dõi và điều chỉnh nhu cầu. Công ty thiết lập một lớp cơ sở dữ liệu về tình hình tiêu thụ năng lượng và phân tích trên một thành phần độc lập. Dữ liệu được đồng bộ hóa với các hệ thống hiện hữu thông nền tảng chia sẻ dữ liệu. Việc triển khai các dịch vụ dữ liệu API và thiết lập kênh trao đổi dữ liệu đã giúp đơn giản hóa việc tích hợp dữ liệu giữa các nền tảng dữ liệu khác nhau đồng thời phân tách với các hệ thống phức tạp hiện có để giảm ảnh hưởng, tương tác lẫn nhau giữa các hệ thống. Bằng cách này, doanh nghiệp đã tăng tốc thời gian đưa ra sản phẩm dịch vụ mới và cũng giảm nguy cơ gây ra các vấn đề phát sinh trong các ứng dụng hiện có. Phương pháp này cũng cho phép thay thế các thành phần ứng dụng riêng lẻ dễ dàng hơn khi có các yêu cầu thay đổi từ phía nghiệp vụ.

4. Từ việc truy cập thẳng vào dữ liệu đến sự độc lập tương đối giữa ứng dụng và dữ liệu qua dịch vụ chia sẻ dữ liệu.

Theo kiến trúc hệ thống cũ, các ứng dụng truy cập thẳng vào các cơ sở dữ liệu để truy vấn, tìm kiếm và xử lý dữ liệu. Tuy nhiên cùng với sự thay đổi của kiến trúc hệ thống ngày càng phức  tạp, xu hướng đã có sự thay đổi chuyển sang truy cập dữ liệu qua các dịch vụ dữ liệu – API. Việc truy cập dữ liệu qua API có thể đảm bảo rằng quyền truy cập để xem và sửa đổi dữ liệu được giới hạn và an toàn, đồng thời cung cấp quyền truy cập cập nhật, nhanh hơn vào dữ liệu chung. Điều này cho phép dễ dàng sử dụng lại dữ liệu giữa các thành phần, tăng tốc truy cập và cho phép phối hợp liền mạch giữa các hệ thống để phân tích, xử lý hiệu quả hơn.

Nền tảng quản lý API  (thường được gọi là cổng API) là thành phần quan trọng để tạo và xuất bản các dịch vụ dữ liệu, triển khai các chính sách sử dụng, kiểm soát quyền truy cập cũng như đo lường việc sử dụng, hiệu suất khai thác và đáp ứng. Nền tảng này cũng cho phép các nhà phát triển và người dùng tìm kiếm các dịch vụ dữ liệu hiện có và sử dụng lại chúng thay vì xây dựng các dịch vụ mới.

5. Từ kho tổng hợp chung đến kiến ​​trúc dựa trên miền dữ liệu được phân hoạch

Xu hướng mới của các chuyên gia kiến ​​trúc dữ liệu là xoay trục từ hồ dữ liệu trung tâm sang các thiết kế “hướng theo miền dữ liệu” có thể được tùy chỉnh và “phù hợp với mục đích” để cải thiện thời gian xây dựng sản phẩm dữ liệu và dịch vụ dữ liệu mới. Với cách tiếp cận này, mặc dù các tập dữ liệu vẫn có thể nằm trên cùng một nền tảng hạ tầng vật lý, nhưng mỗi một khối nghiệp vụ trong một tổ chức có thể tổ chức các tập dữ liệu của họ theo một cách dễ dàng hơn theo yêu cầu đặc thù của khu vực mình đồng thời cũng thuận tiện cho việc cung cấp các dịch vụ phối hợp với các khối nghiệp vụ khác. Tuy nhiên, cách tiếp cận này được áp dụng đối với các tổ chức có lượng dữ liệu lớn, và khi triển khai đòi hỏi phải có sự đánh giá đảm bảo cân bằng tránh việc phân chia quá nhỏ các miền dữ liệu sẽ trở lên sự phân mảnh và kém hiệu quả. Xu hướng này mang lạ ưu điểm là có thể rút ngắn được thời gian để tái hoạch địch các mô hình dữ liệu mới khi có sự thay đổi về yêu cầu nghiệp vụ khi việc thay đổi chỉ cần sảy ra trong một miền dữ liệu xác định.

6. Từ các mô hình dữ liệu cố định sang các lược đồ dữ liệu linh hoạt, có thể mở rộng

Các mô hình dữ liệu được xác định trước từ các nhà cung cấp phần mềm và các mô hình dữ liệu độc quyền phục vụ nhu cầu phân tích dữ liệu BI thường được xây dựng trong các lược đồ chuẩn hóa cao với các bảng cơ sở dữ liệu được cứng hóa và các phần tử dữ liệu được tổ chức để giảm thiểu dư thừa. Mặc dù cách tiếp cận này vẫn là tiêu chuẩn cho các trường hợp thiết kế kiến trúc dữ liệu tập trung vào cung cấp các hình thức báo cáo dữ liệu đa chiều xác định trước. Tuy nhiên, việc này sẽ phức tạp và đòi hỏi phải can thiệp sâu khi có sự thay đổi từ cấu trúc dữ liệu đầu vào và xuất hiện các đối tượng dữ liệu mới. Việc này mất thời gian và cũng ảnh hưởng đến sự toàn vẹn của dữ liệu khi thay đổi.

Để có được tính linh hoạt cao hơn và lợi thế khi khám phá dữ liệu hoặc hỗ trợ phân tích nâng cao, các tổ chức đang phát triển sang các phương pháp tiếp cận mới là “giản đồ”, sử dụng các mô hình dữ liệu không chuẩn hóa, có ít bảng vật lý hơn, để tổ chức dữ liệu cho hiệu suất tối đa. Cách tiếp cận này mang lại một loạt lợi ích: khám phá dữ liệu nhanh, linh hoạt hơn trong việc lưu trữ dữ liệu có cấu trúc và phi cấu trúc, đồng thời giảm độ phức tạp vì không còn các mối quan hệ ràng buộc chặt.

Các kỹ thuật Data Vault 2.0 là một ví dụ điển hình, kiến trúc này có thể đảm bảo rằng các mô hình dữ liệu có thể mở rộng được để các phần tử dữ liệu và có thể được thêm vào cũng như loại bỏ trong tương lai với sự hạn chế thấp nhất sự thay đổi của hệ thống.

Cơ sở dữ liệu đồ thị , một loại cơ sở dữ liệu NoSQL, đã được chú ý trong những năm gần đây. Cơ sở dữ liệu NoSQL nói chung là lý tưởng cho các ứng dụng đòi hỏi khả năng mở rộng lớn và khả năng đáp ứng thời gian thực đối với các lọa dữ liệu phục vụ các ứng dụng AI, nhờ khả năng khai thác dữ liệu phi cấu trúc. Đặc biệt, cơ sở dữ liệu đồ thị cung cấp khả năng mô hình hóa các mối quan hệ bên trong dữ liệu một cách mạnh mẽ và linh hoạt. Nhiều tổ chức đang xây dựng kho dữ liệu tổng thể bằng cách sử dụng cơ sở dữ liệu đồ thị để phù hợp với các mô hình thông tin đang thay đổi.

Các dịch vụ công nghệ  như Azure Synapse Analytics cho phép truy vấn dữ liệu dựa trên tệp tương tự như cơ sở dữ liệu quan hệ bằng cách áp dụng động cấu trúc bảng vào tệp. Điều này cung cấp cho người dùng sự linh hoạt để tiếp tục sử dụng các giao diện phổ biến như SQL trong khi truy cập dữ liệu được lưu trữ trong tệp.

Công nghệ dữ liệu đang phát triển nhanh chóng, điều này làm cho việc xây dựng các kiến trúc dữ liệu phức tạp kéo dài 3-5 năm là không hiệu quả và mang lại rủi ro cao. Điều này khiến cho các chuyên gia và về dữ liệu phải liên tục nghiên cứu, tìm kiếm các kiến trúc dữ liệu mới để có thể nhanh chóng thích ứng và xây dựng một kiến trúc dữ liệu hiệu quả hơn. Với 6 xu hướng dịch chuyển được coi là trọng tâm được đúc kết từ quá trình triển khai thực tế cua các chuyên gia dữ liệu, đây là có thể nói là tóm tắt của bức tranh toàn cảnh về xu thế biến đổi mới trong kiến trúc dữ liệu đang diễn ra hiện nay.

 

Tài liệu tham khảo

https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/how-to-build-a-data-architecture-to-drive-innovation-today-and-tomorrow

https://textile-future.com/archives/48297

https://flipboard.com/article/how-to-build-a-data-architecture-to-drive-innovation--today-and-tomorrow/a-KUNYz9SkQ7yBsPYK-vf9yA%3Aa%3A252147372-5afed42356%2Fmckinsey.com

 


Tin xem nhiều

placeholder image

Các câu hỏi để kiểm tra mức độ an toàn khi chia sẻ dữ liệu