▷ Đứng đầu 6 xu hướng phân tích dữ liệu năm 2023

Trong nhiều thập kỷ, quản lý dữ liệu về cơ bản có nghĩa là thu thập, lưu trữ và đôi khi truy cập dữ liệu đó. Tất cả đã thay đổi trong những năm gần đây, khi các doanh nghiệp tìm kiếm thông tin quan trọng có thể được lấy từ lượng dữ liệu khổng lồ được tạo, truy cập và lưu trữ ở vô số vị trí, từ trung tâm dữ liệu của công ty đến đám mây và biên. Do đó, phân tích dữ liệu – được hỗ trợ bởi các công nghệ hiện đại như trí tuệ nhân tạo (AI) và học máy – đã trở thành một khả năng bắt buộc phải có và vào năm 2022, tầm quan trọng sẽ càng được nâng cao.

Các doanh nghiệp cần nhanh chóng phân tích dữ liệu – phần lớn dữ liệu không có cấu trúc – để tìm thông tin sẽ thúc đẩy các quyết định kinh doanh. Họ cũng cần tạo ra một môi trường dữ liệu hiện đại để biến điều đó thành hiện thực.

Dưới đây là một số xu hướng quản lý dữ liệu sẽ nổi lên vào năm 2022.

Các hồ dữ liệu được tổ chức tốt hơn nhưng vẫn tồn tại khoảng trống dữ liệu phi cấu trúc

Có hai cách tiếp cận để phân tích dữ liệu doanh nghiệp. Đầu tiên là lấy dữ liệu từ các ứng dụng kinh doanh như CRM và ERP và nhập dữ liệu vào kho dữ liệu để cung cấp công cụ BI. Giờ đây, những kho dữ liệu đó đang chuyển sang đám mây với các công nghệ như Snowflake. Cách tiếp cận này được hiểu rõ vì dữ liệu có lược đồ nhất quán.

Cách tiếp cận thứ hai là lấy bất kỳ dữ liệu thô nào và nhập trực tiếp vào hồ dữ liệu mà không yêu cầu xử lý trước. Điều này thật hấp dẫn vì bất kỳ loại dữ liệu nào cũng có thể được chuyển vào hồ dữ liệu và đây là lý do tại sao Amazon S3 đã trở thành một hồ dữ liệu khổng lồ. Vấn đề là, một số dữ liệu dễ xử lý hơn những dữ liệu khác. Ví dụ: tệp nhật ký, dữ liệu gen, tệp âm thanh, video, hình ảnh và những thứ tương tự không vừa khít với kho dữ liệu vì chúng thiếu cấu trúc nhất quán, điều đó có nghĩa là khó tìm kiếm trên toàn bộ dữ liệu. Do đó, các hồ dữ liệu cuối cùng trở thành đầm lầy dữ liệu: quá khó để tìm kiếm, trích xuất và phân tích những gì bạn cần.

Xu hướng lớn hiện nay và xu hướng dữ liệu tiếp tục cho năm 2022 là sự xuất hiện của các nhà hồ dữ liệu, được DataBricks phổ biến, để tạo ra các hồ dữ liệu với dữ liệu bán cấu trúc có một số tính nhất quán về ngữ nghĩa. Ví dụ: một tệp Excel giống như một cơ sở dữ liệu mặc dù nó không phải là một cơ sở dữ liệu, do đó, các kho dữ liệu tận dụng lược đồ nhất quán của dữ liệu bán cấu trúc. Mặc dù cách này hoạt động với các tệp .csv, tệp Parquet và dữ liệu bán cấu trúc khác nhưng nó vẫn không giải quyết được vấn đề về dữ liệu phi cấu trúc vì dữ liệu này không có cấu trúc chung rõ ràng. Bạn cần một số cách lập chỉ mục và suy ra cấu trúc chung cho dữ liệu phi cấu trúc để nó có thể được tối ưu hóa cho phân tích dữ liệu. Việc tối ưu hóa dữ liệu phi cấu trúc để phân tích này là một lĩnh vực lớn cần đổi mới, đặc biệt vì ít nhất 80% dữ liệu trên thế giới ngày nay là phi cấu trúc.

Khoa học công dân sẽ là một xu hướng có liên quan và có ảnh hưởng vào năm 2022

Trong nỗ lực dân chủ hóa khoa học dữ liệu, các nhà cung cấp đám mây sẽ phát triển và phát hành thêm nhiều ứng dụng học máy cũng như các công cụ khối xây dựng khác như quy trình học máy theo miền cụ thể. Đây là một xu hướng có ảnh hưởng sâu rộng, bởi vì, theo thời gian, mức độ mà các cá nhân cần viết mã sẽ giảm đi. Điều này sẽ mở ra khả năng học máy cho nhiều vai trò công việc hơn: một số nhà khoa học công dân này sẽ làm việc trong lĩnh vực CNTT trung tâm và một số sẽ làm việc trong các ngành kinh doanh. Amazon Canvas Sagemaker chỉ là một ví dụ về các công cụ mã ngắn/không mã mà chúng ta sẽ thấy nhiều hơn vào năm 2022. Khoa học công dân còn khá non trẻ nhưng chắc chắn đó là nơi thị trường đang hướng tới và là xu hướng dữ liệu sắp tới cho năm 2022. Nền tảng dữ liệu và các giải pháp quản lý dữ liệu mang lại sự đơn giản giống như người tiêu dùng để người dùng tìm kiếm, trích xuất và sử dụng dữ liệu sẽ nổi bật.

Phân tích ‘Dữ liệu phù hợp’ sẽ vượt qua phân tích Dữ liệu lớn như một xu hướng chính của năm 2022

Dữ liệu lớn gần như quá lớn và đang tạo ra các đầm lầy dữ liệu khó tận dụng. Việc tìm kiếm chính xác dữ liệu phù hợp tại chỗ bất kể dữ liệu đó được tạo ở đâu và sử dụng dữ liệu đó để phân tích dữ liệu là một yếu tố thay đổi cuộc chơi vì nó sẽ tiết kiệm nhiều thời gian và công sức thủ công trong khi đưa ra phân tích phù hợp hơn. Vì vậy, thay vì Dữ liệu lớn, một xu hướng mới sẽ là sự phát triển của cái gọi là “phân tích dữ liệu phù hợp”.

Phân tích dữ liệu “tại chỗ” sẽ chiếm ưu thế

Một số nhà tiên lượng cho rằng hồ dữ liệu đám mây sẽ là nơi cuối cùng nơi dữ liệu sẽ được thu thập và xử lý cho các hoạt động nghiên cứu khác nhau. Trong khi các hồ dữ liệu trên đám mây chắc chắn sẽ thu hút được sự chú ý thì dữ liệu đang chồng chất ở khắp mọi nơi: ở biên, trên đám mây và trong bộ lưu trữ tại chỗ. Trong một số trường hợp, điều này đòi hỏi phải xử lý và phân tích dữ liệu ở đúng vị trí thay vì di chuyển dữ liệu vào vị trí trung tâm vì làm như vậy nhanh hơn và rẻ hơn. Làm thế nào bạn không chỉ có thể tìm kiếm dữ liệu ở biên mà còn có thể xử lý nhiều dữ liệu cục bộ trước khi gửi dữ liệu đó lên đám mây? Bạn có thể sử dụng các công cụ phân tích dữ liệu dựa trên đám mây cho các dự án lớn hơn, phức tạp hơn. Chúng ta sẽ thấy nhiều “đám mây biên” hơn, trong đó việc tính toán đến rìa của trung tâm dữ liệu thay vì dữ liệu đi lên đám mây.

Quản lý dữ liệu bất khả tri về lưu trữ sẽ trở thành một thành phần quan trọng của cơ cấu dữ liệu hiện đại

Cấu trúc dữ liệu là một kiến trúc cung cấp khả năng hiển thị dữ liệu và khả năng di chuyển, sao chép và truy cập dữ liệu trên các tài nguyên lưu trữ và đám mây kết hợp. Thông qua phân tích gần thời gian thực, nó giúp chủ sở hữu dữ liệu kiểm soát nơi dữ liệu của họ tồn tại trên các đám mây và bộ lưu trữ để dữ liệu có thể nằm ở đúng nơi vào đúng thời điểm. Các nhà quản lý CNTT và lưu trữ sẽ chọn kiến trúc kết cấu dữ liệu để mở khóa dữ liệu từ bộ lưu trữ và cho phép quản lý tập trung vào dữ liệu so với tập trung vào lưu trữ. Ví dụ: thay vì lưu trữ tất cả hình ảnh y tế trên cùng một NAS, các chuyên gia lưu trữ có thể sử dụng phân tích và phản hồi của người dùng để phân đoạn các tệp này, chẳng hạn như bằng cách sao chép hình ảnh y tế để truy cập bằng máy học trong nghiên cứu lâm sàng hoặc di chuyển dữ liệu quan trọng sang bộ lưu trữ đám mây bất biến để bảo vệ chống lại ransomware.

Multicloud sẽ phát triển với các chiến lược dữ liệu khác nhau

Nhiều tổ chức ngày nay có một môi trường đám mây lai trong đó phần lớn dữ liệu được lưu trữ và sao lưu tại các trung tâm dữ liệu riêng tư trên nhiều hệ thống của nhà cung cấp. Khi dữ liệu (tệp) phi cấu trúc tăng lên theo cấp số nhân, đám mây đang được sử dụng làm tầng lưu trữ thứ cấp hoặc cấp ba. Có thể khó nhìn thấy các bộ phận quản lý chi phí, đảm bảo hiệu suất và quản lý rủi ro. Do đó, các nhà lãnh đạo CNTT nhận ra rằng việc trích xuất giá trị từ dữ liệu trên các đám mây và môi trường tại chỗ là một thách thức ghê gớm. Chiến lược Multicloud hoạt động tốt nhất khi các tổ chức sử dụng các đám mây khác nhau cho các trường hợp sử dụng và tập dữ liệu khác nhau. Tuy nhiên, điều này lại gây ra một vấn đề khác: việc di chuyển dữ liệu rất tốn kém khi và nếu sau này bạn cần di chuyển dữ liệu từ đám mây này sang đám mây khác. Một khái niệm mới hơn là kéo tính toán về dữ liệu ở một nơi. Vị trí trung tâm đó có thể là một trung tâm colocation có liên kết trực tiếp tới các nhà cung cấp đám mây. Multicloud sẽ phát triển với các chiến lược khác nhau: đôi khi tính toán sẽ đến với dữ liệu của bạn, đôi khi dữ liệu nằm trên nhiều đám mây.

Các doanh nghiệp tiếp tục chịu áp lực ngày càng tăng trong việc áp dụng các chiến lược quản lý dữ liệu cho phép họ lấy được thông tin hữu ích từ cơn sóng thần dữ liệu để đưa ra các quyết định kinh doanh quan trọng. Phân tích dữ liệu sẽ là trọng tâm của nỗ lực này, cũng như tạo ra các kết cấu dữ liệu mở và dựa trên tiêu chuẩn cho phép các tổ chức kiểm soát tất cả dữ liệu này để phân tích và hành động.

Bài viết này về phân tích dữ liệu ban đầu được xuất bản trong Liên doanhBeat và được sao chép với sự cho phép.

Mục lục

đầu DU dụng Hướng liệu năm Phan tích

Đứng đầu 6 xu hướng phân tích dữ liệu năm 2023