Tin tức và phân tích của tất cả các thiết bị di động

“80% thời gian được dành để dọn dẹp dữ liệu lớn”

Con đường từ dữ liệu lớn đến phân tích cuối cùng của nó có một điểm dừng trung gian rất quan trọng: điểm dừng sắp xếp dữ liệu hoặc dọn dẹp và sắp xếp thông tin đến từ các nguồn dữ liệu khác nhau.

Thế giới dữ liệu lớn chủ yếu xoay quanh lượng dữ liệu khổng lồ. Mà đi mà không nói. Nhưng điều bạn có thể không nhận ra ngay là tất cả dữ liệu đó đều đến từ nhiều nguồn, cả bên trong lẫn bên ngoài và do đó có thể khác nhau đáng kể về cấu trúc và định dạng. Ví dụ: bạn có thể muốn kết hợp dữ liệu từ phương tiện truyền thông xã hội với dữ liệu giao dịch từ cơ sở dữ liệu của riêng bạn hoặc với nhật ký từ máy chủ web.

Để tạo ra trật tự từ sự hỗn loạn, trước tiên tất cả các nguồn dữ liệu đó phải được phối hợp. Chỉ khi đó chúng mới có thể được nhập vào để phân tích thêm. Quá trình dọn dẹp, tinh chỉnh và chọn dữ liệu mong muốn đó được gọi là sắp xếp dữ liệu. Trong nhiều trường hợp, tranh cãi là một quá trình thủ công.

Theo Bertrand Cariou, người chịu trách nhiệm về các giải pháp tiếp thị và đối tác tại American Trifacta, không dưới 80% thời gian phân tích được dành cho việc tranh luận về dữ liệu lớn. Nếu quy trình đó có thể được đơn giản hóa, điều này không chỉ có nghĩa là tiết kiệm được rất nhiều thời gian mà còn có nghĩa là các công ty có thể nhanh chóng hưởng lợi từ kết quả phân tích và các quyết định đi kèm từ đó.

Theo nghiên cứu của Dresner Advisory Services, Trifacta là nhà cung cấp số một các công cụ chuẩn bị dữ liệu cho người dùng cuối trong ba năm liên tiếp. Những công cụ như vậy nhằm mục đích loại bỏ sự phức tạp của các báo cáo dữ liệu lớn và làm cho chúng dễ tiếp cận hơn đối với những người dùng doanh nghiệp ít chuyên môn hơn. Trifacta Wrangler là một công cụ, một mặt, trực quan hóa các nguồn dữ liệu để dễ dàng điều chỉnh, mặt khác, đưa ra đề xuất cho người dùng, dựa trên công nghệ học máy, về các hành động logic tiếp theo. Cariou nói: “Chúng tôi là duy nhất ở khía cạnh đó”. Các đối thủ cạnh tranh của Trifacta bao gồm Datameer và đặc biệt là Paxata.

Hadoop

Trifacta đã thu hút được khá nhiều sự chú ý kể từ năm 2012 bằng cách cung cấp phiên bản miễn phí của công cụ Wrangler của họ. Bertrand Cariou giải thích: “Phiên bản này hoạt động cục bộ và bị giới hạn ở tập dữ liệu có kích thước tối đa 100 megabyte, nhưng chúng tôi nhận thấy rằng đây là điểm truy cập lý tưởng cho các khách hàng trong tương lai”. Hiện tại có khoảng 10.000 người dùng Trifacta Wrangler.

Phiên bản Enterprise trả phí của Wrangler không áp đặt bất kỳ hạn chế kích thước dữ liệu nào, nhưng nó yêu cầu phải có môi trường Hadoop đang hoạt động, điều này chắc chắn không quá rõ ràng đối với các khách hàng nhỏ hơn.

Trifacta nhận ra rất rõ rằng có một khoảng cách giữa sản phẩm miễn phí và sản phẩm trả phí. Gần đây, họ đã đưa ra giải pháp tạm thời, Wrangler Edge, loại bỏ yêu cầu đối với Hadoop nhưng vẫn cho phép làm việc với các tập dữ liệu lớn.

Một thị trường tương đối mới mà Trifacta hiện đang khai thác triệt để là thị trường của các tổ chức tài chính, nơi các báo cáo được yêu cầu về mặt pháp lý cho cơ quan giám sát – đôi khi thậm chí được thực hiện hàng ngày – kéo theo chi phí ngày càng tăng, chủ yếu dành cho khách hàng châu Âu. Bertrand Cariou: “Hiện tại, 60 đến 70% cơ sở khách hàng châu Âu của chúng tôi bao gồm các tổ chức tài chính.”

Bài viết này là một phần của chúng tôi “Ứng dụng kinh doanh tại Thung lũng Silicon” đặc biệt, nơi Kinh doanh thông minh gặp gỡ độc quyền với một số công ty và công ty khởi nghiệp triển vọng nhất của Mỹ muốn cách mạng hóa thế giới kinh doanh bằng công nghệ của họ.

//www.smartbiz.be/background/170549/meet-9-khởi nghiệp Mỹ-lắc-the-b2b-lĩnh vực-chia sẻ-1/