Back Menu

VnPro

Search
Hiểu về Big Data, bắt kịp xu hướng công nghệ

Hiểu về Big Data, bắt kịp xu hướng công nghệ

Big Data thay đổi cách thức mà mọi người làm việc và tương tác với nhau trong tổ chức, thay đổi văn hóa doanh nghiệp và quan điểm của IT leader về việc khai thác giá trị của dữ liệu mà doanh nghiệp thu thập được. Nếu biết khai thác, Big Data giúp ta đưa ra quyết định thông minh, chính xác, tối ưu hóa quy trình vận hành tổ chức, giảm thiểu rủi ro và bất cập và đem lại những dịch vụ giá trị mới có tính cạnh tranh, gia tăng lượng khách hàng cho doanh nghiệp dịch vụ. Theo số liệu thống kê của Fortune 1000 firms report, trong số các doanh nghiệp và công ty được phỏng vấn, có khoảng 63% công ty xác nhận họ sẵn sàng chi chơn 10 triệu USD cho công nghệ Big Data và có khoảng 27% sẽ đầu tư hơn 50 triệu USD cho công nghệ này; 70% công ty xác nhận Big Data đóng vai trò sống còn và thực sự quan trọng đối với quá trình phát triển của doanh nghiệp.

Big Data là thuật ngữ được sử dụng để ám chỉ một khối lượng lớn dữ liệu có cấu trúc structured data (SQL datastores) hoặc không có cấu trúc rõ ràng unstructured data (dữ liệu chưa được xử lý bằng bất kỳ software tool nào chẳng hạn như document file, streaming data thu thập được từ các cảm biến sensors) và không thể được xử lý bằng các hình thức lưu trữ, kỹ thuật phân tích bằng phần mềm truyền thống khi khối lượng dữ liệu của doanh nghiệp ngày càng tăng vượt ra khỏi khả năng xử lý của hệ thống server lẫn server cluster hiện tại. Thách thức đặt ra đối với Big Data là quá trình thu thập dữ liệu, lưu trữ và xử lý như thế nào. Do đó, Big Data thường được mô tả với đặc tính 3V (Volume, Variety, Velocity) với thuật ngữ Volume ám chỉ khối lượng rất lớn của dữ liệu thường phải áp dụng kỹ thuật điện toán đám mây Cloud để lưu trữ (Hadoop và Red Had cung cấp công nghệ lưu trữ đám mây Cloud-based storage), Variety ám chỉ sự đa dạng về kiểu, loại dữ liệu data type, Velocity ám chỉ phương thức để xử lý dữ liệu, năng lực xử lý cần phải theo kịp khối lượng dữ liệu ngày càng gia tăng về kích cỡ, điều này đòi hỏi phải có hàng trăm hoặc thậm chí hàng ngàn server phối hợp với nhau tham gia vào việc phân tích và xử lý thông tin nên Big Data thường được xử lý bằng phương thức “public cloud computing”.

Các nhà cung cấp dịch vụ xử lý Big Data được gọi là các nhà cung cấp Public Cloud Provider có khả năng lưu trữ dữ liệu lên đến đơn vị petabyte và vận hành hàng ngàn máy chủ server để có thể xử lý được khối lượng lớn dữ liệu Big Data. Phía doanh nghiệp chỉ cần trả phí cho dịch vụ lưu trữ và khoảng thời gian xử lý thông tin (compute time) đã sử dụng và các cloud instance có thể tạm thời được tắt đi (turned off) cho đến lần xử lý tiếp theo. Một trong những nhà cung cấp dịch vụ điện toán đám mây Public Cloud về Big Data Service có thể kể đến là Amazon Web Services Elastic MapReduce. Nếu doanh nghiệp muốn tự xây dựng hệ thống xử lý Big Data có thể tìm kiếm các công cụ Hadoop Appliance để xây dựng hệ thống phân phối các tác vụ xử lý ra nhiều thiết bị phần cứng.

Thông thường, để xử lý khối lượng dữ liệu cực lớn như Big Data, ta cần sử dụng tới trí thông minh nhân tạo AI (Artificial Intelligence) dựa trên thuật toán nhận thức truy tìm các mẫu pattern có tính chất giống nhau trong dữ liệu thu thập được (collected data). Big Data khác với Small Data, Small Data có thể được xử lý ngay trong chính doanh nghiệp, tổ chức (self-service analytics) nhưng Big Data lại đặt ra nhiều thách thức hơn với phương châm “Big Data dành cho thiết bị tự động machines, Small Data dành cho nhân sự, người (people) xử lý”. Đặc biệt, AI phù hợp để giải quyết các tác vụ có tính chất lặp đi lặp lại để giải phóng sức lao động con người trong các tác vụ này chẳng hạn như tự động thống kê số lượng đơn vị sản phẩm đặt hàng từ các đại lý để nhập hàng và xuất kho với số lượng hợp lý, tự động xác định giá của sản phẩm dựa vào số lượng đơn vị sản phẩm đặt hàng. Amazon là một trong những đơn vị tiên phong đã áp dụng kỹ thuật AI để giúp xác định giá cả chính thức của các mặt hàng một cách tự động, các discount ưu đãi.

Các cửa hàng sách cũng có thể áp dụng trí thông minh nhân tạo AI để xác định các đầu sách đã bán ra, các đầu sách còn tồn kho; đặc biệt khi cửa hàng kết hợp với việc bán sách online, trí thông minh nhân tạo AI giúp xác định, thống kê số lượng sản mà mỗi khách hàng đã mua, đánh giá mức độ tăng trưởng trong tháng, dự đoán các đầu sách nào sẽ bán chạy nhất, các đầu sách nào sẽ được chào đón.

Một số đơn vị phải đối mặt với xu hướng Big Data là các doanh nghiệp cung cấp dịch vụ Web Search (Google), những từ điển trực tuyến như Wikipedia. Khi Big Data trở nên phổ biến thì các đơn vị lưu trữ petabyte hoặc exabyte cũng sẽ trở nên phổ biến theo, với 1 petabyte tương đương với 1,024 terabytes và 1 exabyte tương đương với 1,024 petabytes.

Một số ứng dụng trên thiết bị di động mobile device như Tala cho phép kiểm tra trạng thái Credit Status (cho phép vay vốn hoặc không cho phép) ở Kenya cho phép tổ chức tín dụng sở hữu chương trình Tala truy cập dữ liệu của người dùng smartphone. Tổ chức này sau đó có thể thu thập được hơn 10.000 data point khác nhau, sau khi thu thập thông tin và phân tích bằng giải thuật hợp lý, từ đó tổ chức tín dụng này đánh được các nhu cầu của người dùng, đánh giá được nguồn thu nhập ổn định của các đối tượng khách hàng và lọc ra được những đối tượng nào có khả năng thanh toán khoản vay rồi tung ra các gói tín dụng cho vay có giá trị từ 50$ tới 500% với tỷ lệ 95% khoản vay đã được thu hồi thành công; đây là điều mà bất kỳ ngân hàng tín dụng nào đều ao ước tới. Chẳng hạn, tổ chức tín dụng thu thập thông tin các khách hàng có tài khoản gửi tiết kiệm, đã từng có những khoảng vay và thu hồi vốn thành công trước đó với các ngân hàng khác và nếu ứng dụng Tala có khả năng tự đánh giá các đối tượng khách hàng đó thì tỉ lệ thu hồn vốn từ các khoản vay của tổ chức tín dụng có thể lên tới 100%, các khoản rủi ro có thể giảm thiểu đáng kể.

Một sản phẩm giá trị thành công khác từ việc phân tích dữ liệu Big Data đó chính là dịch vụ vận tải khách Uber. Dữ liệu thu thập được là hành trình di chuyển của phương tiện vận chuyển (xe hơi, taxi) theo thời gian thực và vị trí của các thiết bị di động người dùng (điện thoại smartphone). Nhưng sự thành công của Uber không phải nằm ở việc thu thập dữ liệu Big Data mà nằm ở chỗ nó cho phép công ty, doanh nghiệp đưa ra thị trường một sản phẩm dịch vụ mới và tạo thêm việc làm cũng như đáp ứng được nhu cầu thực tiễn của người dùng nhờ vào việc dữ liệu Big Data được thu thập và xử lý một cách hiệu quả, chính xác và có giá trị sử dụng. Uber không còn dựa vào các thông tin cuộc gọi từ khách hàng hay từ bộ đàm từ các tài xế để xác định vị trí. Trí thông minh nhân tạo AI có thể được áp dụng để xử lý dữ liệu, tự động gửi yêu cầu cho một tài xế tới vị trí của khách hàng, tự động báo giá cho khách hàng dựa trên số đơn vị kilomet.

Một số giải pháp về thuật toán phân tích dữ liệu Big Data (Big Data Analytics as a Service solution) có thể kể đến như Wipro chạy trên nền tảng Microsoft Azure Data Discovery Platform có thể được áp dụng đối với các doanh nghiệp và tổ chức như ngân hàng banking, tổ chức tín dụng financial service, cửa hàng retail, năng lượng enery, giáo dục education và sản xuất manufacturing; giải pháp phân tích dữ liệu  Data Analytics Meister Service của Hitachi.

Comments

comments