08/06/2016

14644

Vài nét về Dữ liệu lớn (Big Data) và ứng dụng của nó trong cuộc sống

Ngày nay, sự phát triển không ngừng của khoa học kỹ thuật, tiêu biểu như sự ra đời của Internet và các thiết bị điện thoại, máy tính cá nhân, đã mang lại những đổi thay lớn lao trên mọi lĩnh vực đời sống
Nguyễn Ngọc Minh - Phòng NCKH & HTQT
            Ngày nay, sự phát triển không ngừng của khoa học kỹ thuật, tiêu biểu như sự ra đời của Internet và các thiết bị điện thoại, máy tính cá nhân, đã mang lại những đổi thay lớn lao trên mọi lĩnh vực đời sống. Trong kỷ nguyên của IoT2 với việc ứng dụng và tích hợp sâu rộng các thiết bị di động như điện thoại di động, ô tô, và máy móc công nghiệp góp phần vào việc tạo và chuyển dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập được. Trong dòng thác dữ liệu liên tục được tạo ra từng giây, thuật ngữ Big Data (Dữ liệu lớn) được sử dụng để chỉ những bộ dữ liệu khổng lồ, chủ yếu không có cấu trúc, được thu thập từ nhiều nguồn khác nhau. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Trong công tác nghiên cứu khoa học, Big Data đang mang lại các nhà nghiên cứu cơ hội tiếp cận và giải quyết rất nhiều vấn đề hóc búa mà trước đây không thể hoặc rất khó thực hiện. Qua bài viết này, tác giả muốn giới thiệu về khái niệm Big Data đang ngày càng phổ biến và những ứng dụng của nó trong đời sống hiện này.


A.     Định nghĩa và đặc trưng của Big Data
Big Data là thuật ngữ dùng để mô tả các bộ dữ liệu có kích thước rất lớn, khả năng phát triển nhanh, và rất khó thu thập, lưu trữ, quản lý và phân tích với các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. Theo một báo cáo của IDC, năm 2011, lượng dữ liệu được tạo ra trên thế giới là 1.8ZB3, tăng gần 9 lần chỉ trong 5 năm. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi. Theo Lê & Nguyễn (2014), có 4 đặc điểm chính được sử dụng đề mô tả Big Data bao gồm Dung lượng (volume), Tốc độ (velocity), Tính đa dạng (variety), và Giá trị (value):
Dung lượng (Volume): Dung lượng của Big Data đang tăng lên mạnh mẽ từng ngày. Theo tài liệu của Intel vào tháng 9/2013, cứ mỗi 11 giây, 1 petabyte dữ liệu được tạo ra trên toàn thế giới, tương đương với một đoạn video HD dài 13 năm.
Tốc độ (velocity): là tốc độ mà tại đó dữ liệu được phân tích bởi các công ty để cung cấp một trải nghiệm người dùng tốt hơn. Với sự ra đời của các kỹ thuật, công cụ, ứng dụng lưu trữ, nguồn dữ liệu liên tục được bổ sung với tốc độ nhanh chóng. Tổ chức McKinsey Global ước tính lượng dữ liệu đang tăng trưởng với tốc độ 40%/năm, và sẽ tăng 44 lần từ năm 2009 đến 2020.
Tính đa dạng (variety): Dữ liệu được thu thập từ nhiều nguồn khác nhau, từ các thiết bị cảm biến, thiết bị di động, qua mạng xã hội .v.v…
Giá trị (value): là quá trình trích xuất các giá trị to lớn đang tiềm ẩn trong các bộ dữ liệu khổng lồ. Đây là đặc trưng quan trọng nhất bởi các thông tin trích xuất được từ việc phân tích Dữ liệu lớn có thể được sử dụng trong rất nhiều lĩnh vực như kinh doanh, nghiên cứu khoa học, y học, vật lý…

B.     Một vài ứng dụng của Big Data trong cuộc sống
Big Data đang ngày càng được sử dụng rộng rãi trong các lĩnh vực, tổ chức với nhiều mục đích khác nhau. Chẳng hạn, các công ty sử dụng Big Data để tìm hiểu hành vi tiêu dùng của khách hàng từ đó đưa ra các đề xuất mua sắm cá nhân hóa cho từng đối tượng dựa trên thông tin thu thập được từ họ (Ebay, Facebook, Google…). Các cơ sở nghiên cứu khoa học sử dụng Big Data để tìm ra những khám phá khoa học mới cho nhân loại, ví dụ như xây dựng bản đồ gene của con người, hay tiêu biểu như các nghiên cứu tại trong máy gia tốc Hadron của Tổ chức Nghiên cứu Nguyên tử Châu Âu, nếu các kết quả thu được từ các cảm biến trong máy được ghi nhận đầy đủ, luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, gấp 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp lại.  
 
Với sự phổ biến ngày càng nhiều của công nghệ thông tin, Big Data là chủ đề nhận được rất nhiều sự quan tâm từ các nhà nghiên cứu. Hsinchu & Chiang (2012) đã phân tích các ứng dụng của Big Data trong các lĩnh vực thương mại điện tử, chính phủ điện tử, khoa học công nghệ, chăm sóc sức khỏe. O’Leary (2013) đề cập tới ứng dụng của Dữ liệu lớn trong trong quản lý cơ sở hạ tầng đường bộ. Khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Trong năm 2016, khi đài quan sát LSST thay thế cho SDSS đi vào hoạt động dự kiến sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày (Duy Luân, 2013).
Theo Lê & Nguyễn (2014), trong lĩnh vực thương mại nói riêng, Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp. Bằng việc khai thác nền tảng phân tích dữ liệu lớn, các doanh nghiệp có thể khám phá các giá trị tiềm ẩn to lớn, thông qua các khung nhìn tổng hợp về hành vi mua hàng của khách hàng. Chẳng hạn, các công ty kinh doanh qua mạng chẳng những có thể theo dõi để biết được không chỉ những thông tin như khách hàng mua gì, mà còn biết được họ xem những mặt hàng nào, họ xem những gì, làm gì mỗi lần họ truy cập vào trang web, hay mức độ khách hàng bị tác động bởi những chính sách khuyến mãi hay bình luận từ những khách hàng khác; từ đó phát hiện ra được những điểm chung của những nhóm khách hàng.
Có thể nói, Big Data, dù mới được nhắc tới trong thời gian gần đây, vẫn đang ngày càng càng được nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực khác. Tuy nhiên, trong khuôn khổ bài viết này, tác giả chỉ tóm lược một số đặc điểm và ứng dụng của Big Data trong các lĩnh vực. Trong các bài viết tiếp theo, tác giả sẽ đi sâu phân tích kỹ lưỡng hơn các ý kiến trái chiều về lợi ích và giới hạn của Big Data.