Bạn đã từng nghe về Big Data hay Dữ liệu lớn chưa? - Bài viết sau sẽ cung cấp thông tin chi tiết về Big Data

Trang chủ»MÔN HỌC»MÔN TIN HỌC»Bạn đã từng nghe về Big Data hay Dữ liệu lớn chưa? - Bài viết sau sẽ cung cấp thông tin chi tiết về Big Data

Bạn đã từng nghe về Big Data hay Dữ liệu lớn chưa? - Bài viết sau sẽ cung cấp thông tin chi tiết về Big Data

15/03/2022 - 13:26

 Dữ liệu lớn chính xác là gì?

 

Định nghĩa về dữ liệu lớn là dữ liệu có chứa nhiều loại dữ liệu hơn (variety), đến với khối lượng ngày càng tăng (volumes) và với tốc độ nhanh hơn (velocity). Đây còn được gọi là ba chữ V.

 

Nói một cách đơn giản, dữ liệu lớn là những tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ các nguồn dữ liệu mới. Các tập dữ liệu này quá lớn đến nỗi phần mềm xử lý dữ liệu truyền thống không thể quản lý chúng. Nhưng khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các vấn đề kinh doanh mà trước đây bạn không thể giải quyết.

 

big-data-la-gi

 

 

Ba chữ V của dữ liệu lớn

 

Volume:      Số lượng dữ liệu quan trọng. Với dữ liệu lớn, bạn sẽ phải xử lý khối lượng lớn dữ liệu phi cấu trúc, mật độ thấp. Đây có thể là dữ liệu có giá trị không xác định, chẳng hạn như nguồn cấp dữ liệu Twitter, dòng nhấp chuột trên trang web hoặc ứng dụng dành cho thiết bị di động hoặc thiết bị hỗ trợ cảm biến. Đối với một số tổ chức, đây có thể là hàng chục terabyte dữ liệu. Đối với những người khác, nó có thể là hàng trăm petabyte.

 

Velocity:     Tốc độ là tốc độ nhanh chóng mà dữ liệu được nhận và (có thể) được thực hiện. Thông thường, tốc độ cao nhất của luồng dữ liệu trực tiếp truy cập vào bộ nhớ so với được ghi vào đĩa. Một số sản phẩm thông minh hỗ trợ internet hoạt động trong thời gian thực hoặc gần như thời gian thực và sẽ yêu cầu đánh giá và hành động theo thời gian thực.

 

Variety:      Sự đa dạng đề cập đến nhiều loại dữ liệu có sẵn. Các kiểu dữ liệu truyền thống được cấu trúc và nằm gọn trong cơ sở dữ liệu quan hệ. Với sự gia tăng của dữ liệu lớn, dữ liệu xuất hiện trong các kiểu dữ liệu phi cấu trúc mới. Các kiểu dữ liệu không có cấu trúc và bán cấu trúc, chẳng hạn như văn bản, âm thanh và video, yêu cầu xử lý để bổ sung để tìm ra ý nghĩa và hỗ trợ cho siêu dữ liệu.

 

Giá trị - và tính xác thực của dữ liệu

 

Hai chữ V khác đã xuất hiện trong vài năm qua: giá trị và tính xác thực (value and veracity). Dữ liệu có giá trị nội tại. Nhưng nó không có ích lợi gì cho đến khi giá trị đó được phát hiện. Điều quan trọng không kém: Dữ liệu của bạn trung thực đến mức nào — và bạn có thể dựa vào nó ở mức độ nào?

 

Ngày nay, dữ liệu lớn đã trở thành nguồn vốn. Hãy nghĩ về một số công ty công nghệ lớn nhất thế giới. Một phần lớn giá trị mà họ cung cấp đến từ dữ liệu của họ. Dữ liệu này được họ liên tục phân tích để tạo ra hiệu quả hơn và phát triển các sản phẩm mới.

 

Những đột phá công nghệ gần đây đã làm giảm chi phí lưu trữ và tính toán dữ liệu theo cấp số nhân, khiến việc lưu trữ nhiều dữ liệu trở nên dễ dàng và ít tốn kém hơn bao giờ hết. Với khối lượng dữ liệu lớn ngày càng tăng, giá thành rẻ hơn và dễ tiếp cận hơn, bạn có thể đưa ra các quyết định kinh doanh chính xác hơn.

 

 Tìm kiếm giá trị trong dữ liệu lớn không chỉ là phân tích nó (đó là một lợi ích hoàn toàn khác). Đó là toàn bộ quá trình khám phá và yêu cầu bởi các nhà phân tích chuyên sâu, người dùng doanh nghiệp và giám đốc điều hành, những người đặt câu hỏi phù hợp, nhận xét các mẫu thử, đưa ra các giả định sáng suốt và dự đoán hành vi.

 

Lịch sử của dữ liệu lớn

 

Mặc dù bản thân khái niệm dữ liệu lớn còn tương đối mới, nhưng nguồn gốc của tập dữ liệu lớn bắt nguồn từ những năm 1960 và 1970 khi thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu quan hệ.

 

 Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác. Hadoop (một khuôn khổ mã nguồn mở được tạo đặc biệt để lưu trữ và phân tích các tập dữ liệu lớn) đã được phát triển cùng năm đó. NoSQL cũng bắt đầu trở nên phổ biến trong thời gian này.

 

Sự phát triển của các khuôn khổ mã nguồn mở, chẳng hạn như Hadoop (và gần đây là Spark) là điều cần thiết cho sự phát triển của dữ liệu lớn vì chúng làm cho dữ liệu lớn dễ làm việc hơn và lưu trữ rẻ hơn. Trong những năm kể từ đó, khối lượng dữ liệu lớn đã tăng vọt. Người dùng vẫn đang tạo ra một lượng lớn dữ liệu — nhưng không chỉ con người đang làm việc đó.

 

Với sự ra đời của Internet of Things (IoT), nhiều đối tượng và thiết bị được kết nối với internet hơn, thu thập dữ liệu về cách sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của máy học (machine learning) đã tạo ra nhiều dữ liệu hơn.

 

 Mặc dù dữ liệu lớn đã tiến xa, nhưng tính hữu ích của nó chỉ mới bắt đầu. Điện toán đám mây đã mở rộng khả năng dữ liệu lớn hơn nữa. Đám mây cung cấp khả năng mở rộng thực sự, nơi các nhà phát triển có thể chỉ cần xoay tròn các cụm từ đặc biệt để kiểm tra một tập hợp con dữ liệu. Và cơ sở dữ liệu đồ thị cũng ngày càng trở nên quan trọng, với khả năng hiển thị lượng lớn dữ liệu theo cách giúp phân tích nhanh chóng và toàn diện.

 

Lợi ích của dữ liệu lớn:

 

    Dữ liệu lớn giúp bạn có thể có được câu trả lời đầy đủ hơn vì bạn có nhiều thông tin hơn.

 

    Câu trả lời đầy đủ hơn đồng nghĩa với việc tin tưởng hơn vào dữ liệu — có nghĩa là một cách tiếp cận hoàn toàn khác để giải quyết vấn đề.

 

 Các trường hợp sử dụng dữ liệu lớn

 

Dữ liệu lớn có thể giúp bạn giải quyết một loạt các hoạt động kinh doanh, từ trải nghiệm khách hàng đến phân tích.

 

Phát triển sản phẩm: Các công ty như Netflix và Procter & Gamble sử dụng dữ liệu lớn để dự đoán nhu cầu của khách hàng. Họ xây dựng các mô hình dự đoán cho các sản phẩm và dịch vụ mới bằng cách phân loại các thuộc tính chính của sản phẩm hoặc dịch vụ trong quá khứ và hiện tại, đồng thời mô hình hóa mối quan hệ giữa các thuộc tính đó và thành công thương mại của dịch vụ. Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm tập trung, phương tiện truyền thông xã hội, thị trường thử nghiệm và triển khai sớm tại cửa hàng để lập kế hoạch, sản xuất và tung ra sản phẩm mới.

 

Bảo trì dự đoán: Các yếu tố có thể dự đoán các hư hỏng cơ học có thể nằm sâu trong dữ liệu có cấu trúc, chẳng hạn như năm, loại máy và kiểu thiết bị, cũng như trong dữ liệu phi cấu trúc bao gồm hàng triệu mục nhập nhật ký, dữ liệu cảm biến, thông báo lỗi và nhiệt độ động cơ . Bằng cách phân tích những dấu hiệu này về các vấn đề tiềm ẩn trước khi sự cố xảy ra, các tổ chức có thể triển khai bảo trì hiệu quả hơn về chi phí và tối đa hóa thời gian hoạt động của các bộ phận và thiết bị.

 

Trải nghiệm khách hàng: Cuộc đua giành khách hàng đang diễn ra. Giờ đây, một cái nhìn rõ ràng hơn về trải nghiệm của khách hàng trở nên khả thi hơn bao giờ hết. Dữ liệu lớn cho phép bạn thu thập dữ liệu từ mạng xã hội, lượt truy cập web, nhật ký cuộc gọi và các nguồn khác để cải thiện trải nghiệm tương tác và tối đa hóa giá trị được cung cấp. Bắt đầu cung cấp các phiếu mua hàng được cá nhân hóa, giảm bớt sự rời bỏ của khách hàng và chủ động xử lý các vấn đề.

 

Gian lận và tuân thủ: Khi nói đến bảo mật, không chỉ có một vài tin tặc lừa đảo — bạn phải chống lại toàn bộ nhóm chuyên gia. Chế độ an ninh và các yêu cầu tuân thủ không ngừng phát triển. Dữ liệu lớn giúp bạn xác định các mẫu trong dữ liệu chỉ ra gian lận và tổng hợp khối lượng lớn thông tin để thực hiện báo cáo theo quy định nhanh hơn nhiều.

 

Máy học: máy học là một chủ đề nóng hiện nay. Bây giờ chúng ta có thể dạy máy móc thay vì lập trình chúng. Sự sẵn có của dữ liệu lớn để đào tạo các mô hình học máy làm cho điều đó trở nên khả thi.

 

Hiệu quả hoạt động: Với dữ liệu lớn, bạn có thể phân tích và đánh giá hoạt động sản xuất, phản hồi và trả lại của khách hàng cũng như các yếu tố khác để giảm tình trạng ngừng hoạt động và dự đoán nhu cầu trong tương lai. Dữ liệu lớn cũng có thể được sử dụng để cải thiện việc ra quyết định phù hợp với nhu cầu thị trường hiện tại.

 

Thúc đẩy đổi mới: Dữ liệu lớn có thể giúp bạn đổi mới bằng cách nghiên cứu sự phụ thuộc lẫn nhau giữa con người, tổ chức, thực thể và quy trình, sau đó xác định các cách mới để sử dụng những thông tin chi tiết đó. Sử dụng thông tin chi tiết về dữ liệu để cải thiện các quyết định về cân nhắc tài chính và lập kế hoạch. Xem xét xu hướng và những gì khách hàng muốn cung cấp các sản phẩm và dịch vụ mới.

 

Những thách thức về dữ liệu lớn

 

Mặc dù dữ liệu lớn có rất nhiều hứa hẹn, nhưng không phải là không có những thách thức.

 

Đầu tiên, dữ liệu lớn là… quá lớn. Mặc dù các công nghệ mới đã được phát triển để lưu trữ dữ liệu, nhưng khối lượng dữ liệu đang tăng gấp đôi về kích thước khoảng hai năm một lần. Các tổ chức vẫn phải vật lộn để theo kịp dữ liệu của họ và tìm cách lưu trữ nó một cách hiệu quả.

 

Nhưng chỉ lưu trữ dữ liệu thôi thì chưa đủ. Dữ liệu phải được sử dụng để có giá trị và điều đó phụ thuộc vào việc quản lý. Dữ liệu sạch hoặc dữ liệu có liên quan đến khách hàng và được tổ chức theo cách cho phép phân tích có ý nghĩa, đòi hỏi rất nhiều công việc. Các nhà khoa học dữ liệu dành 50 đến 80 phần trăm thời gian của họ để quản lý và chuẩn bị dữ liệu trước khi nó thực sự có thể được sử dụng.

 

Cuối cùng, công nghệ dữ liệu lớn đang thay đổi với tốc độ nhanh chóng. Một vài năm trước, Apache Hadoop là công nghệ phổ biến được sử dụng để xử lý dữ liệu lớn. Sau đó, Apache Spark được giới thiệu vào năm 2014. Ngày nay, sự kết hợp của hai khuôn khổ dường như là cách tiếp cận tốt nhất. Bắt kịp với công nghệ dữ liệu lớn là một thách thức không ngừng.

 

 Cách thức hoạt động của dữ liệu lớn

 

 Dữ liệu lớn cung cấp cho bạn thông tin chi tiết mới, mở ra cơ hội và mô hình kinh doanh mới. Bắt đầu bao gồm ba hành động chính:

 

 1. Tích hợp

 

Dữ liệu lớn tập hợp dữ liệu từ nhiều nguồn và ứng dụng khác nhau. Các cơ chế tích hợp dữ liệu truyền thống, chẳng hạn như trích xuất, chuyển đổi và tải (ETL) thường không phù hợp với nhiệm vụ. Nó đòi hỏi các chiến lược và công nghệ mới để phân tích các tập dữ liệu lớn ở quy mô terabyte, hoặc thậm chí là petabyte.

 

Trong quá trình tích hợp, cần đưa dữ liệu vào, xử lý và đảm bảo dữ liệu được định dạng và có sẵn ở dạng mà các nhà phân tích kinh doanh có thể bắt đầu với chúng.

 

 2. Quản lý

 

Dữ liệu lớn yêu cầu lưu trữ. Giải pháp lưu trữ của bạn có thể trên đám mây, tại chỗ hoặc cả hai. Bạn có thể lưu trữ dữ liệu của mình ở bất kỳ hình thức nào bạn muốn và đưa các yêu cầu xử lý mong muốn cũng như các công cụ xử lý cần thiết vào các tập dữ liệu đó theo yêu cầu. Nhiều người chọn giải pháp lưu trữ của họ theo nơi dữ liệu của họ hiện đang cư trú. Đám mây đang dần trở nên phổ biến vì nó hỗ trợ các yêu cầu tính toán hiện tại của bạn và cho phép bạn sử dụng tài nguyên khi cần thiết.

 

 3. Phân tích

 

Khoản đầu tư của bạn vào dữ liệu lớn sẽ được đền đáp khi bạn phân tích và hành động trên dữ liệu của mình. Có được sự rõ ràng mới với phân tích trực quan về các tập dữ liệu đa dạng của bạn. Khám phá thêm dữ liệu để tạo ra những khám phá mới. Chia sẻ những phát hiện của bạn với những người khác. Xây dựng mô hình dữ liệu bằng máy học và trí tuệ nhân tạo. Đưa dữ liệu của bạn vào hoạt động.

 

 

 

974 lượt xem bài viết

Các hoạt động và cơ sở vật chất của trường

ĐIỀN THÔNG TIN - NHẬN ĐĂNG KÝ HỌC

Trường THCS và THPT Nhân Văn

- Địa chỉ: 17 Sơn Kỳ , Phường Sơn Kỳ, Quận Tân Phú, TP. Hồ Chí Minh

- Phone: (028) 38 470 481 | (028) 3812 0076

- Fax: (028) 38 120 875

- Hotline: 0948 66 99 00 - 0902 40 60 61

- Email: [email protected]

Liên hệ

Họ tên học sinh(*)
Trường bắt buộc

Địa chỉ
Invalid Input

Điện thoại(*)
Invalid Input

Email
Trường bắt buộc

Nội dung
Trường bắt buộc

Gửi ngay

ĐĂNG KÝ NHẬP HỌC NĂM HỌC 2022 - 2023

Đăng ký

Họ tên học sinh(*)
Trường bắt buộc

Địa chỉ
Invalid Input

Điện thoại(*)
Invalid Input

Email
Trường bắt buộc

Khóa học quan tâm
Trường bắt buộc

Nội dung
Trường bắt buộc

Gửi ngay

mess.png

call.png