Xu hướng dữ liệu lớn – Big Data

Xu hướng dữ liệu lớn – Big Data

Big Data là về thu thập khối lượng thông tin bao la mà một công ti có trong nội bộ, tổ hợp chúng với các nguồn bên ngoài như internet rồi phân tích chúng để thu được thông tin có giá trị như xu hướng và cơ hội.

Trong nhiều năm, Ấn Độ đã chi phối thị trường làm khoán ngoài công nghệ thông tin (CNTT) nhưng sự việc có thể thay đổi nữa. Con sóng tiếp của khoán ngoài CNTT không còn là “viết mã và kiểm thử” hay “phát triển ứng dụng” mà là phân tích Dữ liệu lớn Big Data nơi các công ti toàn cầu sẵn lòng chi vài triệu cho tới tỉ đô la mỗi năm cho các công ti hay nước có thể cung cấp công nhân có kĩ năng trong lĩnh vực này. Một quan chức điều hành Ấn Độ than: “Qui tắc đã đổi rồi, không còn là chi phí thấp hơn mà là kĩ năng cao hơn và điều đó làm cho chúng tôi bị ngạc nhiên. Chúng tôi sẽ cần phát triển nhiều người với kĩ năng này một cách nhanh chóng.”

Big Data là về thu thập khối lượng thông tin bao la mà một công ti có trong nội bộ, tổ hợp chúng với các nguồn bên ngoài như internet rồi phân tích chúng để thu được thông tin có giá trị như xu hướng và cơ hội. Các công ti toàn cầu cần tới Big Data để nhận diện thị trường kinh doanh mới và dùng phân tích như vậy để giúp một cách hiệu quả cho người quản lí ra quyết định. Chẳng hạn, người phân tích Big Data dùng phân tích xu hướng để hiểu chiều hướng thị trường, nhu cầu của khách hàng để phát triển sản phẩm mới trước khi người khác thậm chí biết về nó. Nó cũng phân tích xu hướng của công nghiệp và thị trường tương lai để quản lí toàn thể dây chuyền cung cấp, từ vật tư thô tới chế tạo, từ các kênh phân phối cho tới đại lí bán lẻ, để cắt giảm chi phí vận hành và làm cực đại lợi nhuận.

Big Data cũng được dùng trong thị trường tài chính để dự báo xu hướng thương mại. Hiện thời thị trường chứng khoán là linh động do hiệu ứng của cuộc khủng hoảng tài chính cho nên hầu hết người làm thương mại đều rất thận trọng bởi vì kinh tế Mĩ vẫn còn đang phục hồi; Liên hiệp châu Âu đang trong khủng hoảng; thị trường Trung Quốc chậm hơn được mong đợi; Trung Đông đang dưới tình huống hỗn độn v.v. Trong tình huống này, ít người dám làm nước đi táo bạo nào. Nhưng với việc dùng Big Data, một số công ti thương mại có khả năng nhận diện những xu hướng nào đó một cách nhanh chóng và nắm lấy cơ hội. Khi phần lớn mọi người đang mất tiền vào thị trường chứng khoán, những công ti thương mại này đang thắng lớn. Nếu bạn nhìn vào việc làm được cần trong tạp chí Wall Street Journal, bạn có thể thấy mọi công ti thương mại đều đang thuê nhà khoa học dữ liệu và người phân tích dữ liệu và cạnh tranh là dữ dội.

Vì đây là lĩnh vực tương đối mới, chỉ có vài đại học hàng đầu mới cung cấp đào tạo cho nên có thiếu hụt lớn về công nhân Big Data và nhu cầu đang tăng nhanh. Theo báo cáo công nghiệp, một mình Mĩ sẽ cần 250,000 nhà khoa học dữ liệu đến năm 2015 và nhu cầu toàn thế giới có thể đẩy con số này lên tới triệu. Kĩ năng Big Data là tổ hợp của toán học, thống kê, học máy, và khoa học máy tính. Các nhà khoa học dữ liệu làm việc trên dữ liệu thời gian thực được thu thập từ nhiều nguồn để làm phân tích dự báo về xu hướng thị trường điều có thể giúp cho cấp quản lí đặt ra phương hướng, ra quyết định về thị trường tương lai. Tháng trước, tạp chí “Harvard Business Review” đã gọi Nhà khoa học Dữ liệu là “Nghề nghiệp được ham muốn nhất của thế kỉ 21.” Và các công ti thương mại chứng khoán Wall Street coi phân tích Big Data là tương lai của mọi giao tác kinh doanh tài chính.

Hiện thời, Big Data đang nổi lên như thị trường sinh lời nhất cho các công ti làm khoán ngoài CNTT với giá trị thị trường được ước lượng quãng $1 tỉ đô la năm 2015. Vì nó là khu vực mới mà có ít cạnh tranh cho nên cuộc đua nắm lấy cơ hội này và thâu tóm thị trường này đã bắt đầu giữa các công ti trên khắp thế giới. Một nhà phân tích Wall Street nói: “Sự phát triển nhanh của mạng xã hội và mạng trực tuyến khác đã cung cấp nhiều dữ liệu thế trên Internet. Điều chúng tôi cần là nắm lấy những dữ liệu có giá trị này, phân tích chúng về xu hướng để cho chúng tôi có thể ra quyết định thị trường một cách nhanh chóng. Chúng tôi cần nhà khoa học dữ liệu để tiêm thêm hào hứng vào trong thị trường chứng khoán.”

Nhiều sinh viên bị lẫn lộn vì khác biệt giữa Big Data và những lĩnh vực đã được thiết lập chắc khác như quản trị cơ sở dữ liệu, quản lí dữ liệu, khai phá dữ liệu và trinh sát doanh nghiệp. Khác biệt then chốt là các lĩnh vực khác đang thu thập và quản lí dữ liệu từ cơ sở dữ liệu quan hệ của công ti để phân tích và sinh ra báo cáo. Báo cáo này bị giới hạn vào dữ liệu được thu thập và được lưu giữ bên trong cơ sở dữ liệu của công ti và những dữ liệu này đều được xác định rõ và có cấu trúc.

Nhà khoa học dữ liệu lớn thu thập dữ liệu từ cả các nguồn bên trong VÀ bên ngoài như internet v.v. Điều này là khó hơn bởi vì dữ liệu từ các nguồn ngoài phần lớn là không được xác định rõ và không có cấu trúc rõ. Chẳng hạn, web đầy những “ứng dụng được dẫn lái bởi dữ liệu.” Gần như bất kì ứng dụng e-commerce nào cũng là ứng dụng được dẫn lái bởi dữ liệu. Các mạng xã hội như Facebook, Linkedln đầy những dữ liệu xã hội và cá nhân. Có mọi kiểu dữ liệu đằng sau từng mặt tiền web, và phần mềm giữa kết nối các cơ sở dữ liệu khác và dịch vụ dữ liệu như công ti thẻ tín dụng, ngân hàng v.v. Đó là lí do tại sao khối lượng dữ liệu là rất lớn. Về trung bình, nhà khoa học dữ liệu phải phân tích quãng 3.5 zettabytes một năm (Một zettabyte là một nghìn tỉ gigabytes hay một tỉ terabytes). VÀ những dữ liệu này lại thay đổi và tăng trưởng mọi giây hay phút. Đó là lí do tại sao nó cần các kĩ năng và thuật toán khác để thực hiện phân tích.

Cho dù nó là lĩnh vực tương đối mới, Big Data đã được dùng ở Mĩ nơi những phân tích như vậy đang sinh ra các thăm dò ý kiến công chúng, dự báo kết quả bầu cử, dự báo xu hướng thị trường chứng khoán, phân tích giao tác tài chính toàn cầu và phát triển các chiến lược cho chính phủ và các công ti tư nhân. Ngày nay mọi công ti đều tìm các công nhân có những kĩ năng này để làm việc trên các dự án dữ liệu lớn của họ và họ sẽ nắm lấy bất kì người tốt nghiệp nào có hay không có kinh nghiệm để đào tạo họ về Big Data. Một nhà phân tích công nghiệp nói: “Không có vấn đề là các công ti sẽ cần kĩ năng này để thu được ưu thế cạnh tranh trong thị trường cạnh tranh cao này và ai có công nhân có phẩm chất nhất sẽ thắng.”

Về căn bản có bốn loại việc làm trong khu vực Big Data:

1) Nhà khoa học dữ liệu: Việc làm này thường yêu cầu bằng cấp chuyên sâu (thạc sĩ hay tiến sĩ) trong khoa học máy tính, kĩ nghệ phần mềm, thống kê, trí tuệ nhân tạo, và học máy. Nhà khoa học dữ liệu thiết kế các chương trình đặc biệt và thuật toán để thu thập và phân tích dữ liệu. Người đó chịu trách nhiệm đặt ra chiến lược dữ liệu và thực hiện mọi sản phẩm dữ liệu cho công ti. Nhà khoa học dữ liệu làm việc với khối lượng dữ liệu lớn được thu thập từ cả bên trong và bên ngoài công ti để xác định những dữ liệu này có nghĩa gì và chúng tác động thế nào lên công ti.

2) Kiến trúc sư dữ liệu: Việc làm này yêu cầu bằng cấp chuyên sâu (thạc sĩ hay tiến sĩ) trong khoa học máy tính, kĩ nghệ phần mềm mà chuyên môn hoá trong quản lí dữ liệu hay trí tuệ nhân tạo. Kiến trúc sư dữ liệu lập kế hoạch, kiến trúc và tổ chức mọi công cụ tìm, thu thập và phân tích dữ liệu cho công ti.

3) Người phân tích dữ liệu: Việc làm này yêu cầu bằng cử nhân trong khoa học máy tính, kĩ nghệ phần mềm, hay quản lí hệ thông tin. Người phân tích dữ liệu dịch các phân tích thành thông tin mà người quản lí có thể dùng để ra quyết định. Người phân tích đặt chúng vào các báo cáo cho cấp quản lí và giúp họ hiểu xu hướng hiện thời.

4) Kĩ sư dữ liệu: Việc làm này yêu cầu bằng cử nhân trong khoa học máy tính, kĩ nghệ phần mềm, hay quản lí hệ thông tin. Kĩ sư dữ liệu phát triển và thực hiện các chương trình phần mềm phân tích, thu thập và phân tích dữ liệu cho công ti.

—English version—

The Big Data Trend

For many years, India dominated the Information Technology (IT) outsourcing market but thing could change too. The next big wave of IT outsourcing is no longer “Code and Test” or “Applications Development” but Big Data analysis where global companies are willing to spend several millions to billions of dollars each year to companies or countries that can provide skilled workers in this field. An Indian executive lamented: “The rule has changed, it is no longer lower cost but higher skills and it caught us by surprised. We will need to develop more people with this skill quickly.”

Big Data is about collecting a vast amount of information a company has internally, combining them with external sources such as internet then analyzing them to get valuable information such as trends and opportunities. Global companies need Big Data to identify new business market and using such analysis to effectively help managers to make decisions. For example, Big Data analysts use trend analytics to understand market direction, customers’ needs to develop new products before others even know about it. It also analyzes industry’s trends and future market to manage the entire supply chain, from raw materials to manufacturing, from distributing channels to retails, to cut operational costs and maximize profits.

Big Data is also used in the financial market to predict trading trends. Currently the stock market is volatile due to the effect of the financial crisis so most traders are very cautious because the U.S economy is still recovering; the European Union is in a crisis; China market is slower than expected; the Middle East is under a chaotic situation etc. In this situation, few people would dare to make any bold move. But with the use of Big Data, some trading companies have been able to identify certain trends quickly and seize the opportunity. When most people are losing money on the stock market, these trading companies are winning big. If you look at the Wall Street Journal’s job wanted, you may find all trading companies are hiring Data Scientists and Data analyst and the competition is fierce.

Since this is a relatively new field, there are only few top universities provide trainings so there is a significant shortage of Big Data workers and the demand is growing fast. According to the industry report, the U.S alone will need 250,000 Data Scientist by 2015 and worldwide demand could push this number to millions. Big Data skills are a combination of mathematics, statistics, machine learning, and computer science. Data Scientists work on real-time data collected from multiple sources to do predictive analysis on the market trends which can help management set direction, make decision about the future market. Last month, the “Harvard Business Review” has termed Data Scientists to be the “Sexiest career of the 21st Century.” And Wall Street stock trading companies considered Big Data analysis to be the future of all financial business transactions.

Currently, Big Data is emerging as the most lucrative market for IT outsourcing companies with market value estimated to be $1 billion dollars in 2015. Since it is a new area that has few competitions so the race to seize this opportunity and capture this market has begun among companies all over the world. A Wall Street analyst said: “The proliferation of social and other online network has provided so much data on the Internet. What we need is to capture these valuable data, analyze them for trends so we can make market decision quickly. We need Data Scientists to inject more exciting into the stock market.”

Many students are confused about the difference between Big Data and other well established fields such as database administration, data management, data mining and business intelligence. The key difference is the other fields are collecting and managing data from company’s relational database to analyze and generate reports. The report is limited on the data collected and stored inside the company database and these data are well defined and structured.

Big data scientists collect data from both internal AND external sources such as the internet etc. This is more difficult because data from external sources are mostly not well defined and structured. For example, the web is full of “data-driven apps.” Almost any e-commerce application is a data-driven application. Social networks such as Facebook, Linkedln are full of social and personal data. There are all types of data behind each web front end, and middleware that connect other databases and data services such as credit card companies, banks etc. That is why the amount of data is very big. On the average, Data Scientists must analyze about 3.5 zettabytes a year (A zettabyte is a trillion gigabytes or a billion terabytes). AND these data are changing and growing every second or minute. That is why it needs different skills and algorithms to perform the analysis.

Even it is a relatively new field, Big Data is already being used in the U.S. where such analysis are generating public opinion polls, forecast election results, predict stock market trends, analyze global financial transactions and develop strategies for governments and private companies. Today every company is looking for workers with these skills to work on their Big Data projects and they would grab any graduate with or without experience to train them on Big Data. An industry analyst said: “There is no question that companies will need this skill to gain a competitive advantage in this highly competitive market and who have the most qualified workers will win.”

Basically there are four job categories in the Big Data area:

1) Data Scientist: This job usually requires advanced degrees (MS or PhD) in Computer Science, Software Engineering, Statistics, Artificial Intelligence, and Machine Learning. Data scientist design special programs and algorithms to collect and analyze data. He is responsible to set data strategy and implement all data products for the company. The Data scientist works with vast amount of data collected from both inside and outside the company to determine what these data means and how they impact the company.

2) Data Architect: This job requires an advanced degree (MS or PhD) in Computer Science, Software Engineering that specialize in Data management or Artificial Intelligence. The Data Architect plans, architects and organize all data searching, collecting and analyzing tools for a company.

3) Data Analyst: This job requires a Bachelor’s degree in Computer Science, Software Engineer, or Information System Management. The data analyst translates analytics into information that managers can use to make decision. The analyst put them into reports for management and helps them understand the current trends.

4) Data Engineer: This job requires a Bachelor’s degree in Computer Science, Software Engineer, or Information System Management. The data engineer develops and implements analytic software programs that collect and analyze data for the company.

Theo blog của Jonh Vu
Khi trích dẫn bài viết từ tek.eten.vn, xin vui lòng ghi rõ nguồn. Chúng tôi sẽ rất cảm ơn bạn!