Kỹ sư dữ liệu sẽ xử lý các dữ liệu thô chứa lỗi của con người, máy móc hay dụng cụ. Những dữ liệu này có thể không được xác thực và chứa các lịch sử khả nghi. Nó sẽ không được định dạng và có thể chứa các mã dành riêng cho hệ thống. Các kỹ sư dữ liệu sẽ cần đề xuất và đôi khi thực hiện các cách để cải thiện độ tin cậy, hiệu quả và chất lượng dữ liệu. Để làm như vậy, họ sẽ cần sử dụng nhiều ngôn ngữ và công cụ để kết hợp các hệ thống với nhau hoặc tìm mọi cách để có được dữ liệu mới từ các hệ thống khác.
Cuối cùng, để cung cấp dữ liệu cho nhóm khoa học dữ liệu, nhóm kỹ sư dữ liệu sẽ cần phát triển các quy trình thiết lập dữ liệu để mô hình hóa, khai thác và sản xuất dữ liệu.
Công việc của Data Scientist – Nhà khoa học dữ liệu?
Với các nhà khoa học dữ liệu, dữ liệu mà học có thường đã được “làm sạch” và về cơ bản hoàn thành các thao tác đầu tiên. Họ có thể sử dụng để cung cấp cho các chương trình phân tích tinh vi, học máy và các phương pháp thống kê để lấy dữ liệu sử dụng trong các mô hình dự đoán và mô tả. Tất nhiên, để xây dựng mô hình, họ cần thực hiện các câu hỏi về ngành nghề kinh doanh, và họ sẽ cần tận dụng khối lượng lớn dữ liệu từ các nguồn bên trong và bên ngoài để đáp ứng nhu cầu kinh doanh. Điều này đôi khi cũng liên quan đến việc khám phá và kiểm tra dữ liệu để tìm các mẫu ẩn.
Khi các nhà khoa học dữ liệu thực hiện các phân tích, họ sẽ cần trình bày một câu chuyện rõ ràng cho các bên liên quan và khi kết quả được chấp nhận. Họ cần đảm bảo rằng công việc được tự động hóa để có thể cung cấp thông tin chi tiết cho các bên liên quan hàng ngày, hàng tháng hoặc hàng năm.
Cả 2 bên đều cần làm việc cùng nhau để sắp xếp dữ liệu và cung cấp thông tin chuyên sâu về các quyết định quan trọng trong kinh doanh. Mặc dù có thể trùng lặp về nhiều kỹ năng, nhưng về cơ bản, kỹ sư dữ liệu sẽ làm việc với hệ thống cơ sở dữ liệu,API dữ liệu và các công cụ cho mục đích ETL thì nhà khoa học dữ liệu cần biết về thống kê, toán học và máy học để xây dựng các mô hình dự đoán.
Công cụ, ngôn ngữ và phần mềm
Sự khác biệt về kỹ năng dẫn đến sự khác biệt về ngôn ngữ, công cụ và phần mềm.
Kỹ sư dữ liệu làm việc với các công cụ như SAP, Oracle, Cassandra, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive, and Sqoop. Trong khi nhà khoa học dữ liệu thường sử dụng các ngôn ngữ như R, Python, Stata and Julia để xây nên các mô hình.
Chúng ta có thể thấy rằng, một lần nữa điểm khác biệt giữa một nhà khoa học dữ liệu và kỹ sư dữ liệu nằm ở khả năng trực quan hóa dữ liệu và kể chuyện, được phản ánh trong các công cụ được đề cập bên trên. Điểm giống nhau về công cụ, ngôn ngữ và phần mềm của 2 công việc này là Scala, Java, C#.
Lương & Tuyển dụng
Nói đến lương, mức lương trung bình dành cho các nhà khoa học dữ liệu được đặt ở mức $135.000/năm, trong đó mức lương tối thiểu là $43.000/năm, mức lương tối đa rơi vào khoảng $364.000/năm.
Còn với Kỹ sư dữ liệu, mức lương trung bình có một chút thấp hơn, khoảng $124.000/năm – trong đó $34.000/năm cho mức lương tối thiểu và $341.000/năm cho mức lương tối đa. Sự khác biệt về mức lương này khó có thể xác định chính xác đến từ đâu. Một trong những yếu tố có thể căn cứ vào liên quan đến số lượng vị trí có nhu cầu tuyển dụng. Theo dữ liệu từ indeed.com, có khoảng 85.000 cơ hội việc làm cho vị trí kỹ sư dữ liệu, trong khi đó có khoảng 110.000 việc làm cho các nhà Khoa học dữ liệu trên thị trường.
Một số công ty có nhu cầu tuyển dụng Kỹ sư dữ liệu bao gồm: PlayStation, The New York Times, Bloomberg hay Verizon. Trong quá khứ, Spotify, Amazon và cả Facebook cũng đã bổ sung Kỹ sư dữ liệu vào đội ngũ nhân sự của mình. Ở phần ngược lại, các nhà khoa học dữ liệu đang được đón chào tại các tập đoàn lớn như Dropbox, Microsoft, Deloitte hay Walmart.
Triển vọng công việc
Hiện nay, ngoài việc quan tâm về các vấn đề quản lý dữ liệu, các công ty đang tìm kiếm các giải pháp rẻ hơn, linh hoạt và có thể mở rộng để lưu trữ và quản lý dữ liệu của họ. Họ muốn chuyển dữ liệu của mình lên đám mây và để thực hiện việc này, họ cần xây dựng “hồ dữ liệu” để bổ sung cho kho dữ liệu mà họ đã có hoặc thay thế cho kho lưu trữ dữ liệu hoạt động (ODS). Các luồng dữ liệu sẽ cần phải được chuyển hướng và thay thế trong tương lai. Do đó, nhu cầu trong việc tuyển dụng các kỹ sư dữ liệu dần tăng lên qua từng năm.