Thiện Phạm - Data Manager tại Chợ Tốt
Anh Thiện Phạm - Data Manager tại Chợ Tốt “Trong ngành data, có background về Khoa học máy tính thì hẳn nhiên là tốt hơn một chút. Nhưng vẫn có rất nhiều bạn trái ngành, và các bạn luôn sẵn sàng sống chết với nghề…”
Anh tốt nghiệp chuyên ngành Tài chính tín dụng năm 2012, ra trường nhưng không cảm thấy hợp với môi trường corporate nặng nề, chậm chạp, nên quyết đi tìm đường riêng và bỏ dở tấm bằng Đại học. Hồi đó anh được inspired bởi cuốn Steve Jobs, Hooked, và thế là mong muốn được tạo ra sản phẩm có giá trị, hữu ích cho cuộc sống. Anh lao vào làm thử vài start up, đó cũng đánh dấu bước chân đầu tiên của anh vào giới công nghệ. Sau vài năm vẫn cảm thấy chưa phù hợp với bản thân, anh dành cả nhiều tháng trời để tập trung vào mình. Suy nghĩ kĩ hơn vào việc chọn cái nghề, thay vì chọn đại một chỗ làm việc. Anh làm mọi thứ, trắc nghiệm tính cách, MBTI, tư vấn tâm lý, … đủ loại. Sau đó anh thấy mình phù hợp với công việc dạng con số, logic, và lúc đó muốn làm và tìm hiểu về lĩnh vực data này. Thời bấy giờ ngành data ở nước mình vẫn còn mới mẻ lắm. Nên là anh chân ướt chân ráo lao vào học ngày cày đêm thôi. Ôn luyện từ đầu xác suất thống kê, toán, machine learning, … coi như bắt đầu lại sự học. Khi học chán chê xong, a nghĩ mình cần data để thực tập, và duyên số khiến anh tình cờ thấy 1 bài post của anh CEO Chợ Tốt hiện tại trên Facebook, và thế là apply thử. Ai dè đậu làm tới giờ luôn. Nhưng công việc của anh lúc đó là business analyst chớ không chuyên về data. Thế là năm nào tới Performance Review anh cũng nhắc lại với công ty là anh muốn làm data hết 😈. Cuối cùng, sau 3 năm anh cũng được toại nguyện. Tụi anh bắt đầu thử bằng 1 nhóm các bạn hay sử dụng data gọi là data chapter.
Về quá trình xây dựng một team data, anh may mắn có cơ hội đi qua hầu hết các công đoạn của mô hình hybrid decentralized data, cũng như xây dựng data driven culture. Và phần lớn công ty đều phải đi qua những stage như vậy, rất khó để nhảy cóc.
Khi bắt đầu dựng team data chapter có khá nhiều vấn đề nội tại: mỗi team sử dụng data khác nhau, hệ thống data warehouse, datamart cồng kềnh, mỗi người sử dụng một loại metrics khác nhau. Nhiệm vụ lúc này làm sao để mọi người có thể sync được với nhau mà vẫn giữ được mức độ chủ động. Việc đầu tiên tụi anh làm là xem lại lại các hệ thống datamart, các metrics phải sử dụng cùng 1 định nghĩa. Phải xây dựng ra data glossary để mỗi metric chỉ có 1 cách gọi duy nhất, 1 định nghĩa cách tính (business definition và technical definition), và glossary này phải public cho tất cả các bạn sử dụng data đều có thể tham khảo.
Việc thứ 2 là build hệ thống phân quyền data để đảm bảo việc sử dụng các loại data được đủ thẩm quyền, tránh bị leaked, mà vẫn đảm bảo mọi người có thể truy cập data một cách dễ dàng.
Bước 3 là, xây dựng ra knowledge repository, nơi mình khuyến khích mọi người chia sẻ cách sử dụng data, report cho nhau. Có thể làm các buổi talk để chia sẻ insight, cách xử lý data cho nhau này.
Bước 4, tụi anh build ra sẵn các data platform phục vụ cho khả năng phân tích của công ty. Chẳng hạn, năm 2021 team dựng nên hệ thống A/B testing, giúp Chợ Tốt làm testing dễ dàng hơn. Hệ thống cũng support phân tích kết quả tự động theo nhiều phạm vi khác nhau, giúp mọi người chủ động làm A/B testing và lấy ra insight nhanh hơn. Việc này đã giúp Chợ Tốt vừa có thể phân tích rõ hơn về nguyên nhân, impact của một feature, và vừa phân tích feature nhanh hơn trước cực nhiều.
Sau khi đảm bảo nhu cầu phân tích, sử dụng, bước tiếp theo team core data sẽ tập trung nhiều hơn về mảng applied AI/ML để tận dụng lượng data hiện tại, build các data product giúp giải quyết vấn đề của doanh nghiệp, và các hệ thống data infra để phục vụ cho nhu cầu sử dụng data của toàn công ty. Ở công ty anh, một số những giải pháp đầu tiên team tập trung làm ra là dự đoán giá bán sản phẩm giúp người mua có thể tự tin hơn xác định giá trị của xe. Tiếp theo là các product khác như recommendation system, hệ thống auto review lần lượt ra đời.
Về khía cạnh con người, khó khăn đầu tiên làm sao để build được 1 strong team. Anh phỏng vấn cũng nhiều, và thấy rất nhiều bạn data scientist, AI chỉ focus vào model. Anh thường gặp các bạn có nhiều kiến thức modelling, hầu như bạn nào cũng có thể nói chính xác deep learning, transformer, RNN, LSTM ..etc. Tuy nhiên lại rất ít bạn có khả năng về project management, hiểu rõ và làm rõ vấn đề, hiểu về vòng đời của 1 ML product. Trong bài toán apply AI cho doanh nghiệp thì thường modelling chỉ là một yếu tố rất nhỏ, chỉ đóng góp khoảng 15% - 20% cho một data product thành công. Phần lớn sẽ phụ thuộc vào: mình hiểu rõ vấn đề đến mức nào, data đang có trong tay là gì, data sạch tới mức nào, cách thiết kế hệ thống vận hành để đảm bảo nhu cầu của business, cách monitoring, xử lý khi vấn đề xảy ra, bảo đảm data và model không bị drift. Các yếu tố như vậy sẽ được đánh giá rất cao khi tuyển dụng, vì thực tiễn và đúng nhu cầu của Chợ Tốt nói riêng và các công ty khác nói chung.
Một vấn đề thứ 2 là team data thường là các bạn introvert và rất giỏi, tuy nhiên các bạn lại ít khi thể hiện ra. Nhiệm vụ của mình làm sao để bảo đảm mọi người được giữ lửa, luôn cảm thấy cảm hứng khi làm việc, được làm ra các sản phẩm có ý nghĩa và có giá trị. Việc khó nhất anh nghĩ là làm sao để định lượng ra được output của team data bằng các metrics có ý nghĩa. Ví dụ với team data engineer, thì có thể là thời gian đáp ứng được request ticket, số lượng data incident xảy ra, thời gian resolve incident, tỉ lệ adopt cho các dataset mới, tỉ lệ aware ..etc. Còn với team AI/ML thì có thể là các metrics liên quan trực tiếp đến user behaviours và translate các metrics đó thành kết quả trực tiếp như: tăng retention rate, tăng engagement level của user, tăng DAU…
Cuối cùng thì, anh chỉ muốn gửi gắm rằng, anh học trái ngành, quá trình học và làm của anh cũng không thuận buồm xuôi gió mấy, nhưng rồi sự kiên trì đã dẫn anh tới ngày hôm nay. Trong ngành data, có background về Khoa học máy tính thì hẳn nhiên là tốt hơn một chút. Nhưng vẫn có rất nhiều bạn trái ngành, và các bạn luôn sẵn sàng sống chết với nghề. Vậy nên, hãy kiên trì, đừng bỏ cuộc!