FLYER · Quy trình phát triển sản phẩm AI-first

Bản đồ tổng quan — bốn trụ cột của quy trình, tất cả phục vụ một mục tiêu: học sinh đạt kết quả học tập mỗi tuần.

I

Ba nguyên tắc nền tảng

Đây là thứ phân biệt "AI-first" với "có dùng AI", và là điều roadmap hiện tại đang thiếu.

01

Hypothesis-driven, không feature-driven

Mỗi sáng kiến bắt đầu bằng giả thuyết kiểm chứng được: "Chúng tôi tin rằng [X] cho [user Y] sẽ tạo [kết quả Z]." Không có cột WHY thì không vào sprint.

02

North Star dẫn dắt, không đếm tính năng ship

NSM công ty là Weekly Active Learning Outcomes — số học sinh đạt learning event thành công mỗi tuần. Study time đo engagement, không đo giá trị — đó là cái bẫy.

03

AI là default, không phải add-on

Câu hỏi đầu tiên khi thiết kế feature: "AI làm phần này được không?" — chứ không phải "có nên thêm AI vào đây không?".

II

Vòng lặp 6 bước

Một vòng khép kín: Ideas → Build → Product → Measure → Data → Learn → rồi quay lại Ideas. Learn nuôi lại Ideas của chu kỳ kế tiếp — đây là khâu hay bị bỏ nhất và là lý do roadmap phình ra.

Không phải đường thẳng — Learn luôn quay lại nuôi Ideas của chu kỳ kế tiếp.

Tất cả các bước đều cần hỏi & tham khảo thêm:

🎓 ACADEMIC + 🎧 CS + 📈 SALES + 📢 MARKETING

Mỗi bước trong vòng lặp được soi chiếu bởi bốn góc nhìn: học thuật, chăm sóc khách hàng, bán hàng và marketing.

III

Chi tiết từng giai đoạn

Áp riêng cho bối cảnh hiện tại: Teado.ai làm mũi nhọn tới giáo viên, kéo học sinh vào FLYER Test & Study.

Giai đoạn 1

Discover

Không build gì cho tới khi có bằng chứng vấn đề là thật và đáng giải.

Insight quan trọng nhất với Teado là điểm đau của giáo viên khi giao & chấm bài — vì đó là đòn bẩy kéo học sinh.

Phỏng vấn 5–8 giáo viên đang dùng Teado mỗi chu kỳ, ghi âm.
Đào dữ liệu hành vi thật trong DB: giáo viên rớt ở bước nào của flow giao bài? Học sinh được giao bài Test có vào làm không?
Quét support tickets & chat để phát hiện vấn đề lặp lại.

⚡ AI trong cách làm việc

Deepgram transcribe phỏng vấn → Claude cluster pain points theo theme, quét ticket tìm pattern. Đầu ra là danh sách validated problems xếp hạng theo tần suất × mức độ đau — không phải danh sách tính năng.

Giai đoạn 2

Decide

Biến problem thành một canh bạc có kỷ luật.

Mỗi sáng kiến cần một one-page hypothesis PRD thay cho spec dài, gồm 6 phần:

Problem & evidence — vấn đề từ Discover, kèm số liệu.
Hypothesis — câu "Chúng tôi tin rằng…".
NSM impact — tác động NSM nào, dự kiến bao nhiêu.
AI design — phần nào AI, phần nào rule-based; model nào.
Success metric & A/B plan — ngưỡng kill / scale.
Smallest shippable version — bản nhỏ nhất kiểm chứng được.

⚡ AI trong cách làm việc

Claude draft PRD từ ghi chú Discover, sinh user stories & edge cases, và phản biện chính giả thuyết ("lý do nào feature này thất bại?"). Chốt chặn chống feature factory: không gắn được vào NSM thì không vào sprint.

Giai đoạn 3

Build

Ship nhanh, nhưng feature AI phải có "đơn vị kiểm thử" riêng.

Khác biệt lớn nhất với phần mềm thường: feature AI cần eval framework, không chỉ unit test vì output không tất định.

Golden set: 50–200 ví dụ thật kèm đáp án mong muốn (bài viết học sinh + điểm/nhận xét giáo viên đồng thuận). Đổi prompt/model là chạy lại.
Kiến trúc prompt 3 lớp: persona/safety · session context · turn — dễ kiểm soát & audit.
Cổng chất lượng: với Bingo/Test, accuracy learning outcome là ràng buộc số 1, trên cả tốc độ & chi phí. Không pass eval thì không ship.

⚡ AI trong cách làm việc

Claude Code / AI pair-programming tăng tốc eng, sinh test, viết migration. Team nhỏ nên đặt mục tiêu mỗi engineer "lái" AI thay vì gõ tay boilerplate.

Giai đoạn 4

Measure

Để dữ liệu phán quyết, không phải ý kiến.

Mỗi feature ship kèm A/B test hoặc before/after có ngưỡng định trước — mảnh roadmap hiện chưa có.
Theo dõi NSM của product trước; vanity metric (study time, click) chỉ là chẩn đoán phụ.
Với feature AI: đo thêm chất lượng output (tỷ lệ giáo viên sửa lại nhận xét AI = tín hiệu eval lệch) và chi phí AI/user (Bingo mục tiêu <$4/user/tháng).

⚡ Lưu ý hạ tầng

Ưu tiên: (1) SQL queries chuẩn hoá + dashboard nhẹ cho từng NSM, (2) export tự động, (3) dài hạn ClickHouse/BigQuery cho learning analytics. Đừng để hạ tầng chặn đo lường cơ bản.

Giai đoạn 5

Learn

Đóng vòng lặp — khâu hay bị bỏ nhất.

Mỗi feature có một quyết định sau 2–4 tuần: scale / iterate / kill. Kill là kết quả hợp lệ và đáng ăn mừng — nó giải phóng năng lực.
AI tổng hợp kết quả nhiều thí nghiệm thành insight, đề xuất ứng viên cho backlog Discover kế tiếp.
Cập nhật giả thuyết: cái gì đúng/sai về user, model, và cross-sell Teado → Test.

IV

Eval framework cho feature AI

Trái tim của "AI-first". Vì output AI không tất định, mỗi feature AI phải có bộ đo chất lượng riêng — chạy tự động mỗi khi đổi prompt hay model, trước khi ship.

Bước 1

Định nghĩa tiêu chí chất lượng

Trước khi viết prompt, chốt feature này "đúng" nghĩa là gì, đo bằng tiêu chí rời rạc:

Correctness — output có chính xác về mặt học thuật không (điểm/nhận xét khớp giáo viên).
Safety — không nội dung độc hại, lệch tuổi, sai an toàn trẻ em.
Format — đúng cấu trúc app cần (JSON, độ dài, ngôn ngữ).
Tone — đúng persona & cấp học (tiểu học khác IELTS).

Bước 2

Xây golden set

50–200 ví dụ thật, mỗi ví dụ gồm input + output mong muốn được con người (giáo viên) đồng thuận:

Lấy từ dữ liệu thật, không bịa.
Cố ý gồm ca khó & edge case: bài sai lệch, input lạ, tiếng Việt lẫn Anh.
Phân tầng theo cấp học & kỹ năng.
Versioned trong git — golden set là tài sản, không phải file tạm.

Bước 3

Chấm: tự động + người

Ba tầng chấm, dùng tầng nào tùy tiêu chí:

Rule-based — format, độ dài, JSON hợp lệ (rẻ, chạy mọi lần).
LLM-as-judge — Claude chấm correctness/tone theo rubric, đối chiếu golden output.
Human review — giáo viên spot-check mẫu ngẫu nhiên hàng tuần để hiệu chỉnh LLM-judge.

Bước 4

Regression & CI

Eval không phải làm một lần:

Mỗi lần đổi prompt / model / nhiệt độ → chạy lại toàn bộ golden set.
So điểm với baseline; tụt quá ngưỡng là chặn deploy.
Log mọi lần chạy để thấy chất lượng theo thời gian, không "trôi" âm thầm.

Cổng chất lượng (quality gate) — ngưỡng ví dụ

Tiêu chí	Ngưỡng ship	Nếu không đạt
Safety (trẻ em)	100% — không khoan nhượng	Chặn ship tuyệt đối
Correctness	≥ 90% khớp golden	Sửa prompt, chạy lại
Format hợp lệ	≥ 99%	Chặn deploy (CI)
Tone / cấp học	≥ 85%	Ship được, ghi nợ cải thiện
Chi phí / lượt	Trong ngân sách product	Tối ưu ở Phase calibration

Ngưỡng tối thiểu để ship. Safety là tuyệt đối — coral = không khoan nhượng.

⚡ Nguyên tắc số 1

Với Bingo & Test, accuracy của learning outcome đứng trên cả tốc độ ra mắt lẫn chi phí. Một feature AI chưa có golden set thì coi như chưa sẵn sàng ship — bất kể demo đẹp đến đâu. Ai sở hữu eval: Core squad.

V

North Star Metric theo product

NSM công ty là WALO; mỗi product có NSM riêng dẫn về cùng một hướng giá trị.

Product	North Star Metric đề xuất
Teado.ai	Giáo viên hoạt động hàng tuần (WAT) có giao bài qua AI
FLYER Test & Study	Học sinh hoàn thành ≥1 bài học/test có outcome mỗi tuần
Cầu nối cross-sell	% giáo viên Teado kéo được ≥1 lớp vào Test & Study
Công ty (WALO)	Số học sinh đạt learning event thành công mỗi tuần

Chiến lược tăng trưởng: Teado là cửa vào giáo viên → giáo viên kéo học sinh → học sinh tạo learning outcome. Mỗi tầng tụt là một chỉ số cần đo.

VI

Cấu trúc team để chạy quy trình

Với 5–15 người: 2–3 squad mỏng theo chức năng, không chia theo product.

◆

Core squad

Giữ chất lượng & accuracy lõi: eval, AI tutor, chấm bài. Đây là nơi ràng buộc "accuracy số 1" được bảo vệ.

Sở hữu: chất lượng học tập

▲

Growth squad

Sở hữu vòng cross-sell Teado → Test & Study, chạy A/B. Cần một Growth PM — vai trò roadmap đang thiếu.

Sở hữu: WALO & cross-sell

●

Platform

Hạ tầng dữ liệu, prompt infra, eval dùng chung. Có thể ghép với Core khi team còn nhỏ.

Sở hữu: nền tảng & dữ liệu

Điều cần tránh

Quy trình này tồn tại để chống một thứ duy nhất: feature factory không có kỷ luật giả thuyết — gốc rễ của roadmap phình ra trên năm product. Build ít hơn, học nhiều hơn.

✕ Ship để báo cáo "đã làm xong" ✕ Study time làm North Star ✕ Feature AI không có golden set ✕ Sáng kiến không gắn vào NSM nào ✕ Đo lường bằng cảm tính