Cái clean data nó khó ở chỗ data của mày nó đéo liên quan đến nhau, vớ được các data được phân loại rõ ràng thì hơn vớ được mỏ vàng.
Thứ 2, vì tài nguyên máy tính mày có hạn nên mày đéo thể transform chục triệu data trên 1 máy được, mà phải xây một cluster. Cái này đòi hỏi hiểu biết về ops nữa. Nó mới đẻ ra nghề AI-Ops
Tùy bài toán thằng loz sếp đưa cho mày mà mày sẽ phải chọn 1 hoặc nhiều model phù hợp. Ví dụ ảnh thì có nhận dạng vật thể, nhận dạng chữ viết, phân loại vật thể,... nói chung nhiều vãi lồn, mỗi cái lại có một tỉ model khác nhau với kiến trúc khác nhau. Data của mày như nào thì mày phải chọn model có kiến trúc phù hợp, rồi build hàm tính loss, chiến thuật học cho kiến trúc đó, sau đó mới train chứ đéo phải vứt data vào model rồi bảo là húp đi.
Thế mới nói nếu đéo học mà chỉ lên youtube làm theo tutorial thì nó sẽ thành nồi cám lợn chứ đéo thể nào thành AI được.