UTF-8 LÀ GÌ

Intro

Đây là bài dịch đầu tiên trong series về Elixir và Unicode của tác giả Nathan Long, Các bạn có thể đọc phần 2 tại đâyBài gốc: Part 1 | Part 2Đây là một series rất chi tiết và dễ hiểu, mình có chỉnh sửa và bổ sung 1 chút, hi vọng đem đến cho mọi người 1 cái nhìn rõ ràng nhất về Unicode và UTF-8, thứ chúng ta gặp rất nhiều nhưng chưa chắc đã biết rõ

*

(Shame on other languages

*

Source: Zazzle

Trước khi nói về Unicode, hãy nói về ASCII, thứ mà những người nói tiếng Anh như tôi khi nhắc đến sẽ nghĩ ngay đến những đoạn văn bản thông thường. Nếu chạy lệnh man ascii trên máy của bạn, bạn sẽ nhận được kết quả tương tự như thế này.

*

Về cơ bản, ASCII đơn giản là một cách ánh xạ (mapping) từ kí tự sang số. Đây là sự đồng ý giữa các lập trình viên rằng chữ a hoa, A, có thể được biểu diễn bằng số 65 và tương tự cho các kí tự khác (Tại sao lại là 65 ??? có lí do riêng cho việc này đấy

*

Tạm thời chúng ta vẫn ổn với cách encode này, nhưng chúng ta muốn viết nhiều hơn những kí tự thông thường. Chúng ta muốn viết:

Những kí tự đi kèm với trọng âm

á é í ó ú ü ñ ź đẹp trai

Chữ Hi Lạp

λ φ θ Ω

Kí hiệu toán học

∫f(x)dx ∞ △ABC ~ △DEF

Chữ tượng hình Trung Quốc

夜露死苦

Vẽ tranh chắc cũng không chết ai đâu nhỉ