Bảng Unicode và chuyển đổi

Bảng dữ liệu

Công cụ này đang cung cấp các bảng dữ liệu hữu ích để tham khảo và phát triển, đồng thời cung cấp các công cụ chuyển đổi và tìm kiếm cho từng bảng dữ liệu.

Chuyển đổi và tìm kiếm Unicode

Tìm kiếm thông tin unicode bằng cách nhập giá trị glyph, thập lục phân, thập phân hoặc bát phân.

Unicode "U+undefined" Information

• Tên: undefined undefined

• Loại: undefined (undefined)

• Bidirectional Class: undefined (undefined)

• Combining Class: undefined (undefined)

• Script: undefined

Glyph

Decimal

Hexadecimal

Octal

Bảng khối Unicode: undefined (U+undefined ~ U+undefined)

Bạn có thể chọn danh sách khối unicode và tìm kiếm dữ liệu unicode trong bảng. Và bạn có thể xem thông tin unicode ở thẻ phía trên nếu bạn chọn một hàng trong bảng.

Chọn khối Unicode

UNICODE Giải trình

Tiêu chuẩn Unicode là một tiêu chuẩn mã hóa văn bản được duy trì bởi Hiệp hội Unicode, được thiết kế để hỗ trợ việc sử dụng văn bản được viết bằng tất cả các hệ thống chữ viết chính trên thế giới. Tiêu chuẩn này bao gồm khoảng 100000 ký tự để thể hiện các ký tự của các ngôn ngữ khác nhau. Trong khi ASCII chỉ sử dụng 1 byte thì Unicode sử dụng 4 byte để biểu thị các ký tự. Do đó, nó cung cấp rất nhiều loại mã hóa. Nó có ba loại là UTF-8, UTF-16, UTF-32. Trong số đó, UTF-8 được sử dụng nhiều nhất và cũng là mã hóa mặc định cho nhiều ngôn ngữ lập trình.

Qua nhiều năm, mã hóa tiêu chuẩn Unicode đã được mở rộng đều đặn và hiện bao gồm các ngôn ngữ như tiếng Cherokee, tiếng Mông Cổ và chữ tượng hình Ai Cập cổ đại. Ngoài việc chỉ cung cấp một hệ thống mã ký tự được tiêu chuẩn hóa, Hiệp hội Unicode đã mở rộng phạm vi nỗ lực của mình để bao gồm dữ liệu “ngôn ngữ” tiêu chuẩn, chẳng hạn như cách định dạng ngày tháng bằng tiếng Ả Rập hoặc tiếng Swahili và các thư viện mã hỗ trợ các lập trình viên phát triển. Unicode ban đầu được thiết kế với mục đích vượt qua các giới hạn hiện có trong tất cả các bảng mã văn bản được thiết kế cho đến thời điểm đó: mỗi bảng mã được dựa vào để sử dụng trong ngữ cảnh riêng của nó, nhưng không có kỳ vọng cụ thể nào về khả năng tương thích với bất kỳ bảng mã nào khác. Thật vậy, bất kỳ hai mã hóa nào được chọn thường hoàn toàn không thể thực hiện được khi sử dụng cùng nhau, với văn bản được mã hóa trong một mã hóa được hiểu là ký tự rác bởi mã kia. Hầu hết các mã hóa chỉ được thiết kế để tạo điều kiện tương tác giữa một số ít tập lệnh—thường chủ yếu là giữa một tập lệnh nhất định và các ký tự Latinh—chứ không phải giữa một số lượng lớn tập lệnh và không phải tất cả các tập lệnh được hỗ trợ đều không được xử lý một cách nhất quán.