Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái
Ngày đăng: 14/06/2025 | 7 lượt xem | 0 download |
PDF | 96 trang
Độc giả nói gì về "Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái"
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI ĐÀO LÊ HUY NGHIÊN CỨU ỨNG DỤNG HỌC MÁY PHÁT HIỆN VẾT NỨT CÔNG TRÌNH GIAO THÔNG QUA ẢNH THU ĐƯỢC TỪ THIẾT BN BAY KHÔNG NGƯỜI LÁI Ngành: Hệ thống thông tin Mã số: 8480104 ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN: TS. Phạm Văn Hà Hà Nội – 2024
i LỜI CAM ĐOAN Học viên là Đào Lê Huy, học viên cao học lớp Cao học hệ thống thông tin khóa 12. Học viên cam đoan rằng đề án thạc sĩ mang tựa đề “Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái” được trình bày dưới đây là công trình nghiên cứu của chính học viên dưới sự hướng dẫn của TS. Phạm Văn Hà. Các nội dung nghiên cứu và kết quả trong đề tài này là trung thực và chưa từng được ai công bố trong bất cứ công trình nghiên cứu nào trước đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính học viên thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham khảo. Học viên cam đoan rằng không có bất kỳ vi phạm nào đối với các quy định đạo đức nghiên cứu khoa học trong quá trình thực hiện luận án. Các tài liệu tham khảo được trích dẫn đúng nguồn gốc và được sử dụng một cách hợp lý. Học viên hiểu rõ rằng nếu phát hiện bất kỳ sai sót, vi phạm hoặc gian lận nào trong đề án của mình, học viên sẽ chịu trách nhiệm trước pháp luật và có thể bị xem xét lại về bằng cấp đã đạt được. Học viên viết cam đoan này và học viên hoàn toàn chịu trách nhiệm về tính chính xác và trung thực của công trình nghiên cứu của mình. Hà Nội, ngày 17 tháng 05 năm 2024 Tác giả Đào Lê Huy
ii MỤC LỤC LỜI CAM ĐOAN ............................................................................................. i MỤC LỤC........................................................................................................ ii DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT ....................................... iv DANH MỤC CÁC HÌNH VẼ ....................................................................... vi DANH MỤC CÁC BẢNG BIỂU ................................................................viii MỞ ĐẦU .......................................................................................................... 1 Lý do chọn đề tài ......................................................................................... 1 Tổng quan nghiên cứu ................................................................................ 2 Mục tiêu của đề tài ...................................................................................... 2 Phương pháp nghiên cứu ........................................................................... 2 Nội dung nghiên cứu ................................................................................... 3 CHƯƠNG 1: TỔNG QUAN BÀI TOÁN ...................................................... 5 1.1. Tổng quan về thị giác máy tính ..................................................... 5 1.1.1. Giới thiệu thị giác máy tính .......................................................... 5 1.1.2. Các kỹ thuật xử lý ảnh .................................................................. 7 1.2. Vấn đề xác định vết nứt từ ảnh UAV .......................................... 19 1.2.1. Tình hình nghiên cứu trong nước................................................ 19 1.2.2. Tình hình nghiên cứu ở nước ngoài ............................................ 22 1.3. Kết luận chương ............................................................................ 24 CHƯƠNG 2: GIẢI PHÁP XÁC ĐNNH VẾT NỨT TỪ ẢNH UAV ......... 25 2.1. Trí tuệ nhân tạo ............................................................................. 25 2.2. Mạng nơron tích chập .................................................................. 36 2.3. Mạng Transformer ....................................................................... 42 2.4. Kết luận chương ............................................................................ 47
iii CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ .......................................... 48 3.1. Thiết kế môi trường ...................................................................... 48 3.2. Mô hình thu nhận hình ảnh từ thiết bị bay ................................ 48 3.3. Thu thập dữ liệu huấn luyện mô hình ......................................... 51 3.4. Xây dựng mô hình và đánh giá .................................................... 52 3.4.1. Mô hình thuật toán ...................................................................... 52 3.4.2. Quá trình thực nghiệm ................................................................ 59 3.4.3. Đánh giá kết quả ......................................................................... 69 3.5. Kết luận chương ............................................................................ 70 KẾT LUẬN .................................................................................................... 71 DANH MỤC TÀI LIỆU THAM KHẢO ..................................................... 72
iv DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt UAV Unmanned Aerial Vehicle Phương tiện bay không người lái FPS Frame per second Khung hình trong 1 giây TP True Positive Tích cực thực sự FP False Negative Âm tính giả IoU Intersection over union Giao nhau trên hợp nhất mIoU Mean intersection over Trung bình giao nhau union trên hợp nhất AI Artificial Intelligence Trí tuệ nhân tạo CNN Convolution Neural Mạng nơron tích chập Network SOTA State-of-the-art Hiện đại nhất ANN Artificial Neural Networks Mạng nơron nhân tạo RF Random Forest Rừng ngẫu nhiên SVM Support Vector Machine Máy vectơ hỗ trợ VGG Visual Geometry Group Nhóm hình học trực quan RGB Red, green, blue Đỏ, lục, lam CMYK Cyan, magenta, yellow, key Lục lam, đỏ tươi, vàng, chìa khóa
v HSL Hue, saturation, lightness Màu sắc, độ bão hòa, độ sáng TV Television Ti vi CPU Central processing unit Bộ xử lý trung tâm GPU Graphic processing unit Bộ xử lý đồ hoạ TPU Tensor processing unit Bộ xử lý Tensor NLP Natural language processing Xử lý ngôn ngữ tự nhiên 2D 2 – dimension 2 chiều 3D 3 – dimension 3 chiều
vi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Minh họa điểm ảnh trong ảnh kỹ thuật số........................................ 6 Hình 1.2 Mô tả phương pháp Wavelet –Random transform........................... 21 Hình 1.3 Minh họa phương pháp trích chọn đặc trưng dựa vào DWT-SMF.. 21 Hình 1.4 Quá trình huấn luyện và kiểm tra của mô hình CNN trong hệ thống phân loại các khuyết tật mặt đường ................................................................ 22 Hình 1.5 Kết quả phân lớp dựa trên các phương pháp VGG-16, RF, SVM của lần lượt của bộ dữ liệu 1, 2, 3 ......................................................................... 22 Hình 2.1 Tương quan giữa trí tuệ nhân tạo, học máy và học sâu ................... 28 Hình 2.2 Mạng nơron nhân tạo ....................................................................... 30 Hình 2.3 Mạng nơron tích chập ...................................................................... 37 Hình 2.4 Biểu diễn ảnh kỹ thuật số với biểu diễn RGB.................................. 37 Hình 2.5 Mô phỏng tính toán tích chập .......................................................... 38 Hình 2.6 Kiến trúc mạng Transformers .......................................................... 43 Hình 2.7 Cách thức hoạt động Query, Key và Value của Transformers ........ 45 Hình 3.1 Mô hình thiết bị bay không người lái .............................................. 49 Hình 3.2 Luồng hoạt động của hệ thống ......................................................... 50 Hình 3.3 Hình ảnh dữ liệu thu thập................................................................. 51 Hình 3.4 Mô hình TopFormer......................................................................... 54 Hình 3.5 So sánh độ chính xác và độ trễ của mô hình TopFormer với các mô hình khác ......................................................................................................... 55 Hình 3.6 So sánh tốc độ và độ chính xác mIoU của PPLiteSeg và các mô hình khác trên GTX1080TI ..................................................................................... 56
vii Hình 3.7 So sánh tốc độ và độ chính xác của mô hình STDC với các mô hình khác ................................................................................................................. 58 Hình 3.8 Tổng quan về mô hình STDC .......................................................... 58 Hình 3.9 Ảnh gốc và hình ảnh được gán nhãn................................................ 60 Hình 3.10 Cấu trúc thư mục lưu trữ dữ liệu.................................................... 61 Hình 3.11 Kết quả mIoU trên tập dữ liệu đánh giá của mô hình PPLiteSeg theo thời gian huấn luyện ................................................................................ 63 Hình 3.12 Kết quả Loss ghi nhận trong quá trình huấn luyện mô hình PPLiteSeg theo thời gian huấn luyện .............................................................. 63 Hình 3.13 Kết quả mIoU trên tập đánh giá của MobileNetV2 theo thời gian huấn luyện ....................................................................................................... 64 Hình 3.14 Kết quả Loss trong quá trình huấn luyện của MobileNetV2 theo thời gian huấn luyện ........................................................................................ 65 Hình 3.15 Kết quả mIoU trên tập dữ liệu đánh giá của mô hình STDCSeg theo thời gian huấn luyện ................................................................................ 66 Hình 3.16 Kết quả Loss trong quá trình huấn luyện mô hình STDCSeg theo thời gian huấn luyện ........................................................................................ 66 Hình 3.17 Kết quả mIoU trên tập đánh giá của mô hình TopFormer theo thời gian huấn luyện ............................................................................................... 67 Hình 3.18 Kết quả Loss trong quá trình huấn luyện của mô hình TopFomer theo thời gian huấn luyện ................................................................................ 68 Hình 3.19 Kết quả mIoU của 4 mô hình TopFormer, PPLiteSeg, STDCSeg và MobileNetV2 theo thời gian huấn luyện......................................................... 69 Hình 3.20 Kết quả khi ứng dụng mô hình PPLiteSeg..................................... 70
viii DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Bảng so sánh học máy và học sâu ................................................... 31 Bảng 3.1 Kết quả thu thập trong quá trình huấn luyện mô hình PPLiteSeg ... 64 Bảng 3.2 Kết quả thu thập trong quá trình huấn luyện MobileNetV2 ............ 65 Bảng 3.3 Kết quả thu thập trong quá trình huấn luyện STDCSeg .................. 67 Bảng 3.4 Kết quả thu thập trong quá trình huấn luyện TopFormer ................ 68
1 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Với sự phát triển không ngừng nghỉ của công nghệ trên toàn cầu, việc ứng dụng các thiết bị điện tử, thiết bị thông minh, tự động hoá trong các lĩnh vực đời sống là vô cùng cấp thiết và tối ưu. Các thiết bị bay không người lái đang đóng góp vai trò quan trọng trong việc giảm thiểu và gia tăng hiệu quả công việc mà con người đang phải nắm giữ. Đề tài "Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái" là một chủ đề hứa hẹn và có tính cấp thiết trong nhiều khía cạnh. Các thiết bị bay không người lái được trang bị công nghệ thông minh và camera có vai trò quan trọng trong an giao thông. Việc sớm phát hiện và xử lý các vết nứt, tổn thương trên cơ sở hạ tầng giúp ngăn chặn sự cố giao thông và giảm nguy cơ tai nạn. Sử dụng học máy để phát hiện vết nứt từ ảnh thu được từ thiết bị bay không người lái có thể giúp tiết kiệm chi phí và thời gian so với các phương pháp truyền thống như kiểm tra thủ công hoặc sử dụng các thiết bị đo đạc chuyên nghiệp. Vấn đề của việc phát hiện vết nứt trên cơ sở hạ tầng giao thông là phổ biến toàn cầu, nên nghiên cứu của chúng ta có thể mang lại giải pháp có ảnh hưởng rộng lớn. Thiết bị bay không người lái có khả năng thu thập dữ liệu lớn và chi tiết từ các khu vực khó tiếp cận. Học máy có thể giúp quản lý và phân tích số lượng lớn ảnh một cách hiệu quả, hỗ trợ quyết định và dự báo tình trạng cơ sở hạ tầng. Kết hợp giữa học máy và thiết bị bay không người lái là sự kết hợp của hai công nghệ tiên tiến, mở ra nhiều cơ hội mới cho việc nghiên cứu và phát triển trong lĩnh vực này. Với những lý do trên, học viên quyết định chọn đề tài “Nghiên cứu ứng dụng học máy phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết
2 bị bay không người lái” cho đề án tốt nghiệp của mình. Tính cấp thiết của đề tài này đặt ra từ sự kết hợp của nhu cầu thực tế trong quản lý an toàn giao thông, khả năng tiết kiệm chi phí và thời gian, và tiềm năng đóng góp vào sự phát triển của cả hai lĩnh vực công nghệ và xây dựng. TỔNG QUAN NGHIÊN CỨU Đầu tiên, nhận thấy đây là đề tài mang tính thực tiễn, do vậy việc tiên quyết cần thực hiện đó là khảo sát trong các vết nứt ở các cơ sở hạ tầng giao thông. Bên cạnh đó cần đánh giá các vết nứt liên quan đến độ bền và an toàn của cơ sở hạ tầng. Ngoài ra, việc tìm hiểu về các thiết bị bay không người lái để hiểu hơn về cơ chế hoạt động, các ứng dụng và sự sáng tạo khi ứng dụng thiết bị vào thực tiễn đời sống. Kết quả đạt được mong đợi là xây dựng được giải pháp phát hiện được các vết nứt trên cơ sở hạ tầng để cảnh báo đến các nhân viên giám sát. Việc này sẽ hỗ trợ nhân viên giám sát quyết định bảo dưỡng, bảo trì hay cảnh bảo với các phương tiện giao thông đang lưu thông. MỤC TIÊU CỦA ĐỀ TÀI Mục tiêu của đề tài là xây dựng giải pháp sử dụng học máy để tự động phát hiện và đánh giá vết nứt trong cơ sở hạ tầng giao thông, sử dụng dữ liệu ảnh thu được từ thiết bị bay không người lái. Điều này nhằm cải thiện khả năng giám sát, dự báo và duy trì an toàn của cơ sở hạ tầng đó. PHƯƠNG PHÁP NGHIÊN CỨU Phương pháp nghiên cứu được chia thành các nội dung chính sau: - Tóm lược tài liệu, nghiên cứu trong và ngoài nước. Tìm ra phương hướng xử lý cho bài toán tham khảo từ các nghiên cứu trước đây.
3 - Tìm ra phương pháp tối ưu, phù hợp với bài toán đặt ra. Với mong muốn có thể ứng dụng với sự đa dạng của cơ sở vật chất và điều kiện tự nhiên nên đề tài này quyết định sử dụng các phương pháp học máy, học sâu để làm công nghệ lõi. Nghiên cứu xoay quanh việc nghiên cứu, triển khai các mô hình học máy, học sâu và tiến hành tích hợp mô hình vào thực tiễn. - Đánh giá ưu nhược điểm của phương pháp sử dụng để nâng cao hiệu quả của bài toán hướng đến. NỘI DUNG NGHIÊN CỨU Đề tài được tiếp cận theo các bước sau: Bước 1: Thu thập dữ liệu − Xác định vị trí thu thập dữ liệu trên cơ sở hạ tầng giao thông. − Sử dụng UAV để thu thập ảnh chất lượng cao từ các góc độ khác nhau. − Gán nhãn cho ảnh để phân loại vết nứt theo độ nghiêm trọng và loại hình. Bước 2: Chuẩn bị dữ liệu − Tiền xử lý dữ liệu để loại bỏ nhiễu và cải thiện chất lượng ảnh. − Chia dữ liệu thành tập huấn luyện và tập kiểm thử. − Chuẩn bị dữ liệu cho quá trình huấn luyện mô hình, bao gồm cả định dạng và đồng nhất hóa. Bước 3: Chọn và triển khai mô hình học máy − Lựa chọn mô hình học máy phù hợp với bài toán nhận diện vết nứt. − Huấn luyện mô hình trên tập dữ liệu đã chuẩn bị. − Đánh giá hiệu suất của mô hình trên tập kiểm thử.
4 Bước 4: Tối ưu hóa và điều chỉnh − Tối ưu hóa tham số của mô hình để cải thiện độ chính xác. − Kiểm tra và điều chỉnh mô hình để giảm học kém hoặc học vẹt. Bước 5: Kiểm thử và đánh giá − Kiểm thử mô hình trên dữ liệu thực tế để đảm bảo khả năng tổng quát. − Đánh giá hiệu suất sử dụng các độ đo như độ chính xác, độ nhạy, độ chính xác, và các ma trận lỗi. Bước 6: So sánh, đánh giá các mô hình với nhau
5 CHƯƠNG 1: TỔNG QUAN BÀI TOÁN Nội dung chương 1 trình bày tổng quan về thị giác máy tính, các nghiên cứu trong nước và quốc tế tham khảo trong quá trình nghiên cứu về phát hiện vết nứt công trình giao thông qua ảnh thu được từ thiết bị bay không người lái. 1.1. TỔNG QUAN VỀ THN GIÁC MÁY TÍNH 1.1.1. Giới thiệu thị giác máy tính Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo huấn luyện máy tính diễn giải và hiểu thế giới thị giác. Máy móc có thể xác định và định vị chính xác các vật thể, sau đó phản ứng với những gì chúng “nhìn thấy” bằng cách sử dụng hình ảnh kỹ thuật số từ máy ảnh, video và mô hình học sâu [1]. Bắt đầu từ cuối những năm 1950 và đầu những năm 1960, mục tiêu của phân tích hình ảnh là bắt chước hệ thống thị giác của con người và hỏi máy tính xem chúng nhìn thấy gì. Trước đó, việc phân tích hình ảnh đã được hoàn thành thủ công bằng cách sử dụng tia X hoặc chụp ảnh không gian độ phân giải cao. Bản đồ mặt trăng của Nasa dẫn đầu về xử lý hình ảnh kỹ thuật số nhưng không được chấp nhận hoàn toàn cho đến năm 1969. Khi thị giác máy tính phát triển, các thuật toán lập trình được tạo ra để giải quyết các thách thức riêng lẻ. Máy móc trở nên tốt hơn trong việc thực hiện công việc nhận dạng tầm nhìn bằng cách lặp đi lặp lại. Trong những năm qua, đã có sự cải tiến vượt bậc về kỹ thuật và công nghệ học sâu. Giờ đây chúng ta có khả năng lập trình cho các siêu máy tính để tự đào tạo, tự hoàn thiện theo thời gian và cung cấp khả năng cho doanh nghiệp dưới dạng ứng dụng trực tuyến. Hình ảnh được chia thành các điểm ảnh, được coi là các thành phần của hình ảnh hoặc đơn vị thông tin nhỏ nhất tạo nên hình ảnh.
6 Hình 1.1 Minh hoạ điểm ảnh trong hình ảnh Thị giác máy tính không chỉ là chuyển đổi hình ảnh thành điểm ảnh và sau đó cố gắng hiểu nội dung trong hình ảnh thông qua các điểm ảnh đó. Chúng ta phải hiểu bức tranh toàn cảnh hơn về cách trích xuất thông tin từ các điểm ảnh đó và diễn giải những gì chúng thể hiện. Một trong những thư viện thị giác máy tính hàng đầu trên thị trường hiện nay là OpenCV [2]. Nó là một thư viện đa nền tảng, nơi nó có thể phát triển các ứng dụng thị giác máy tính theo thời gian thực. Thị giác máy tính sử dụng các khái niệm hoặc kỹ thuật xử lý hình ảnh để xử lý trước hình ảnh và chuyển đổi hình ảnh này thành dữ liệu thích hợp hơn để phân tích thêm. Xử lý hình ảnh thường là bước đầu tiên trong hầu hết các hệ thống thị giác máy tính. Hầu hết các ứng dụng sử dụng thị giác máy tính chủ yếu dựa vào thuật toán xử lý hình ảnh. Các kỹ thuật xử lý ảnh phổ biến: - Chỉnh sửa phơi sáng - Giảm nhiễu hình ảnh
7 - Làm thẳng hoặc xoay hình ảnh - Tăng độ sắc nét Rất nhiều kỹ thuật xử lý hình ảnh đang được sử dụng trong thị giác máy tính như lọc tuyến tính và phi tuyến tính, biến đổi Fourier [3], kim tự tháp hình ảnh [4] và sóng con, biến đổi hình học và tối ưu hóa toàn cầu. 1.1.2. Các kỹ thuật xử lý ảnh 1.1.2.1. Không gian màu Trong xử lý ảnh, không gian màu được sử dụng để thể hiện màu sắc dưới dạng các giá trị số có thể được thao tác và xử lý. Không gian màu là một mô hình toán học xác định một phạm vi màu cụ thể có thể được hiển thị hoặc in. Mỗi không gian màu có một tập hợp màu cơ bản cụ thể, được sử dụng để tạo ra tất cả các màu khác trong không gian. Các không gian màu phổ biến nhất trong xử lý hình ảnh là RGB, CMYK và HSL. - Không gian màu RGB là mô hình màu bổ sung được sử dụng để hiển thị màu sắc trên màn hình điện tử, chẳng hạn như màn hình máy tính và TV. Nó sử dụng ba màu cơ bản: đỏ, lục và lam để tạo ra tất cả các màu khác. Trong không gian màu RGB, mỗi màu được biểu thị bằng sự kết hợp của các giá trị đỏ, lục và lam, nằm trong khoảng giá trị từ 0 đến 255. - Không gian màu CMYK là mô hình màu trừ được sử dụng trong phương tiện in ấn. Nó sử dụng bốn màu cơ bản: lục lam, đỏ tươi, vàng và đen (còn được gọi là màu chính), để tạo ra tất cả các màu khác. Trong không gian màu CMYK, mỗi màu được biểu thị bằng sự kết hợp của các giá trị lục lam, đỏ tươi, vàng và đen, nằm trong khoảng từ 0 đến 100.
8 - Không gian màu HSL là mô hình màu được sử dụng để xác định màu dựa trên màu sắc, độ bão hòa và độ sáng của chúng. Hue là màu thực tế của vật thể, độ bão hòa là cường độ của màu và độ sáng là màu sáng hay tối. Trong không gian màu HSL, màu sắc được biểu thị bằng giá trị độ từ 0 đến 360, độ bão hòa được biểu thị bằng giá trị phần trăm từ 0% đến 100% và độ sáng được biểu thị bằng giá trị phần trăm từ 0% đến 100%. Trong xử lý ảnh, người ta thường phải chuyển đổi màu sắc giữa các không gian màu khác nhau. Ví dụ: một hình ảnh có thể được chụp trong không gian màu RGB, nhưng nó có thể cần được in bằng không gian màu CMYK. Chuyển đổi không gian màu là quá trình chuyển đổi màu từ không gian màu này sang không gian màu khác. Có một số thuật toán và kỹ thuật có thể được sử dụng để chuyển đổi không gian màu, bao gồm bảng nhân ma trận và bảng tra cứu. Khi chuyển đổi màu giữa các không gian màu, điều quan trọng là phải xem xét các yếu tố như độ chính xác của màu và gam màu. Không gian màu có nhiều ưu điểm trong xử lý ảnh, bao gồm: - Tiêu chuẩn hóa: Không gian màu cung cấp một cách tiêu chuẩn hóa để thể hiện màu sắc, đảm bảo tính nhất quán trên các thiết bị và ứng dụng khác nhau. - Độ chính xác: Các không gian màu khác nhau được tối ưu hóa cho các ứng dụng khác nhau, cho phép thể hiện màu sắc chính xác hơn trong các ngữ cảnh cụ thể. - Khả năng tương thích: Chuyển đổi hình ảnh giữa các không gian màu khác nhau là một quá trình đơn giản, giúp bạn dễ dàng làm việc với hình ảnh từ nhiều nguồn khác nhau.
9 - Tính linh hoạt: Bằng cách chuyển đổi hình ảnh giữa các không gian màu khác nhau, bạn có thể đạt được các hiệu ứng khác nhau và xử lý màu sắc theo nhiều cách khác nhau. Có nhiều loại không gian màu khác nhau, mỗi loại có đặc tính và cách sử dụng riêng. Một số không gian màu được sử dụng phổ biến nhất là: - RGB: Đây là không gian màu được sử dụng rộng rãi nhất cho hình ảnh kỹ thuật số. Đây là mô hình màu bổ sung, trong đó ba màu cơ bản được kết hợp để tạo ra tất cả các màu khác. - CMYK: Đây là không gian màu được sử dụng rộng rãi nhất để in. Đây là mô hình màu trừ, trong đó ba màu cơ bản được trừ khỏi màu trắng để tạo ra tất cả các màu khác. - HSL: Những không gian màu này được thiết kế để mang lại trực quan hơn cho con người vì chúng tương ứng chặt chẽ hơn với cách chúng ta cảm nhận màu sắc. Chúng thường được sử dụng để xử lý hình ảnh và ứng dụng thị giác máy tính. Không gian màu cũng có thể được phân loại thành các họ khác nhau dựa trên các đặc tính toán học của chúng, chẳng hạn như mô hình màu cộng hoặc trừ, các phép biến đổi tuyến tính hoặc phi tuyến tính, v.v. Mỗi họ không gian màu có những đặc điểm và ưu điểm riêng, khiến chúng phù hợp với các ứng dụng khác nhau. 1.1.2.2. Xử lý độ sáng và tương phản Độ sáng là một thuật ngữ tương đối. Nó phụ thuộc vào nhận thức trực quan của mỗi người. Vì độ sáng là một thuật ngữ tương đối nên độ sáng có thể được định nghĩa là lượng năng lượng phát ra bởi một nguồn ánh sáng so với nguồn mà chúng ta đang so sánh. Trong một số trường hợp, chúng ta có thể dễ dàng nói rằng hình ảnh sáng và trong một số trường hợp, nó không dễ nhận biết.
10 Chức năng Độ tương phản và Độ sáng tăng cường sự xuất hiện của dữ liệu raster bằng cách sửa đổi độ sáng và độ tương phản trong hình ảnh. Độ sáng làm tăng độ sáng tổng thể của hình ảnh. Ví dụ: làm cho màu tối trở nên sáng hơn và màu sáng trở nên trắng hơn. Trong khi đó, độ tương phản điều chỉnh sự khác biệt giữa màu tối nhất và màu sáng nhất. Độ sáng là nhận thức trực quan trong đó một nguồn dường như đang phản chiếu ánh sáng. Độ sáng là thuộc tính chủ quan của vật thể đang được quan sát. Màn hình màu sử dụng ba màu, tức là sơ đồ RGB, độ sáng của màn hình phụ thuộc vào tổng biên độ của các điểm ảnh màu đỏ lục và xanh lam và được chia cho 3. Nhận thức về độ sáng phụ thuộc vào ảo ảnh quang học để trông sáng hơn hoặc tối hơn. Khi độ sáng giảm, màu sắc có vẻ xỉn và khi độ sáng tăng, màu sắc rõ hơn. Trên thiết bị di động, khi cài đặt độ sáng cao, pin của thiết bị sẽ cạn kiệt nhanh so với cài đặt độ sáng thấp. Độ tương phản là màu sắc giúp phân biệt một vật thể. Có thể nói độ tương phản được quyết định bởi màu sắc và độ sáng của vật thể. Độ tương phản là sự khác biệt giữa cường độ điểm ảnh tối đa và tối thiểu của hình ảnh. Dưới đây là công thức tính độ tương phản: 𝑡ươ𝑛𝑔 𝑝ℎả𝑛 = 𝑐ườ𝑛𝑔 độ 𝑝𝑖𝑥𝑒𝑙 𝑙ớ𝑛 𝑛ℎấ𝑡 − 𝑐ườ𝑛𝑔 độ 𝑝𝑖𝑥𝑒𝑙 𝑛ℎỏ 𝑛ℎấ𝑡 (1.1) 1.1.2.3. Xử lý biểu đồ Chúng ta có thể định nghĩa biểu đồ của hình ảnh là biểu đồ thanh 2D. Trục ngang biểu thị cường độ điểm ảnh. Trục dọc biểu thị tần số của từng cường độ. Trong trường hợp hình ảnh thang độ xám, ma trận này sẽ được tạo từ các số từ 0 đến 255. Đối với hình ảnh RGB, chúng ta sẽ có ba ma trận, mỗi ma trận một kênh màu.
11 Để xác định biểu đồ của một hình ảnh, chúng ta cần đếm xem có bao nhiêu trường hợp của mỗi cường độ. Vì vậy, biểu đồ sẽ cho phép chúng ta biết tần suất xảy ra của mỗi cường độ. Chúng ta có thể sử dụng biểu đồ để xác định ngưỡng phân đoạn hình ảnh nhằm tách nền khỏi đối tượng. Ví dụ: nếu muốn một tách bông hồng ra khỏi nền của nó, chúng ta có thể bắt đầu bằng cách phân tích biểu đồ. Bằng cách này, chúng ta giả sử có thể thấy rằng hầu hết các điểm ảnh nền đều có màu trắng hoặc hơi trắng. Điều này có nghĩa là hầu hết các điểm ảnh nền gần bằng 255. Nếu chúng ta xác định ngưỡng của mình là 156 và lấy mọi điểm ảnh > 156 làm nền, chúng ta sẽ có được một hình ảnh nhị phân trong đó hoa hồng được phân tách rõ ràng. Vì hình ảnh được phân đoạn là nhị phân (điểm ảnh là một phần của hoa hồng hoặc nền), biểu đồ mới chỉ có hai giá trị có thể. Sử dụng các ngưỡng khác nhau sẽ dẫn đến các phân đoạn khác nhau. Trong nhiếp ảnh, chúng ta sử dụng biểu đồ để cải thiện hình ảnh bằng cách thay đổi một số thuộc tính của chúng. Điều này có thể giúp chúng ta có được những bức ảnh rõ ràng hơn hoặc thậm chí là những bức ảnh đẹp hơn. Chúng ta cũng có thể thực hiện cân bằng biểu đồ trong ảnh màu. Trong trường hợp đó, cách tiếp cận đơn giản nhất là cân bằng riêng từng kênh RGB. Sau đó, chúng học viên hợp nhất các kênh và biểu đồ. Một lần nữa, cân bằng mang lại hình ảnh chất lượng cao hơn. 1.1.2.4. Xử lý ảnh nhị phân Trong xử lý ảnh số, ngưỡng là phương pháp phân đoạn ảnh đơn giản nhất. Nó đóng một vai trò quan trọng trong xử lý hình ảnh vì nó cho phép phân đoạn và trích xuất thông tin quan trọng từ hình ảnh. Bằng cách chia hình ảnh thành các vùng riêng biệt dựa trên cường độ điểm ảnh hoặc giá trị điểm ảnh, ngưỡng giúp phân biệt các đối tượng hoặc đặc điểm quan tâm với nền. Kỹ thuật này