ĐỒ ÁN PHÁT TRIỂN HỆ THỐNG ROBOT TỰ ĐỘNG LẮP RÁP VẬT ỨNG DỤNG XỬ LÝ ẢNH 3 CHIỀU

Mã đồ án CNCDT0202558
Đánh giá: 5.0
Mô tả đồ án

     Đồ án có dung lượng 260MB. Bao gồm đầy đủ các file như: File chương trình mô phỏng Pycharm; file word (Bản thuyết minh, nhiệm vụ đồ án, phiếu nhận xét, bìa đồ án, bản trình chiếu bảo vệ Power point…). Ngoài ra còn cung cấp rất nhiều các tài liệu chuyên ngành, các tài liệu phục vụ cho thiết kế đồ án........... PHÁT TRIỂN HỆ THỐNG ROBOT TỰ ĐỘNG LẮP RÁP VẬT ỨNG DỤNG XỬ LÝ ẢNH 3 CHIỀU.

Giá: 890,000 VND
Nội dung tóm tắt

MỤC LỤC

LỜI CẢM ƠN………………………………………………………….…................................….i

TÓM TẮT NỘI DUNG ĐỒ ÁN…………………………………….…...................................….ii

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI......................................................................................1

1.1 Đặt vấn đề.......................................................................................................................1

1.2 Tính cấp thiết và ứng dụng của đề tài.............................................................................1

1.3 Các hệ thống robot lắp ráp vật trong công nghiệp..........................................................2

1.3.1 Robot Scara.................................................................................................................2

1.3.2 Robot Delta..................................................................................................................3

1.3.3 Cobot...........................................................................................................................3

1.3.4 Cartesian Robot...........................................................................................................4

1.3.5 Articulated Robot..........................................................................................................4

1.4 Mục tiêu đề tài.................................................................................................................5

1.5 Phương pháp đề xuất.....................................................................................................6

CHƯƠNG 2. THIẾT KẾ PHẦN CỨNG HỆ THỐNG.............................................................7

2.1 Tổng quan hệ thống........................................................................................................7

2.2 Camera Intel RealSense D435.......................................................................................7

2.3 Robot Igus RL-DCi-5S-M................................................................................................9

2.4 Khung gá.......................................................................................................................11

CHƯƠNG 3. PHƯƠNG PHÁP ĐIỀU KHIỂN ROBOT........................................................13

3.1 Sơ đồ thuật toán điều khiển robot gắp và gá đặt phôi...................................................13

3.1.1 Giải thích thuật toán điều khiển..................................................................................14

3.2 Kết nối Robot.................................................................................................................15

3.3 Phương pháp nhận diện vật..........................................................................................15

3.3.2 Mô hình YOLO...........................................................................................................16

3.3.3 Nguyên lý hoạt động của YOLOv11...........................................................................17

3.3.4 Những cải tiến trong YOLOV11.................................................................................19

3.3.5 Bộ dữ liệu đào tạo......................................................................................................20

3.3.6 Phương pháp YOLOv11 OBB....................................................................................21

3.3.7 Phương pháp nhận diện và xác định vị trí của vật....................................................22

3.3.8 Lấy tọa độ thực của vật.............................................................................................23

3.3.9 Trích xuất và xử lí đám mây điểm của vật.................................................................26

3.4 Hiệu chuẩn....................................................................................................................34

3.4.1 Giới thiệu...................................................................................................................34

3.4.2 Quy trình hiệu chuẩn.................................................................................................34

3.5 Thuật toán lắp ghép......................................................................................................35

3.5.1 Quy trình tổng thể......................................................................................................35

3.5.2 Sơ đồ thuật toán lắp ghép.........................................................................................35

3.5.3 Giải thích thuật toán..................................................................................................36

CHƯƠNG 4. THIẾT KẾ GIAO DIỆN, KẾT NỐI VÀ ĐIỀU KHIỂN ROBOT.......................38

4.1 Kết nối Robot...............................................................................................................38

4.2 Điều khiển robot...........................................................................................................39

4.3 Giải thích các hàm trong giao diện điều khiển.............................................................40

CHƯƠNG 5. MÔ HÌNH HỆ THỐNG VÀ KẾT QUẢ THỰC NGHIỆM................................42

5.1 Mô hình hệ thống.........................................................................................................42

5.2 Kết quả thực nghiệm...................................................................................................43

5.2.1 YOLOv11 OBB..........................................................................................................43

5.2.2 Ma trận hiệu chuẩn...................................................................................................44

5.2.3 Kết quả thực nghiệm gắp và lắp ghép......................................................................44

5.2.4 Đánh giá kết quả thực nghiệm..................................................................................45

CHƯƠNG 6. KẾT LUẬN...................................................................................................47

6.1 Những kết quả đạt được..............................................................................................47

6.2 Hạn chế........................................................................................................................47

6.3 Hướng phát triển..........................................................................................................47

TÀI LIỆU THAM KHẢO.....................................................................................................48

PHỤ LỤC...........................................................................................................................49

TÓM TẮT NỘI DUNG ĐỒ ÁN

Đề tài trình bày một hệ thống thị giác robot được phát triển nhằm tự động gắp và lắp ráp vật thể mục tiêu được đặt ngẫu nhiên trong vùng làm việc. Hệ thống phần cứng bao gồm camera 3D RealSense gắn trên cánh tay robot Igus với 5 bậc tự do. Phần mềm điều khiển được xây dựng dựa trên công nghệ xử lý ảnh 3 chiều kết hợp học sâu. Camera 3D thu nhận hình ảnh các đối tượng dưới dạng đám mây điểm, từ đó thuật toán thị giác 3D được phát triển để xác định chính xác vị trí và hướng của vật thể. Các thông tin này được sử dụng để điều khiển robot thực hiện thao tác gắp và đặt vật thể vào vị trí xác định trước. Tính khả thi và hiệu quả của hệ thống đã được xác minh thông qua thực nghiệm. Kết quả cho thấy hệ thống có thể gắp và đặt chính xác các vật thể được sắp xếp ngẫu nhiên trong không gian làm việc của camera 3D.

                                                                                                                                         Hà Nội, ngày … tháng … năm 20…

                                                                                                                                    Sinh viên thực hiện

                                                                                                                                     1./…………………

                                                                                                                                     2./…………………

                                                                                                                                      3./…………………

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI

1.1Đặt vấn đề

Trong ngành công nghiệp hiện đại, cánh tay robot được ứng dụng rộng rãi để thay thế con người trong các công việc như đóng gói, cấp phôi, gia công và lắp ráp. Trước nhu cầu xử lý các sản phẩm có hình dạng phức tạp ngày càng tăng, robot cần có độ linh hoạt và đa năng cao để đáp ứng sản xuất nhanh, hiệu quả và dễ dàng tùy chỉnh cho nhiều loại sản phẩm. Một trong những giải pháp hiệu quả là tích hợp hệ thống thị giác máy tính vào cánh tay robot.

Tuy nhiên, việc xác định vị trí và hướng của vật thể trong không gian 3D vẫn là một thách thức lớn. Nguyên nhân chủ yếu do dữ liệu đầu vào từ camera chỉ cung cấp thông tin không đầy đủ hoặc bị che khuất. Ngoài ra, các vật thể có thể được đặt ngẫu nhiên, thậm chí tiếp xúc hoặc chồng lên nhau, làm phức tạp quá trình nhận dạng. Để giải quyết vấn đề này, các hệ thống thị giác 3D đã được tích hợp nhằm hỗ trợ nhận dạng và định vị vật thể nhanh chóng và hiệu quả, phục vụ quá trình gắp - đặt bằng robot.

Hiện nay, công nghệ thị giác 3D tích hợp AI đang tạo ra bước đột phá lớn, giúp robot tương tác tinh vi hơn với môi trường. Bằng cách kết hợp dữ liệu độ sâu với các thuật toán học máy tiên tiến, robot có thể nhận dạng và thao tác chính xác với các vật thể trong môi trường không cấu trúc, như thùng chứa. Công nghệ này làm tăng đáng kể hiệu suất và độ chính xác của các hệ thống tự động hóa trong sản xuất hiện đại.

1.2 Tính cấp thiết và ứng dụng của đề tài

* Tính cấp thiết đề tài:

- Nhu cầu sản xuất hiện đại: Trong thời đại công nghiệp 4.0, tự động hóa và số hóa là yếu tố then chốt. Hệ thống robot tự động gắp vật ứng dụng xử lý ảnh 3D và trí tuệ nhân tạo đáp ứng nhu cầu sản xuất linh hoạt, chính xác và hiệu quả, giúp tối ưu hóa quy trình và nâng cao chất lượng sản phẩm.

- Cạnh tranh toàn cầu: Trong môi trường cạnh tranh toàn cầu, công nghệ tiên tiến giúp doanh nghiệp cải thiện hiệu quả sản xuất, giảm chi phí và tăng tốc độ đưa sản phẩm ra thị trường, từ đó nâng cao tính cạnh tranh.

* Ứng dụng của hệ thống:

- Trong ngành sản xuất và lắp ráp công nghiệp: Ứng dụng công nghệ xử lý ảnh 3D và trí tuệ nhân tạo giúp gắp chi tiết bất định hình từ khay, phát hiện lỗi hàn, nứt hoặc sai kích thước linh kiện bằng ảnh 3D.

- Ngành thực phẩm-chế biến nông sản: Robot gắp trái cây theo độ chín hoặc khuyết tật, xử lí nhiều loại rau củ khác nhau trong cùng dây chuyền.

- Ngành y tế: Hệ thống giúp gắp chính xác ống nghiệm/mẫu bệnh phẩm từ khay đông lạnh, nhận diện hộp thuốc và gắp đúng loại để phân phối tự động cho bệnh nhân.

1.3 Các hệ thống robot lắp ráp vật trong công nghiệp

1.3.1 Robot Scara

Robot SCARA là loại robot công nghiệp có thiết kế 4 trục, với 2 cánh tay song song hoạt động trên một mặt phẳng và trục cuối cùng vuông góc với các trục còn lại. Robot SCARA mang lại sự kết hợp lí tưởng giữa tốc độ và độ chính xác, phù hợp với các quy trình sản xuất yêu cầu hiệu suất cao như lắp ráp linh kiện, gắp và đặt sản phẩm.

1.3.3 Cobot

Robot cộng tác là một dạng robot công nghiệp được thiết kế đặc biệt để làm việc chung một không gian với con người. Cobot sử dụng các loại cảm biến khác nhau (cảm biến lực, cảm biến momen,...) để xác định các chuyển động của con người và đảm bảo sự an toàn cho con người cũng như các vật thể khác xung quanh. Những ứng dụng phổ biến trong công nghiệp của cobot có thể kế đến là bắt vít, hàn seal, gắp thả sản phẩm,...

1.3.5 Articulated Robot

Robot tay khớp là loại robot có nhiều khớp quay, thường là 6 bậc tự do, mô phỏng cánh tay con người nên rất linh hoạt. Đây là một trong những Robot được sử dụng phổ biến nhất trong công nghiệp hiện nay với các ứng dụng như: gắp và đặt trong môi trường không cố định, hàn điểm và hàn hồ quang, bắt vít, lắp ráp trong ô tô, điện tử...

1.4 Mục tiêu đề tài

Thiết kế và triển khai một hệ thống robot lắp ráp tự động

- Sử dụng Robot tay gắp.

- Có khả năng thao tác trong không gian 3D và gắp lắp chính xác các chi tiết.

- Phối hợp với cơ cấu cấp phôi, băng tải hoặc bàn thao tác.

Tích hợp hệ thống xử lý ảnh 3 chiều để định vị vật thể

- Sử dụng camera 3D để quét hình ảnh không gian.

- Triển khai thuật toán xử lí ảnh để phát hiện vật thể và trích xuất tọa độ không gian (XYZ + hướng).

- Ánh xạ tọa độ camera về hệ tọa độ robot (calibration).

Phát triển thuật toán nhận dạng và định hướng vật thể cần lắp ráp

- Ứng dụng các phương pháp như: point cloud matching, YOLO OBB,..

- Xác định tư thế (pose) của vật ( bao gồm góc xoay) để robot gắp đúng hướng.

Phát triển chương trình điều khiển robot gắp và lắp chính xác

- Lập trình robot thực hiện các bước: nhận dạng vật > gắp > di chuyển > lắp ráp.

- Áp dụng mô hình chuyển động và điều khiển thuận/nghịch.

- Đồng bộ với hệ thống thị giác và giao diện điều khiển.

Đánh giá hiệu suất hệ thống

- Đo lường độ chính xác của thao tác gắp – lắp.

- Tính toán thời gian chu kỳ lắp ráp.

- Độ tin cậy khi xử lý nhiều loại vật thể khác nhau, sai lệch đầu vào.

CHƯƠNG 2. THIẾT KẾ PHẦN CỨNG HỆ THỐNG

2.1Tổng quan hệ thống

Hệ thống sử dụng cánh tay robot Igus Robolink DCi-5S-M với 5 bậc tự do, có tầm với 680 mm, độ chính xác 0,5 mm và khả năng tải 0,5 kg. Camera 3D Intel RealSense D435 được gắn cố định trên robot, hỗ trợ thu nhận hình ảnh với độ phân giải RGB 1920 × 1080 ở 30 FPS và độ phân giải chiều sâu 1280 × 720 ở 30 FPS, trong phạm vi đo từ 0,2 m đến 10 m.

Vị trí và hướng của vật thể được xác định thông qua thuật toán nhận dạng và định vị 3D dựa trên công nghệ trí tuệ nhân tạo. Sau đó, bộ kẹp gắn trên tay robot sẽ được điều khiển để gắp và đặt vật thể vào vị trí xác định trước.

2.2 Camera Intel RealSense D435

Intel RealSense D435 là một dòng camera cảm biến độ sâu cao cấp thuộc dòng sản phẩm RealSense của Intel, được thiết kế chuyên biệt cho các ứng dụng yêu cầu đo độ sâu 3D chính xác cũng như khả năng nhận diện và theo dõi chuyển động trong không gian ba chiều. 

* Cảm biến chiều sâu stereo: Camera D435 sử dụng công nghệ Stereo Depth - một phương pháp đo chiều sâu bằng cách sử dụng hai camera hồng ngoại kết hợp với thuật toán tính toán ảnh chênh lệch. Điều này cho phép đo chiều sâu một cách chính xác theo thời gian thực mà không cần đến các thiết bị chiếu sáng chủ động (projector), giúp giảm chi phí và tăng tính linh hoạt. Ngay cả với các vật thể chuyển động nhanh, camera vẫn có khả năng thu được dữ liệu chiều sâu tương đối ổn định và chính xác.

* Hoạt động tốt trong nhiều điều kiện ánh sáng: Camera được trang bị cảm biến global shutter – một loại cảm biến tiên tiến giúp giảm hiện tượng nhòe ảnh do chuyển động nhanh (motion blur). Cảm biến này cực kỳ hữu ích khi ghi lại các vật thể đang di chuyển hoặc khi lắp đặt camera trên các hệ thống robot có chuyển động liên tục. Ngoài ra với khả năng hoạt động cả trong điều kiện ánh sáng yếu và môi trường không có ánh sáng khả kiến (chỉ có ánh sáng hồng ngoại), D435 phù hợp cho các ứng dụng trong nhà máy, kho bãi hoặc môi trường ánh sáng không ổn định.

2.3 Robot Igus RL-DCi-5S-M

Robot Igus RL-DCi-5S-M là một cánh tay robot gọn nhẹ, linh hoạt, được thiết kế phù hợp cho các ứng dụng tự động hóa nhẹ trong công nghiệp, giáo dục, nghiên cứu và phát triển công nghệ. Với thiết kế mô-đun và tích hợp sẵn các thành phần điều khiển, robot này mang lại khả năng triển khai nhanh chóng và dễ dàng trong nhiều môi trường làm việc khác nhau.

* Cấu trúc cơ khí tối ưu: Cánh tay robot được chế tạo từ nhựa kỹ thuật cao cấp kết hợp với nhôm. Đây là sự kết hợp lý tưởng giúp giảm đáng kể trọng lượng tổng thể của robot mà vẫn đảm bảo độ bền cơ học cần thiết trong quá trình vận hành. Điều này không chỉ giúp giảm tải trọng cho hệ thống nền tảng mà còn giúp cải thiện tốc độ phản ứng và giảm tiêu thụ năng lượng.

* Thiết bị điều khiển tích hợp, gọn gàng và dễ mở rộng: Robot được trang bị bộ điều khiển tích hợp sẵn (controller) nằm gọn bên trong thân, giúp tiết kiệm không gian lắp đặt và tối ưu hóa về mặt thẩm mỹ cũng như độ an toàn. Điều này đặc biệt hữu ích trong các ứng dụng có yêu cầu về không gian chật hẹp hoặc hệ thống cần sự di động.

* Quy trình vận hành thông minh - tương tác với môi trường: Robot Igus RL-DCi-5S-M có thể nhận lệnh từ các phần mềm điều khiển như PLC, giao diện điều khiển trực quan hoặc máy tính thông qua các giao thức chuẩn. Dữ liệu từ các cảm biến (ví dụ như camera, cảm biến lực, cảm biến va chạm...) được xử lý thông qua các thuật toán định vị và trí tuệ nhân tạo (AI) để robot đưa ra phản hồi chính xác và thực hiện các thao tác mong muốn.

2.4 Khung gá

Với cánh tay robot em đã giới thiệu, em xin được trình bày phương án lắp đặt ví trị Camera 3D trên cánh tay robot và khung gá để gá vật thể trong quá trình lắp ghép.

CHƯƠNG 3. PHƯƠNG PHÁP ĐIỀU KHIỂN ROBOT

3.1 Sơ đồ thuật toán điều khiển robot gắp và gá đặt phôi

Thuật toán điều khiển robot gắp và gá đặt phôi như hình 3.1.

3.1.1Giải thích thuật toán điều khiển

Quy trình gồm 3 giai đoạn chính:

* Giai đoạn 1: Nhận diện sơ bộ (YOLO + tọa độ 3D).

Bắt đầu:

- Khởi động hệ thống robot.

Khởi tạo hệ thống:

- Khởi tạo camera (RealSense).

- Kết nối với robot (qua giao tiếp mạng).

- Tải cấu hình cần thiết (thông số camera, mô hình AI, thông số robot).

* Giai đoạn 3: Xác định chính xác vị trí và góc quay để gắp.

Lấy tọa độ và góc quay Euler:

- Tính toán tâm vật thể 3D và hướng quay của vật (Euler angles) từ đám mây điểm (thường dùng PCA hoặc OBB – Oriented Bounding Box).

Xác nhận lại:

- Kiểm tra lại điều kiện gắp:

1. Vật nằm trong vùng an toàn?

2. Góc quay có nằm trong khả năng của tay gắp?

3. Tọa độ có bị lệch bất thường không?

- Nếu không đạt, quay lại bước đầu.

- Nếu đạt, tiếp tục.

Gắp phôi:

- Điều khiển robot thực hiện thao tác gắp vật.

3.2 Kết nối Robot

Để kết nối và điểu khiển robot đồng bộ với camera ta sử dụng phương thức kết nối từ máy tính đến robot thông qua phương thức giao tiếp TCP/IP sử dụng cáp Ethernet.

3.3 Phương pháp nhận diện vật

3.3.1 Khái niệm YOLO

YOLO (You Only Look Once) là một mô hình mạng CNN cho việc phát hiện, nhận dạng, phân loại đối tượng. YOLO được tạo ra từ việc kết hợp giữa các convolutional layers và connected layers. Trong đó các convolutional layers sẽ trích xuất ra các feature của ảnh, còn full-connected layers sẽ dự đoán ra xác suất đó và tọa độ của đối tượng.

3.3.3 Nguyên lý hoạt động của YOLOv11

* Bước 1: Phân chia hình ảnh

Đầu vào của mô hình là một ảnh, mô hình sẽ nhận dạng ảnh đó có đối tượng nào hay không, sau đó sẽ xác định tọa độ của đối tượng trong bức ảnh. Ảnh đầu vào được chia thành thành 𝑆×𝑆 ô, cách chia chính thường kích thước sẽ là 13×13 hoặc 26×26 ... Mỗi ô có trách nhiệm dự đoán các đối tượng trong khu vực được chỉ định của nó.

* Bước 3: Dự đoán hộp giới hạn (Bounding Box):

Mỗi ô trong lưới dự đoán nhiều hộp giới hạn, mỗi hộp đại diện cho vị trí tiềm năng của một đối tượng.

Các hộp giới hạn này được biểu diễn bằng tọa độ trung tâm (x, y), chiều rộng (w) và chiều cao (h).

* Bước 4: Dự đoán lớp

Mỗi hộp giới hạn cũng được gán một xác suất cho mỗi lớp đối tượng có thể có (ví dụ: người, xe hơi, xe đạp, ...)

Xác suất cao nhất cho biết lớp đối tượng được dự đoán cho hộp giới hạn đó. Prediction được định nghĩa Pr(Object)∗IOU(pred, truth). Trong đó Pr(Object) là xác suất có vật, IOU (Intersection Over Union) là hàm đánh giá độ chính xác của object detector trên tập dữ liệu cụ thể.

* Bước 6: Kết quả đầu ra

Đầu ra cuối cùng là một danh sách các đối tượng được phát hiện, mỗi đối tượng có một hộp giới hạn, mỗi hộp được gán một lớp và một mức độ tin cậy (xác suất).

3.3.5 Bộ dữ liệu đào tạo

* Bước 1: Thu thập dữ liệu từ hai đối tượng

Dữ liệu gồm có nhiều ảnh của vật thể được đặt ở nhiều vị trí và hướng khác nhau. Những ảnh này được chụp từ camera RealSense với độ phân giải 1920x1080 pixel.

* Bước 2: Gán nhãn dữ liệu

Sau khi thu thập được hình ảnh chứa đối tượng cần được phân đoạn, trước tiên ta sẽ đánh nhãn theo đường biên ngoài cùng của hai đối tượng.

Việc gắn nhãn này nhằm hai mục đích chính:

- Tăng độ chính xác trong quá trình nhận diện và phân biệt hai đầu ống khi huấn luyện mô hình YOLO, từ đó giúp xác định đúng hướng gắp.

- Hỗ trợ quá trình lắp ráp và định hướng trong không gian 3D, giúp robot xác định chính xác điểm gắp phù hợp với yêu cầu gắp–đặt.

Bộ dữ liệu dùng để train model hai đối tượng gồm có:

- Tổng số lượng: 641 ảnh.

- Train Set: 88% - 500 ảnh.

- Valid Set: 8% - 94 ảnh.

- Test Set: 4% - 47 ảnh.

3.3.8 Lấy tọa độ thực của vật

Để lấy tọa độ thực của hai đối tượng "phôi" (Model 2) và "ống nối 90 độ" (Model 1) ta sẽ sử dụng một công thức chính để chuyển đổi từ tọa độ pixel 2D và giá trị độ sâu thành tọa độ 3D trong không gian thực. Công thức này được thực hiện bởi hàm rs.rs2_deproject_pixel_to_point từ thư viện RealSense, dựa trên thông số nội tại của camera (depth intrinsics). Dưới đây là định nghĩa công thức và các bước thực hiện cụ thể để lấy tọa độ thực cho cả hai đối tượng.

Công thức chuyển đổi tọa độ pixel 2D sang tọa độ 3D:

Công thức được sử dụng để chuyển đổi tọa độ pixel 2D (x, y) và giá trị độ sâu (depth) thành tọa độ 3D (X, Y, Z) trong không gian thực là:

X= ((x-px ).Z)/fx

Y=((y-py ).Z)/fy

Z=depth

Trong đó:

- (x, y): là tọa độ pixel 2D trên khung hình độ sâu.

- Z: là giá trị độ sâu (depth) tại pixel (x, y) có đơn vị mét.

- (p_x, p_y): là tọa độ tâm chính (principal point) của camera, lấy từ thông số nội tại (depth intrinsics), biểu thị tâm quang học của hình ảnh.

- (f_x, f_y): là tiêu cự (focal length) của camera theo trục x và y, cũng lấy từ thông số nội tại, biểu thị độ dài tiêu cự trong đơn vị pixel.

- (X, Y, Z): là tọa độ 3D trong không gian thực (đơn vị mét), với Z là độ sâu trực tiếp từ dữ liệu.

* Bước 1: Xác định tọa độ 2D của điểm trắng

- Tìm hộp OBB lớp 0 (hộp chính của phôi) có chỉ số 1, dựa trên khoảng cách gần nhất đến tâm hình ảnh.

- Trong hộp này, xác định hai tâm lớp 2 (điểm đặc trưng).

- Dựa trên sản phẩm chéo (cross product) giữa vector từ điểm giữa của hai tâm lớp 2 đến tâm hộp lớp 0 và vector từ điểm giữa đến từng tâm lớp 2, xác định tâm màu xanh lam (cross ≤ 0).

- Chia hộp lớp 0 thành hai nửa bằng một đường thẳng đi qua tâm hộp, vuông góc với trục dài hoặc ngắn (tùy theo hướng xoay).

* Bước 3: Chuyển đổi sang tọa độ 3D

Nếu Z_w > 0 (độ sâu hợp lệ), áp dụng công thức trên với:

(x, y) = (x_w, y_w).

Z = Z_w (độ sâu tại điểm trắng, đơn vị mét).

(p_x, p_y, f_x, f_y) lấy từ thông số nội tại của camera (depth intrinsics).

Tính tọa độ 3D (X_w, Y_w, Z_w) theo công thức:

Xw=  ((xw-px ))/fx

Yw=((yw-py ).Zw)/fy

Zw=Zw

Nhân (X_w, Y_w, Z_w) với 1000 để chuyển sang milimet, cho ra tọa độ thực của điểm trắng (white_point_mm).

* Bước 4: Trường hợp không hợp lệ

Nếu điểm trắng nằm ngoài khung hình hoặc Z_w ≤ 0, chương trình chuyển sang sử dụng tâm của hộp OBB 3D:

- Tạo mask 2D cho vùng hộp OBB lớp 2 màu xanh lam.

- Trích xuất các điểm 3D từ mask bằng cách áp dụng công thức trên cho từng pixel trong mask có độ sâu hợp lệ (0 < depth < 0.8 m).

- Phân cụm các điểm 3D bằng DBSCAN (khoảng cách tối đa 5 mm, tối thiểu 100 điểm), chọn cụm lớn nhất.

2. Tọa độ thực của “ống nối 90 độ” (Model 1)

Lấy tọa độ thực 3D của tâm hộp OBB có chỉ số 1, hoặc tâm của hộp OBB 3D nếu tâm 2D không hợp lệ.

* Bước 1: Xác định tọa độ 2D của tâm hộp

- Tìm hộp OBB của Model 1 có chỉ số 1, dựa trên khoảng cách gần nhất đến tâm hình ảnh.

- Lấy tọa độ tâm 2D (x_c, y_c) của hộp này từ dữ liệu OBB.

* Bước 2: Lấy giá trị độ sâu

- Kiểm tra xem (x_c, y_c) có nằm trong khung hình (0 ≤ x_c < width, 0 ≤ y_c < height) không.

- Lấy giá trị độ sâu (Z_c) tại (x_c, y_c) từ khung hình độ sâu.

* Bước 3: Chuyển đổi sang tọa độ 3D

Nếu Z_c > 0 (độ sâu hợp lệ), áp dụng công thức trên với:

(x, y) = (x_c, y_c).

Z = Z_c (độ sâu tại tâm hộp, đơn vị mét).

(p_x, p_y, f_x, f_y) lấy từ thông số nội tại của camera.

* Bước 4: Trường hợp không hợp lệ

Nếu (x_c, y_c) nằm ngoài khung hình hoặc Z_c ≤ 0, chương trình sử dụng tâm của hộp OBB 3D:

- Tạo mask 2D cho vùng hộp OBB.

- Trích xuất các điểm 3D từ mask bằng công thức trên cho các pixel có độ sâu hợp lệ (0 < depth < 0.8 m).

- Phân cụm bằng DBSCAN, chọn cụm lớn nhất, giảm mẫu (voxel size 1 mm), và tính hộp OBB 3D.

- Lấy tâm của hộp OBB 3D (X_obb, Y_obb, Z_obb), nhân với 1000 để chuyển sang milimet.

3.4 Hiệu chuẩn

3.4.1 Giới thiệu

Trong mô hình “eye-in-hand”, camera được gắn trực tiếp vào tay gắp (end-effector) của robot. Điều này giúp robot quan sát môi trường xung quanh một cách linh hoạt, hỗ trợ thực hiện các tác vụ dựa trên hình ảnh, như dò vật, định vị, lắp ráp, v.v.

Tuy nhiên, để robot có thể sử dụng thông tin hình ảnh từ camera để điều khiển chính xác chuyển động, ta cần xác định chính xác mối quan hệ hình học giữa hệ tọa độ của camera và hệ tọa độ của khâu cuối robot (end-effector). Quá trình xác định mối quan hệ này được gọi là hiệu chuẩn ngoại tại (extrinsic calibration) giữa robot và camera.

3.4.2 Quy trình hiệu chuẩn

* Bước 1: Chuẩn bị bảng hiệu chuẩn và thiết lập thí nghiệm

Đặt cố định một bảng checkerboard (bàn cờ hiệu chuẩn) trong không gian làm việc của robot, đảm bảo bảng nằm trong trường nhìn của camera.

Điều khiển robot di chuyển camera (gắn trên tay gắp) đến nhiều vị trí khác nhau để thu thập hình ảnh toàn bộ bề mặt bảng checkerboard.

Đảm bảo các vị trí camera đa dạng, bao quát không gian để thu thập đủ dữ liệu cho việc tính toán hiệu chuẩn.

* Bước 3: Tính toán tọa độ của bảng checkerboard trong hệ tọa độ camera

Sử dụng thư viện OpenCV (hoặc công cụ thị giác máy tính tương tự) để phát hiện các góc của bảng checkerboard trong mỗi hình ảnh.

Áp dụng hàm cv2.solvePnP() để tính toán ma trận biến đổi từ bảng checkerboard đến hệ tọa độ camera.

Kết quả: Một tập hợp các ma trận biến đổi từ bảng checkerboard sang camera tương ứng với từng hình ảnh.

* Bước 4: Tính toán ma trận biến đổi từ khâu cuối robot đến base

Dựa trên thông tin pose robot ghi nhận được ở bước 2, tính toán tập các ma trận biến đổi từ khâu cuối của robot (end-effector) tới base.

* Bước 5: Hiệu chuẩn ngoại tại camera

Dựa trên tập dữ liệu thu thập được gồm:

- Ma trận từ checkerboard → camera.

- Ma trận từ end-effector → base.

3.5 Thuật toán lắp ghép

3.5.1 Quy trình tổng thể

Quy trình lắp ghép được chia thành các bước chính sau:

1. Phát hiện và phân loại vật thể

2. Tính toán vị trí - hướng

3. Gắp từng vật thể

4. Căn chỉnh trục lắp ghép

5. Thực hiện lắp ghép

6. Kiểm tra kết quả

3.5.2 Giải thích thuật toán

* Bước 1: Phát hiện vật thể

Sử dụng mô hình YOLOv11-OBB để phát hiện:

- Phôi (Model 2)

- Ống nối 90 độ (Model 1)

Từ ảnh RGB + ảnh sâu (depth), trích xuất vùng mask và tính toán đám mây điểm 3D tương ứng.

* Bước 2: Tính toán vị trí và hướng

Dùng Open3D để giảm điểm, phân cụm và tính toán OBB (Oriented Bounding Box) cho từng vật thể.

Xác định:

- Trục chính của ống thẳng

- Hướng đầu vào của ống nối

* Bước 4: Căn chỉnh và lắp ghép

Điều khiển robot xoay cổ tay để đưa phôi thẳng hàng với ống nối 90 độ.

Di chuyển dọc trục phôi và đẩy từ từ vào đầu nối.

* Bước 5: Kiểm tra và kết thúc

Sau khi lắp xong, robot hoặc hệ thống quan sát sẽ kiểm tra lại vị trí hai vật thể.

Đảm bảo rằng ống nối đã được lắp đúng chiều, đúng hướng, không lỏng và không bị lệch.

CHƯƠNG 4. THIẾT KẾ GIAO DIỆN, KẾT NỐI VÀ ĐIỀU KHIỂN ROBOT

4.1 Kết nối Robot

Để kết nối robot và máy tính với nhau ta cần kết nối cổng Ethernet phù hợp của Robot với một máy tính Windows bằng cách sử dụng cáp LAN tiêu chuẩn.

Đối với máy tính ta cần tìm đến Network connection trong Control Panel sau đó và phần Properties và chọn vào phần TCP/Ipv4 để thiết lập địa chỉ tĩnh cho cổng Ethernet của máy tính. Lưu ý là địa chỉ IP của robot và máy tính phải trùng 3 số đầu và khác nhau số cuối cùng. Đặt IP của máy tính là 192.168.3.1 (Robot có IP là 192.168.3.11).

Khởi động robot và CPRog trên PC. Khi đèn LED xanh trên các mô-đun động cơ ở phía sau của robot bắt đầu nhấp nháy, kết nối có thể được thiết lập. Nhấn "Kết nối" (biểu tượng kết nối trong menu của CPRog). Bây giờ sẽ thấy giao diện robot trên giao diện của CPRog. 

4.2 Điều khiển robot

Hệ thống sử dụng giao thức CRI (Common Robot Interface) để gửi lệnh điều khiển robot. Đây là một chuẩn giao tiếp hỗ trợ tích hợp các robot công nghiệp khác nhau với hệ thống điều khiển. CRI là một giao thức giao tiếp do nhà sản xuất robot cung cấp, cho phép phần mềm bên ngoài giao tiếp với bộ điều khiển của robot (controller). Giao thức này thường dùng để:

- Gửi lệnh điều khiển robot (di chuyển, dừng, v.v.)

- Nhận trạng thái robot (vị trí, tốc độ, lỗi)

- Truyền dữ liệu cảm biến

4.3. Giải thích các hàm trong giao diện điều khiển

Khối giao diện Camera như bảng 4.1.

Khối Robot như bàng 4.2.

CHƯƠNG 5. MÔ HÌNH HỆ THỐNG VÀ KẾT QUẢ THỰC NGHIỆM

5.1 Mô hình hệ thống

Trong hệ thống này, camera 3D RealSense được đặt cố định trên khung gá với cánh tay robot, ánh sáng được lấy từ ánh sáng phòng, vật thể đặt ngẫu nhiên trong vùng làm việc của camera, Robot được đặt cố định với khoảng cách phù hợp đảm bảo vùng làm việc của Robot để có thể gắp và lắp ráp vật.

5.2 Kết quả thực nghiệm

5.2.1 YOLOv11 OBB

Đào tạo mô hình YOLOv11 OBB với đầu vào là 474 ảnh. Số lượng ảnh tăng do đã được áp dụng các phương pháp tăng cường dữ liệu cơ bản như lật, xoay, thay đổi độ sáng độ tương phản. Mô hình phân đoạn sử dụng phiên bản YOLOv11 OBB, với kích thước đầu vào của mạng là 640x640 và epochs là 500. Biểu đồ quá trình đào tạo được thu như hình.

Trên biểu đồ có thấy giá trị train box_loss, cls_loss, dfl_loss giảm dần qua các epoch, cho thấy mô hình học tốt hơn trên tập huấn luyện. Dòng “smooth” (mượt) cho thấy xu hướng tổng quát.

5.2.3 Kết quả thực nghiệm gắp và lắp ghép

Quy trình thực nghiệm bao gồm các bước: chuẩn bị hệ thống, thu thập dữ liệu, nhận dạng và hiệu chuẩn. Hệ thống được kết nối và cài đặt các phần mềm và thư viện liên quan để lập trình và xử lý dữ liệu. Camera 3D tiến hành quét bề mặt vùng làm việc, thu thập ảnh RGB và dữ liệu độ sâu. Sau đó, thuật toán YOLOv11 được sử dụng để nhận dạng vật thể, trong khi thư viện Open3D xử lý đám mây điểm và xác định vị trí của phôi trong không gian.

Tổng số lần thực nghiệm là 100 lần cho mỗi trường hợp.

Bảng 5.1 và 5.2 thể hiện kết quả độ chính xác, thời gian của gắp và ghép vật thể.

5.2.4 Đánh giá kết quả thực nghiệm

Từ kết quả thực nghiệm với các tốc độ khác nhau có thể thấy với tốc độ thấp 30% tỷ lệ hoàn thành gắp và ghép đạt nhưng tốc độ không cao, với tốc độ 90% thời gian được rút ngắn đáng kể nhưng tỷ lệ hoàn thành rất thấp. Việc tăng tốc độ chủ yếu ảnh hưởng đến quá trình ghép vật, khi đưa phôi vào ống phần đầu phôi đã bị lệch. Vậy để đạt được tốc độ và hiệu suất tốt nhất nên sử dụng với độ từ 45-60% tốc độ tối đa hoặc cố định tốc độ lắp ghép ở tốc độ cố định.

Tuy nhiên, vẫn tồn tại một số hạn chế cần được khắc phục trong tương lai, bao gồm:

+ Tăng cường tính ổn định của việc hiệu chuẩn giữa hệ tọa độ camera và robot trong các điều kiện ánh sáng thay đổi.

+ Rút ngắn thời gian xử lý bằng cách tối ưu thuật toán và tận dụng GPU hiệu quả hơn.

+ Khả năng phát hiện các vật thể có hình dạng phức tạp hoặc bị che khuất một phần.

Những cải tiến này sẽ giúp hệ thống hoàn thiện hơn và dễ dàng ứng dụng trong các môi trường công nghiệp thực tế với yêu cầu cao về hiệu suất và độ tin cậy. 

CHƯƠNG 6. KẾT LUẬN

6.1 Những kết quả đạt được

Đề tài này đã nghiên cứu và phát triển một hệ thống Robot tự động lắp ráp vật, sử dụng cánh tay robot 5 bậc tự do tích hợp camera 3D và các thuật toán học sâu. Hệ thống áp dụng mô hình YOLOv11 để nhận dạng phôi từ ảnh RGB, đồng thời sử dụng thư viện Open3D để xử lí đám mây điểm và định vị chính xác vật thể trong không gian 3D. Ngoài ra, kỹ thuật hiệu chuẩn “eye-in-hand” giúp đồng bộ hệ tọa độ giữa camera và robot, cho phép điều khiển chính xác các thao tác gắp - đặt. Kết quả thực nghiệm cho thấy hệ thống hoạt động ổn định và đạt độ chính xác cao, đặc biệt sau khi thực hiện bước tiếp cận gần vật thể để tinh chỉnh vị trí và hướng gắp. Hệ thống được phát triển không chỉ góp phần nâng cao hiệu quả tự động hóa trong công nghiệp mà còn có tiềm năng mở rộng sang các ứng dụng sản xuất thông minh khác trong tương lai.

6.2 Hạn chế

Hạn chế của đề tài là chưa thử nghiệm với những vật thể có hình dạng phức tạp hoặc bị che khuất một phần. Với những chi tiết đặc biệt thì một lần quét 3D chưa thể thu được toàn bộ biện dạng của vật. Do đó cần phát triển phương pháp để áp dụng được với những loại chi tiết này.

6.3 Hướng phát triển

Hệ thống có thể tích hợp thêm các Robot khác để trở thành một hệ thống Robot cộng tác để có thể tăng tốc độ, độ chính xác cũng như có thể lắp ráp các chi tiết với kích thước lớn và biên dạng phức tạp hơn.

TÀI LIỆU THAM KHẢO

[1]. B. van Eden and B. Rosman, "An overview of robot vision," 2019 Southern African Universities Power Engineering Conference/Robotics and Mechatronics/Pattern Recognition Association of South Africa (SAUPEC/RobMech/PRASA), Bloemfontein, South Africa, 2019, pp. 98-104

[2]. Nguyen, T.-H., Chen, L.-C., & Dang, T.-V. (2016), “Automated Robotic Bin Picking System of Randomly Stacked Objects,” National Conference on Mechanical & Transportation Engineering, Hanoi, Vietnam.

[3]. Lee, S., Islam, N. U., & Lee, S. (2020), “Robust image completion and masking with application to robotic bin picking,” Robotics and Autonomous Systems, 131(103563), 103563. https://doi.org/10.1016/j.robot.2020.103563

[4]. Li, X., Cao, R., Feng, Y., Chen, K., Yang, B., Fu, C.-W., Li, Y., Dou, Q., Liu, Y.-H., & Heng, P.-A. (2022), “A Sim-to-real object recognition and localization framework for industrial robotic bin picking,” IEEE Robotics and Automation Letters, 7(2), 3961–3968. https://doi.org/10.1109/lra.2022.3149026

[5]. Tsai, C.-H., Hernandez, E. E., You, X.-W., Lin, H.-Y., & Chang, J.-Y. (2023), “RoboTwin metaverse platform for robotic random bin picking,” Applied Sciences (Basel, Switzerland), 13(15), 8779. https://doi.org/10.3390/app13158779

[6]. Zhou, Q.-Y., Park, J., & Koltun, V. (2018), “Open3D: A modern library for 3D data processing,” arXiv:1801.09847.

[7]. Bradski, G. (2000), “The OpenCV Library,” Dr. Dobb's Journal of Software Tools.

"TẢI VỀ ĐỂ XEM ĐẦY ĐỦ ĐỒ ÁN"