Trí tuệ nhân tạo khám phá ra dữ liệu hợp đồng như thế nào?

Tháng Sáu 5, 2021
Nga Pham

Điều gì xảy ra với các hợp đồng kinh doanh của một tổ sức sau khi được ký kết? Thông thường, câu trả lời là không có gì cả. Chúng sẽ được lưu trong Gmail, Drive hoặc trong kho lưu trữ hợp đồng chuyên dụng cho đến khi (rất hiếm khi) ai đó cần kiểm tra lại các điều khoản thỏa thuận. Lúc đó, sẽ mất một khoảng thời gian để tìm ra hợp đồng, đọc lại nó và tìm ra chính xác những gì đã được ký kết.

Hợp đồng chứa đựng nhiều dữ liệu quan trọng về doanh nghiệp của bạn: bạn hợp tác với ai, bạn đã hứa những gì, bạn nợ bao nhiêu, bao giờ thì hết hạn hợp đồng, nơi các điều khoản được áp dụng, v.v. Và đó vẫn chỉ là phần nổi của tảng băng chìm. Các tài liệu này được xác nhận hợp pháp bởi tất cả các bên liên quan, do đó dữ liệu trong chúng, về bản chất, là rất chính xác.

Vậy thì tại sao, trong thời đại dữ liệu chảy tự do từ mọi nguồn mà ta có thể tưởng tượng, việc nắm bắt những gì nằm trong hợp đồng của bạn vẫn là một vấn đề khó khăn? Tại Ironclad, đó là một trong vấn đề lớn họ cần giải quyết, và đạt được những cải thiện lớn nhờ Google Cloud AI. Dưới đây là chia sẻ của Cai GoGwilt – Co-founder và CTO của Ironclad về chủ đề này.

Tại sao việc trích xuất thông tin trong hợp đồng lại khó?

Các hợp đồng kinh doanh đã chống lại làn sóng chuyển đổ kỹ thuật số. Giờ đây, chúng ta soạn thảo trong Microsoft Word, chia sẻ qua email và sử dụng chữ ký điện tử thay vì chữ ký trên giấy, nhưng cấu trúc, ngôn ngữ và định dạng của hợp đồng vẫn giống như những năm 1920 và những thông tin có giá trị được thể hiện trong hợp đồng vẫn là tương tự như thời đại analog.

Chúng tôi tin rằng thế giới chắc chắn sẽ áp dụng một hình thức hợp đồng kỹ thuật số, nhưng sẽ cần một khoảng thời gian, và trong khoảng thời gian đó, chúng ta vẫn cần mở khóa dữ liệu được lưu trong tài liệu Word và PDF.

Đây không phải là một công việc dễ dàng, bởi vì:

  • Vấn đề 1: Hợp dồng không có cấu trúc, không được chuẩn hóa và sử dụng ngôn ngữ sắc thái pháp lý.
  • Vấn đề 2: Hợp đồng tồn tại để đề phòng những trường hợp hiếm gặp và có khả năng xảy ra bất đồng, vì vậy khả năng xảy ra lỗi loại I (false negatives) và lỗi loại II (false positives) là gần như bằng không.

Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) là một công cụ tuyệt vời để giải quyết vấn đề 1. Vào năm 2017, chúng tôi đã bắt đầu thử nghiệm nó. Tuy nhiên thật không may, các tính năng được phát triển quá chậm. Một thử nghiệm đơn có thể kéo dài hàng tuần, và để xây dựng một hệ thống các thử nghiệm đầy hứa hẹn sẽ mất đến vài tháng. Dù mất nhiều thời gian như vậy nhưng độ chính xác chỉ được khoảng một nửa, chưa tính đến việc tìm ra cách giải quyết cho vấn đề 2.

Vậy nên, chúng tôi tạm để NLP lại đó, và chờ công nghệ bắt kịp.

Công nghệ đã bắt kịp, và vừa đúng lúc

Gần như ngay sau khi đại dịch bắt đầu, khách hàng của chúng tôi đã hỏi thêm nhiều thông tin về hợp đồng của họ. Họ cần biết mọi thứ, từ các điều khoản opt-out và điều kiện bất khả kháng đến các điều khoản tín dụng và khoản thu, họ muốn biết trong thời gian nhanh hơn (và chi phí rẻ hơn) so với khả năng trích xuất của một nhóm người.

Đột nhiên, chúng tôi cần đến cách tiếp cận mới sử dụng AI. Như một định mệnh, chúng tôi phát hiện ra Google Cloud AutoML Natural Language.

Chúng tôi đã bắt đầu với mô hình  AutoML’s Entity Extraction. Đầu tiên, chúng tôi tải lên một bộ hợp đồng nhỏ, được sắp xếp và gán nhãn ba thuộc tính: tên thực thể, ngày ký và tên người ký. Sau một vài giờ huấn luyện, ngày ký có độ chính xác và tỷ lệ recall hơn 90%. Đây là kết quả tốt nhất chúng tôi có được sau ba năm thử nghiệm, và điều tuyệt vời hơn nữa là Google chỉ cần một tập dữ liệu tương đối nhỏ để đạt được điều đó.

Nhưng chúng tôi vẫn chưa hoàn toàn bị thuyết phục. Tập dữ liệu còn nhỏ và mô hình không thành công đối với tên hợp đồng và tên người ký. Vì vậy, bước tiếp theo, chúng tôi thay đổi nhãn và mở rộng tập dữ liệu. Một vài giờ huấn luyện nữa trôi qua và tỷ lệ chính xác của kết quả cho tên hợp đồng và tên người ký đã tăng lên, đạt 70% và 90%.

Một thử nghiệm ban đầu với kết quả đầy hứa hẹn
Một thử nghiệm ban đầu với kết quả đầy hứa hẹn

Đó là tất cả những gì chúng tôi cần thấy. Chúng tôi đã tìm ra câu trả lời cho vấn đề NLP của mình và chỉ cần hai bài kiểm tra để đạt được điều đó. Ngoài ra còn có một phần thưởng: mô hình này ngay lập tức được cập nhật trên Google Cloud AI Platform for predictions, do đó chúng tôi có thể bắt đầu thử nghiệm trải nghiệm người dùng ngay khi đó.

Trong vòng một tuần, chúng tôi đã có prototype đầu tiên cho tính năng này.

Trước & sau khi áp dụng AutoML + AI Platform Prediction
Trước & sau khi áp dụng AutoML + AI Platform Prediction

Ironclad Smart Import: Mở khóa dữ liệu hợp đồng với Google Cloud AI

Bây giờ, sau một vài tháng, chúng tôi đang ở giai đoạn alpha với một số ít khách hàng. Tính năng này tên là Smart Import, một cách trích xuất dữ liệu nhanh chóng và chính xác từ các hợp đồng được tạo ra bên ngoài Ironclad (các hợp đồng được tạo bên trong Ironclad đã là hợp đồng kỹ thuật số và không yêu cầu trích xuất dữ liệu). Tính năng này hoạt động với số lượng các thuộc tính chính của dữ liệu ngày càng lớn và tỷ lệ chính xác vượt 90%.

Tuy nhiên, trên 90% vẫn chưa đủ tốt trong thế giới hợp đồng (xem vấn đề 2). Đó là lý do tại sao tính năng này cũng cho phép người dùng tự cung cấp độ chính xác cho dữ liệu cuối cùng, được hỗ trợ bởi quy trình xác thực dữ liệu trực quan do con người thực hiện. Các nhóm thiết kế và sản phẩm của Ironclad có nhiều sự linh hoạt để triển khai quy trình xác thực này nhờ AI Platform và quy trình NLP đơn giản, hàng loạt. Nỗ lực của họ đã được đền đáp: một số khách hàng đã sử dụng Smart Import để phân tích hàng nghìn hợp đồng.

Vấn đề 2 đã được giải quyết
Vấn đề 2 đã được giải quyết

Với tốc độ này, chúng tôi – Ironclad dự kiến sẽ phát hành tính năng này vào Quý 1 năm 2021 để phục vụ hàng trăm khách hàng. Nhưng đây mới chỉ là bước khởi đầu, chúng tôi vẫn đang khám phá những cách thức mới để áp dụng Google Cloud AI nhằm giúp khách hàng ký hợp đồng nhanh chóng và thông minh hơn.

Nguồn: Google Cloud Blog