HTML JPG PDF XML DOCX
  Product Family
PDF

Trích xuất văn bản từ PDF trong Node.js SDK

Trích xuất văn bản từ tài liệu PDF bằng Cloud Node.js SDK.

Get Started

Cách trích xuất văn bản từ PDF qua Node.js SDK

Để trích xuất văn bản từ PDF, chúng tôi sẽ sử dụng Aspose.PDF Cloud Node.js SDK. Cloud SDK này hỗ trợ các lập trình viên Node.js phát triển các ứng dụng tạo, chú thích, chỉnh sửa và chuyển đổi PDF trên nền tảng đám mây bằng ngôn ngữ lập trình Node.js qua Aspose.PDF REST API. Đơn giản chỉ cần tạo một tài khoản tại Aspose for Cloud và lấy thông tin ứng dụng của bạn. Khi bạn đã có App SID và key, bạn đã sẵn sàng sử dụng Aspose.PDF Cloud Node.js SDK.

Lệnh Console Trình quản lý Gói


     
    npm install asposepdfcloud --save
     
     

Các bước để trích xuất văn bản bằng Node.js

Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng tải & trích xuất văn bản từ PDF chỉ trong vài dòng mã.

  1. Tải bí mật ứng dụng và khóa từ tệp JSON hoặc đặt thông tin xác thực theo cách khác
  2. Tạo một đối tượng để kết nối với Cloud API
  3. Tải lên tệp tài liệu của bạn
  4. Thực hiện trích xuất văn bản bằng hàm pdfApi.getText
  5. Tải xuống kết quả nếu cần
 

Trích xuất văn bản từ PDF bằng Node.js


    async function () {
        const pdfApi = new PdfApi(credentials.id, credentials.key);
        try {
            const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
            await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
            const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
            const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
            await fs.writeFile("extracted.txt", lines);
        }
        catch (error) {
            console.error(error.message);
        }
    }
 

Làm việc với văn bản trong PDF

Trích xuất văn bản cho phép dữ liệu trong PDF được phân tích, tổ chức hoặc xử lý trong các ứng dụng bên ngoài. Văn bản đã trích xuất có thể được lập chỉ mục, giúp tìm kiếm dễ dàng trong các hệ thống quản lý nội dung hoặc cơ sở dữ liệu. Điều này cải thiện việc truy xuất tài liệu và cho phép truy cập nhanh hơn tới thông tin cụ thể, đặc biệt trong các kho tài liệu lớn. Bằng cách trích xuất văn bản và lưu trữ ở định dạng đơn giản hơn (như văn bản thuần túy hoặc XML), người dùng có thể giảm kích thước tệp, làm cho chúng dễ dàng chia sẻ hoặc phân phối. Trích xuất văn bản từ tài liệu PDF với Aspose.PDF Cloud Node.js SDK.

Với thư viện Node.js của chúng tôi, bạn có thể:

  • Thêm tiêu đề & chân trang của tài liệu PDF ở định dạng văn bản hoặc hình ảnh.
  • Thêm bảng & con dấu (văn bản hoặc hình ảnh) vào tài liệu PDF.
  • Ghép nhiều tài liệu PDF vào một tệp hiện có.
  • Làm việc với các tệp đính kèm, chú thích, & trường mẫu PDF.
  • Áp dụng mã hóa hoặc giải mã cho tài liệu PDF & đặt mật khẩu.
  • Xóa tất cả các con dấu & bảng từ một trang hoặc toàn bộ tài liệu PDF.
  • Xóa một con dấu hoặc bảng cụ thể khỏi tài liệu PDF theo ID của nó.
  • Thay thế một hoặc nhiều trường hợp văn bản trên một trang PDF hoặc từ toàn bộ tài liệu.
  • Hỗ trợ toàn diện cho việc chuyển đổi tài liệu PDF sang nhiều định dạng tệp khác nhau.
  • Trích xuất nhiều thành phần của tệp PDF & tối ưu hóa tài liệu PDF.
  • Bạn có thể thử ứng dụng miễn phí của chúng tôi để trích xuất văn bản từ tệp PDF trực tuyến và kiểm tra chức năng.