Nguồn Xem trên nguồn-tương đương cho các tài liệu Word?


11

Đôi khi các tài liệu Word dường như ít nhiều bị phá vỡ, thông thường khi bố cục đã trở nên khá phức tạp và tài liệu đã thay đổi tay và / hoặc phiên bản một vài lần. Các triệu chứng có thể là không có gì xảy ra khi nhấn Backspacehoặc Enterphím ở một vị trí nhất định của tài liệu nơi nó thực sự hoạt động hoặc định dạng dường như áp dụng và tự đặt lại ngẫu nhiên ít nhiều. Tôi nghĩ rằng tất cả chúng ta đã ở đó.

Thường thì có thể rất khó để biết chính xác điều gì là sai, vì những gì xảy ra dưới mui xe trong Word khá mờ. Bạn có thể có một tài liệu trông trống rỗng, nhưng trong thực tế, trạng thái cơ bản liên quan đến định dạng, vv có thể khá phức tạp.

Trong những trường hợp này, sẽ rất hữu ích khi nhìn vào mã nguồn đằng sau những gì được hiển thị trên trang; như cách bạn trong trình duyệt có thể thực hiện Xem nguồn và lý tưởng nhất là có thể thực hiện các chỉnh sửa trực tiếp trong mã nguồn, giống như cách bạn sẽ làm khi sử dụng latex. Có một lệnh hoặc loại tiện ích Xem nguồn cho các tài liệu Microsoft Word không?

Tôi đoán là không có lệnh như vậy, hoặc tôi sẽ nghe về nó. Nếu đó là trường hợp, có ai có bất kỳ cách tiếp cận tốt nào khi nói đến việc nắm bắt "định dạng ẩn" gây phiền nhiễu trong tài liệu Word không?

Tôi nghi ngờ có thể có một số khác biệt trong các định dạng .doc và .docx; Tôi quan tâm đến cả hai trường hợp.

Câu trả lời:


11

Nếu định dạng là điều bạn chủ yếu quan tâm thì Word có khả năng kiểm tra tất cả các loại định dạng được áp dụng cho văn bản và các đối tượng được gọi là Định dạng hiển thị . Trong Word 2007 và 2010, phím tắt cho bảng này là Shift+ F1.

nhập mô tả hình ảnh ở đây

Mặt khác, nếu bạn đang tìm kiếm một sự hiểu biết sâu hơn về định dạng tài liệu thì bạn có thể xem XML cho các tệp DOCX.

  1. Tìm tài liệu DOCX của bạn trên đĩa.
  2. Thay đổi phần mở rộng của tài liệu từ .docx thành .zip.
  3. Nhấp đúp chuột vào tập tin và mở nó trong trình quản lý lưu trữ mặc định.
  4. Điều hướng đến thư mục "Word" trong chương trình zip và mở Document.xml . Đây là mã đằng sau những gì tạo nên phần lớn nội dung tài liệu, mặc dù các tệp khác cũng được sử dụng theo các cách khác, ví dụ như cho thông tin về kiểu hoặc phông chữ.

Bạn chắc chắn sẽ cần một trình soạn thảo XML đàng hoàng chỉ để xem dữ liệu và thậm chí sau đó nó khá phức tạp và đối với một tài liệu lớn sẽ rất rất dài.

Khi nói đến DOC, không có cách nào dễ dàng để "xem nguồn" vì đó là một tệp nhị phân được tạo thành từ các luồng riêng biệt và do đó không có cách nào dễ dàng để xem nội dung.


Điều đó khá tiện dụng, tôi không biết điều đó. Thật xấu hổ khi bạn không thể làm tương tự cho các tệp .doc, vì đó là những gì công ty tôi vẫn sử dụng. Cảm ơn đã giải thích mặc dù!
Godsmith

1
@Godsmith Bạn có thể lưu DOC dưới dạng DOCX bằng phiên bản Word mới hơn, sau đó quay lại DOC sau khi bạn thực hiện bất kỳ thay đổi nào. Có mất định dạng trong quy trình này, vì vậy hãy cẩn thận nhưng bạn có thể thấy bạn có thể thay đổi hoặc khắc phục sự cố trong các loại DOC của mình bằng cách thực hiện trong DOCX.
ThisClark

bạn cũng có thể lưu bất kỳ tệp nào trực tiếp dưới dạng html trong MS Word. Ngoài ra, bạn có thể lưu dưới dạng RTF và mở tệp RTF dưới dạng văn bản
phuclv

3

Tôi đoán định dạng .doc khá khó, vì vậy tôi không thể giúp bạn ở đây. Tuy nhiên, .docx thực sự là một tệp zip với tất cả các chi tiết được lưu trữ trong các tệp XML. Do đó, đổi tên tệp thành .zip và xem nguồn!


0

Khi nói đến một định dạng nhị phân như * .doc thì mọi thứ sẽ phức tạp hơn. Bạn có thể sử dụng mso-dumper của LibreOffice . Chỉ cần sao chép giải pháp cho máy cục bộ của bạn và chạy

python doc-dump.py \path\to\file.doc >output.xml

Bây giờ tất cả những thứ trong tệp nhị phân sẽ được chuyển đổi thành xml theo định dạng chính xác được mô tả trong Word (.doc) Định dạng tệp nhị phân

Ngoài ra còn có WordFileDump đơn giản hơn nhưng không mạnh bằng mso-dumper

Thật không may, chúng chỉ để phân tích cấu trúc và không có công cụ nào để lắp lại đầu ra xml trở lại tệp * .doc, vì vậy một khi bạn đã tìm thấy nguyên nhân gốc, bạn sẽ phải sử dụng Word để chỉnh sửa nó. Do đó, việc chuyển đổi sang * .docx sẽ dễ dàng hơn, kiểm tra tệp * .docx sau đó chuyển đổi lại thành * .doc nếu cần

Hoặc bạn cũng có thể lưu tệp dưới dạng rtf là tệp văn bản "có thể đọc được" thay vì văn phòng xml. Hoặc lưu tệp từ dưới dạng html

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.