Microsoft Word Text Parser in “C”

Mi piacerebbe conoscere la procedura da adottare per analizzare e ottenere il contenuto di testo dai documenti Microsoft word (.doc e .docx). il linguaggio di programmazione usato dovrebbe essere semplice “C” (dovrebbe essere gcc).

Ci sono biblioteche che fanno già questo lavoro,

estensione: posso usare la stessa procedura per analizzare il testo anche dai file power point di Microsoft?

I documenti di Microsoft Word sono un’enorme bestia: sicuramente non vuoi scrivere questo codice da solo. Cerca nell’uso di una libreria di Word libera esistente come antiword o wvWare .

Non conosco le librerie esistenti, ma le specifiche di formato sono disponibili gratuitamente da Microsoft e sotto la promise di non denunciarti per averle utilizzate.

su Windows, lascia che la parola faccia il lavoro e si interfaccia con l’object COM, su Linux, il lavoro è stato fatto in antiword . Oppure puoi automatizzare OpenOffice.org su qualsiasi piattaforma con il modello di oggetti UNO .

Se si è disposti a utilizzare l’interfaccia COM in C, è ansible utilizzare l’interfaccia IFilter integrata in ogni versione di Windows da Windows 2000. È ansible utilizzarlo per estrarre il testo da qualsiasi documento di Office (Word, Excel, ecc.), file PDF o qualsiasi tipo di file su cui è installato il supporto IFilter.

Ho scritto un post sul blog qualche anno fa. È tutto in C ++, ma puoi usare gli oggetti COM da C.