文档提取工具 apache/tika

docker安装

拉取镜像

docker pull apache/tika:latest

运行容器

docker run -itd -p 9998:9998 --name tika apache/tika:latest

使用

命令行模式

curl -s -X PUT -T ./test.txt localhost:9998/tika  --header 'Accept: text/plain'

golang

package main

import (
	"context"
	"fmt"
	"github.com/google/go-tika/tika"
	"os"
)

func main() {

	client := tika.NewClient(nil, "http://127.0.0.1:9998")
	// 解析的文件的路径
	filePath := "./test.txt"
	file, err := os.Open(filePath)
	if err != nil {
		fmt.Println("Error opening file:", err)
		return
	}
	// 使用 Tika 提取文本
	text, err := client.ParseWithHeader(context.TODO(), file, map[string][]string{
		"Accept": []string{"text/plain"},
	})
	if err != nil {
		fmt.Println("Error extracting text:", err)
		return
	}
	// 输出提取的文本
	fmt.Println("Extracted Text:", text)
}
posted @ 2024-05-07 17:58  元気田支店长  阅读(203)  评论(0编辑  收藏  举报