txtai 与数据存储无关,该库分析文本集。以下示例展示了如何在 Elasticsearch 系统之上添加提取式问答。
安装依赖
安装txtai和Elasticsearch。
Install txtai and elasticsearch python client
pip install txtai elasticsearch
Download and extract elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.1-linux-x86_64.tar.gz
tar -xzf elasticsearch-7.10.1-linux-x86_64.tar.gz
chown -R daemon:daemon elasticsearch-7.10.1
启动一个 Elasticsearch 实例。
import os
from subprocess import Popen, PIPE, STDOUT
Start and wait for server
server = Popen([‘elasticsearch-7.10.1/bin/elasticsearch’], stdout=PIPE, stderr=STDOUT, preexec_fn=lambda: os.setuid(1))
sleep 30
下载数据
这个例子将处理CORD-19数据集的一个子集。COVID-19 开放研究数据集 (CORD-19) 是一个免费的学术文章资源,由领先的研究小组联盟汇总,涵盖 COVID-19 和冠状病毒病毒家族。
下面下载的是一个从Kag