BentSao开源了经过中文医学指令微调的大语言模型集,包括 Llama、AlpacaChinese、Bloom、活字模型等。基于医学知识图谱以及医学文献,结合 ChatGPT API 构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。
一、模型特点
- 基础模型:
本草建立在开源的llama7b
模型基础上。llama
模型是一种较为知名的语言模型基础架构,具有一定的语言理解和生成能力,而llama7b
则表示该模型具有 70 亿参数,这为本草模型提供了基础的语言处理能力和架构支持。 - 神经网络架构:类似于大多数大语言模型,“本草”采用神经网络架构,这种架构能够对大量的文本数据进行学习和分析,捕捉语言的语法、语义等信息。神经网络中的神经元通过复杂的连接和计算,对输入的文本进行编码和解码,从而实现对问题的理解和回答的生成。
- 知识整合:
整合了来自中国医学知识图谱(CMKG)的结构化和非结构化医学知识。中国医学知识图谱包含了丰富的医学信息,如疾病、药物、症状等方面的知识,这些知识的引入使得本草模型能够更好地理解和处理医学相关的问题。
通过利用 ChatGPT 构造了 8000 多个指令数据形成指令数据集,用于监督微调。这种基于指令数据的微调方式可以让模型更好地适应医学领域的问答任务,提高回答的准确性和专业性。
除了医学知识图谱,“本草”还利用医学指南等非结构化的医学知识。这些非结构化的知识来源可以提供更丰富的医学背景信息和临床经验,帮助模型更好地理解医学领域的复杂性和多样性。对于非结构化的文本数据,需要使用自然语言处理技术进行处理,例如文本分词、词性标注、命名实体识别等,以便模型能够有效地理解和利用这些知识。 - 指令数据集构建与微调:
构建指令数