
nlp
文章平均质量分 65
nlp及bert相关
MusicDancing
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Bert及其变种的原理
1. Embedding简述 2. Transformer原理 3. Bert及其变种的原理原创 2022-01-04 08:26:29 · 683 阅读 · 0 评论 -
一个基于Bert的情感分类
参考:NLP情感分类项目实战--使用Bert做一个情感分类项目 目楽的文章_目楽 Leo mu的博客-CSDN博客 1. 问题描述 题目来自于DataFountain上的“疫情期间网民情绪识别”的挑战赛,最终成绩是Top5%。达到了0.734的成绩,主要内容是分析疫情期间的用户微博极性,分为消极-1,中性0以及积极1三种。本篇文章主要是对数据进行一定分析和做一个通过以该数据为基础的bert实战记录。 2. 数据分析 2.1 数据来源 疫情期间网民情绪识别-DataFountain。...原创 2021-11-15 21:41:34 · 1430 阅读 · 0 评论 -
初识Transformer
参考:【NLP】Transformer模型原理详解 - 知乎 Attention机制提出后,加入attention的Seq2seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合RNN和attention的模型。之后google又提出了解决Seq2Seq问题的Transformer模型,用全attention的结构代替了lstm,在翻译任务上取得了更好的成绩。 Attention原理: NLP中的Attention原理和源码解析 - 知乎 Tensorflow版B...原创 2021-11-04 15:54:36 · 681 阅读 · 0 评论 -
初识BERT
BERT模型(BidirectionalEncoder Representations from Transformer)的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示。然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。 1. 模型的输入/输出 在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示(词向量);在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经...原创 2021-10-26 19:45:35 · 422 阅读 · 0 评论 -
jeba分词
11 # -*- coding: UTF-8 -*- import jieba import jieba.analyse import sys def cut_seg(input_file_name, output_file_name, stop_word_list): stop_words = set(stop_word_list) with open(input_file_name, 'r') as fin, open(output_file_name, 'w') as fout原创 2021-09-24 18:30:13 · 316 阅读 · 0 评论 -
简单命名实体识别
使用pyhanlp包识别命名实体(机构名,地名) #!/usr/bin/env python # -*- coding: utf-8 -*- from pyhanlp import * # 目标词性列表 # nt: 机构团体名 # ns: 地名 # nsf: 音译地名 part_of_speech_list = ['nt', 'ns', 'nsf'] # 判断是否为中文单词 # 汉字编码范围\u4E00-\u9FA5 def is_all_chinese(strs): flag = True原创 2021-06-30 14:35:52 · 259 阅读 · 0 评论 -
中文分词好用的pyhanLP包
HanLP: Han Language Processing 面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术。目前,基于深度学习的HanLP 2.0正处于alpha测试阶段,未来将实现知识图谱、问答系统、自动摘要、文本语义相似度、指代消解、三元组抽取、实体链接等功能。 安装 pip install hanlp 要求Python 3.6以上,支持Windows,可以在CPU上运行,推荐GPU/TPU。 分词(中文分词、中文斷詞、英文分词、任意语种原创 2021-06-30 11:32:45 · 803 阅读 · 3 评论