【Python5】文本分类综合(rnn,cnn,word2vec,TfidfVectorizer)
原始文本 分词 索引化 词向量化 RNN(如LSTM、GRU等) 激活函数(如Sigmoid)
发布日期:2021-04-30 21:00:44
浏览次数:150
分类:精选文章
本文共 2504 字,大约阅读时间需要 8 分钟。
中文评论情感分析
需要的库
我们需要安装以下库:
jieba和gensim,用于中文分词和词向量模型matplotlib用于绘制图表
安装命令:
pip install jieba gensim matplotlib
预训练词向量
下载预训练的中文词向量模型,例如:
- GitHub链接:https://github.com/Embedding/Chinese-Word-Vectors
- 提取码:fgux
加载词向量:
from gensim.models import KeyedVectorscn_model = KeyedVectors.load_word2vec_format('chinese_word_vectors/sgns.zhihu.bigram', binary=False) 词向量模型
每个词对应一个300维的向量。模型处理流程:
训练语料
使用酒店评论语料,共4000个样本,2000正面和2000负面。
数据处理:
import ospos_txts = os.listdir('pos')neg_txts = os.listdir('neg')train_texts_orig = []for i in range(len(pos_txts)): with open('pos/' + pos_txts[i], 'r', errors='ignore') as f: text = f.read().strip() train_texts_orig.append(text)for i in range(len(neg_txts)): with open('neg/' + neg_txts[i], 'r', errors='ignore') as f: text = f.read().strip() train_texts_orig.append(text) 分词与索引化
去掉标点符号,使用jieba分词,并将词转换为词向量索引:
import jiebacut_list = []for text in train_texts_orig: text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text) cut = jieba.cut(text) cut_list.append([i for i in cut if i in cn_model.vocab]) 索引长度标准化
计算文本长度分布,取平均长度加上标准差:
num_tokens = np.array([len(tokens) for tokens in train_tokens])max_tokens = np.mean(num_tokens) + 2 * np.std(num_tokens)
模型构建
使用Keras搭建LSTM模型:
from keras.models import Sequentialfrom keras.layers import Embedding, LSTM, Dense, Bidirectionalmodel = Sequential()model.add(Embedding(num_words, embedding_dim, weights=[embedding_matrix], input_length=max_tokens, trainable=False))model.add(Bidirectional(LSTM(units=32, return_sequences=True)))model.add(LSTM(units=16, return_sequences=False))model.add(Dense(1, activation='sigmoid'))
训练与评估
定义优化器和回调:
from keras.optimizers import Adam, RMSpropfrom keras.callbacks import EarlyStopping, ModelCheckpoint, TensorBoard, ReduceLROnPlateaumodel.compile(loss='binary_crossentropy', optimizer=Adam(lr=1e-3), metrics=['accuracy'])
预测函数
预测文本情感:
def predict_sentiment(text): text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text) cut = jieba.cut(text) cut_list = [i for i in cut if i in cn_model.vocab] tokens_pad = pad_sequences([cut_list], maxlen=max_tokens, padding='pre', truncating='pre') result = model.predict(tokens_pad) coef = result[0][0] if coef >= 0.5: return '正面评价', coef else: return '负面评价', coef 错误分类分析
计算误分类样本:
misclassified = np.where(y_pred != y_actual)[0]print(len(misclassified))
CNN模型(Tensorflow)
word2vec模型
TfidfVectorizer模型
发表评论
最新留言
留言是一种美德,欢迎回访!
[***.207.175.100]2026年05月23日 16时31分24秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
php机器人聊天对话框,基于AIML的PHP聊天机器人
2023-03-01
PHP查找数组中最大值与最小值
2023-03-01
php查最大值,在PHP数组中查找最大值
2023-03-01
php根据年月日计算年龄
2023-03-01
RabbitMQ - 单机部署(超详细)
2023-03-01
php检查注册,PHP检查注册的电子邮件地址是一个’school.edu’地址
2023-03-01
php模拟发送GET和POST请求
2023-03-01
RabbitMQ - 以 MQ 为例,手写一个 RPC 框架 demo
2023-03-01
php模板引擎smarty
2023-03-01
php正则表达式模式
2023-03-01
php正则表达式的特殊字符含义
2023-03-01
PHP正则表达式获取武汉市的实时pm2.5数据并邮件发送phpmailer
2023-03-01
RabbitMQ + JMeter组合,优化你的中间件处理方式!
2023-03-01
PHP水仙花问题解法之一
2023-03-01
php没有解析是怎么回事,linux下php文件没有被剖析怎么办?_后端开发
2023-03-01
php注册页面实现注册后跳转页面
2023-03-01
PHP消息队列的实现方式与详解,值得一看
2023-03-01
PHP混合Go协程并发
2023-03-01
php源码中如何添加滚动公告,给WordPress网站添加滚动公告的方法
2023-03-01