TF/IDF算法

第1关：去除停用词

任务描述

本关任务：根据本关所学有关停用词的知识，编写使用停用词表去除停用词的程序并通过测试用例。

编程要求

在右侧编辑器中的 Begin-End 之间补充 Python 代码，使用已编写好的停用词表加载函数去除所输入文本中的停用词，并输出去掉文本停用词后的结果。其中文本内容通过 input 从后台获取。

测试说明

平台将使用测试集运行你编写的程序代码，若全部的运行结果正确，则通关。

测试输入：统帅一声令下，全军迅疾行动。除夕逆行武汉，挺进抗疫一线，党员率先垂范，军地共克时艰。从接手地方医院病区到进驻武汉火神山医院、武汉市泰康同济医院、湖北省妇幼保健院光谷院区，不论是传染病防控专家还是一线医务人员，面对疫情，人民军队始终与人民紧密团结在一起，誓死不退，英勇奋战，展现了人民子弟兵忠于党、忠于人民的政治品格。。

预期输出：统帅声令下全军迅疾行动夕逆行武汉挺进抗疫线党员率先垂范军共克时艰接手方医院病区进驻武汉火神山医院武汉市泰康济医院湖北省妇幼保健院光谷院区不传染病防控专家还线医务人员面疫情人民军队始终人民紧密团结誓死不退英勇奋战展现人民子弟兵忠党忠人民政治品格

# 停用词表加载方法
def get_stopword_list():# 停用词表存储路径，每一行为一个词，按行读取进行加载# 进行编码转换确保匹配准确率stop_word_path = './stopword.txt'stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').readlines()]return stopword_listif __name__ == '__main__':text=input()result=""list = []# 任务：使用停用词表去掉text文本中的停用词，并将结果保存至result变量# ********** Begin *********#stopwords = get_stopword_list()list = [word for word in text if word not in stopwords]for word in list:result+=word# ********** End **********#print(result,end="")

第2关：TF/IDF 算法

任务描述

本关任务：根据本关所学有关 TF/IDF 算法的知识，编写 TF/IDF 算法程序并通过所有测试用例。

编程要求

在右侧编辑器中的 Begin-End 之间补充 Python 代码，完成 TF/IDF 算法，提取所输入文本中的关键词，并输出关键词提取结果。其中文本内容通过 input 从后台获取。

测试说明

平台将使用测试集运行你编写的程序代码，若全部的运行结果正确，则通关。

测试输入：疫情面前，时间就是生命!高效、便捷一直是民航的优势。这一次，中国民航再次挺身而出，发挥着不可替代的作用，彰显着民航担当。这样的担当体现在中国民航坚决打赢疫情防控阻击战的决心里，体现在一个又一个航班任务执行中。关键时刻，民航领域各单位各企业快速反应、积极应对，尽全力保障医疗救护人员和物资的运输工作，为战“疫”抢出时间、抢出希望。

预期输出：

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.738 seconds.
Prefix dict has been built successfully. # 接口调用的附加信息
疫情/ 中国民航/ 阻击战/ 航班/ 替代/ 快速反应/ 关键时刻/ 优势/ 领域/ 任务/

#本程序的作用是通过TF/IDF算法完成对文本的关键词提取，输出前十个关键词。
import math
import jieba
import jieba.posseg as psg
from gensim import corpora, models
from jieba import analyse
import functoolsclass TfIdf(object):# 四个参数分别是：训练好的idf字典，默认idf值，处理后的待提取文本，关键词数量def __init__(self, idf_dic, default_idf, word_list, keyword_num):self.word_list = word_listself.idf_dic, self.default_idf = idf_dic, default_idfself.tf_dic = self.get_tf_dic()self.keyword_num = keyword_numdef get_tf_dic(self):tf_dic = {}# 任务：完成word_list的tf值的统计函数，将结果存储到tf_dic变量中# ********** Begin *********#for w in self.word_list:tf_dic[w] = tf_dic.get(w,0.0)+1.0tf_cnt = len(self.word_list)for k,v in tf_dic.items():tf_dic[k] = float(v) / tf_cnt			# ********** End **********#return tf_dic# 按公式计算tf-idfdef get_tfidf(self):tfidf_dic = {}for word in self.word_list:idf = self.idf_dic.get(word, self.default_idf)tf = self.tf_dic.get(word, 0)tfidf = tf * idftfidf_dic[word] = tfidftfidf_dic.items()# 根据tf-idf排序，去排名前keyword_num的词作为关键词for k, v in sorted(tfidf_dic.items(), key=functools.cmp_to_key(cmp), reverse=True)[:self.keyword_num]:print(k + "/ ", end='')print()#排序函数，用于topK关键词的按值排序
def cmp(e1, e2):import numpy as npres = np.sign(e1[1] - e2[1])if res != 0:return reselse:a = e1[0] + e2[0]b = e2[0] + e1[0]if a > b:return 1elif a == b:return 0else:return -1

第1关：去除停用词

任务描述

相关知识

停用词简介

停用词的类别

停用词的功能

编程要求

测试说明

第2关：TF/IDF 算法

任务描述

相关知识

关键词提取技术概述

TF/IDF 算法

如何训练关键词提取算法

编程要求

测试说明

最新新闻

热搜词