Skip to content

TW-NLP/KeywordExtract

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

47 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

中英文关键词抽取

欢迎使用关键词抽取,支持多种关键词抽取算法,涵盖内容如下图所示: image

介绍

关键词抽取支持多种算法,算法如下:


API

1.TF-IDF

from keyword_extract import KeywordExtract

input_list = [
    "自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"
]
key_extract = KeywordExtract(type="TF-IDF")
# 基于TF-IDF进行关键词的抽取
print(key_extract.infer(input_list))

2.TextRank

from keyword_extract import KeywordExtract
   
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="TextRank")
# 基于TextRank进行关键词的抽取
print(key_extract.infer(input_list))

3.KeyBERT

from keyword_extract import KeywordExtract
  
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="KeyBERT")
# 基于KeyBERT进行关键词的抽取
print(key_extract.infer(input_list))

4.Word2Vec

from keyword_extract import KeywordExtract

input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="Word2Vec")
# 基于Word2Vec进行关键词的抽取
print(key_extract.infer(input_list))

5.LDA

from keyword_extract.lda_model.lda import LDA
 
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
lda_model = LDA(type="LDA")
# 基于LDA 进行关键词的抽取,topic_num是主题的个数
print(lda_model.infer(input_list, topic_num=3))

路线

  • 支持TF-IDF关键词抽取算法
  • 支持TextRank关键词抽取算法
  • 支持KeyBERT关键词抽取算法
  • 支持Word2vec的关键词抽取算法
  • 支持LDA的关键词抽取算法
  • [] 支持pip的安装

注意

About

中英文关键词抽取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages