设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 服务器 > 安全 > 正文

NLP系列之词袋模型及TFIDF模型

发布时间:2022-06-27 12:43 所属栏目:53 来源:互联网
导读:词袋模型 文本特征提取有两个非常重要的模型: 词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。 词袋模型:在词集的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。 两者本质上的区别,词袋
  词袋模型
  文本特征提取有两个非常重要的模型:
 
  词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。
 
  词袋模型:在词集的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。
 
  两者本质上的区别,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,词袋还要关注有几个。
 
  假设我们要对一篇文章进行特征化,最常见的方式就是词袋。
 
  导入相关的函数库:
 
  from sklearn.feature_extraction.text import CountVectorizer
  实例化分词对象:
 
  vectorizer = CountVectorizer(min_df=1)
 
  vectorizer                    
 
  CountVectorizer(analyzer=...'word', binary=False, decode_error=...'strict',
 
          dtype=<... 'numpy.int64'>, encoding=...'utf-8', input=...'content',
 
          lowercase=True, max_df=1.0, max_features=None, min_df=1,
 
          ngram_range=(1, 1), preprocessor=None, stop_words=None,
 
          strip_accents=None, token_pattern=...'(?u)\\b\\w\\w+\\b',
 
          tokenizer=None, vocabulary=None)
  将文本进行词袋处理:
 
  corpus = [
 
  ...     'This is the first document.',
 
  ...     'This is the second second document.',
 
  ...     'And the third one.',
 
  ...     'Is this the first document?',
 
  ... ]
 
  X = vectorizer.fit_transform(corpus)
 
  X                             
 
  <4x9 sparse matrix of type '<... 'numpy.int64'>'
 
      with 19 stored elements in Compressed Sparse ... format>
  获取对应的特征名称:
 
  >>> vectorizer.get_feature_names() == (
 
  ...     ['and', 'document', 'first', 'is', 'one',
 
  ...      'second', 'the', 'third', 'this'])
 
  True
  获取词袋数据,至此我们已经完成了词袋化:
 
  >>> X.toarray()          
 
  array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
 
         [0, 1, 0, 1, 0, 2, 1, 0, 1],
 
         [1, 0, 0, 0, 1, 0, 1, 1, 0],
 
         [0, 1, 1, 1, 0, 0, 1, 0, 1]]...)
  但是如何可以使用现有的词袋的特征,对其他文本进行特征提取呢?我们定义词袋的特征空间叫做词汇表vocabulary:
 
  vocabulary=vectorizer.vocabulary_
 
  针对其他文本进行词袋处理时,可以直接使用现有的词汇表:
 
   new_vectorizer = CountVectorizer(min_df=1, vocabulary=vocabulary)
  CountVectorize函数比较重要的几个参数为:
 
  decode_error,处理解码失败的方式,分为‘strict’、‘ignore’、‘replace’三种方式。
 
  strip_accents,在预处理步骤中移除重音的方式。
 
  max_features,词袋特征个数的最大值。
 
  stop_words,判断word结束的方式。
 
  max_df,df最大值。
 
  min_df,df最小值 。
 
  binary,默认为False,当与TF-IDF结合使用时需要设置为True。
 
  本例中处理的数据集均为英文,所以针对解码失败直接忽略,使用ignore方式,stop_words的方式使用english,strip_accents方式为ascii方式。
 
  TF-IDF模型
  文本处理领域还有一种特征提取方法,叫做TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
 
  TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频),词频高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其他类文档。
 
  在Scikit-Learn中实现了TF-IDF算法,实例化TfidfTransformer即可:
 
  from sklearn.feature_extraction.text import TfidfTransformer
 
  transformer = TfidfTransformer(smooth_idf=False)
 
  transformer    
 
  TfidfTransformer(norm=...'l2', smooth_idf=False, sublinear_tf=False, use_idf=True)
  TF-IDF模型通常和词袋模型配合使用,对词袋模型生成的数组进一步处理:
 
  >>> counts = [[3, 0, 1],
 
  ...           [2, 0, 0],
 
  ...           [3, 0, 0],
 
  ...           [4, 0, 0],
 
  ...           [3, 2, 0],
 
  ...           [3, 0, 2]]
 
  ...
 
   >>> tfidf = transformer.fit_transform(counts)
 
  >>> tfidf                         
 
  <6x3 sparse matrix of type '<... 'numpy.float64'>'     with 9 stored elements in Compressed Sparse ... format>
 
  >>> tfidf.toarray()                         
 
  array([[ 0.81940995,  0.        ,  0.57320793],       
 
  [ 1.        ,  0.        ,  0.        ],      
 
  [ 1.        ,  0.        ,  0.        ],  
 
  [ 1.        ,  0.        ,  0.        ],       
 
  [ 0.47330339,  0.88089948,  0.        ],       
 
  [ 0.58149261,  0.        ,  0.81355169]])
  词汇表模型
  词袋模型可以很好的表现文本由哪些单词组成,但是却无法表达出单词之间的前后关系,于是人们借鉴了词袋模型的思想,使用生成的词汇表对原有句子按照单词逐个进行编码。TensorFlow默认支持了这种模型:
 
  tf.contrib.learn.preprocessing.VocabularyProcessor (
 
                                            max_document_length,    
 
                                            min_frequency=0,
 
                                            vocabulary=None,
 
                                            tokenizer_fn=None)
  其中各个参数的含义为:
 
  max_document_length:,文档的最大长度。如果文本的长度大于最大长度,那么它会被剪切,反之则用0填充。
 
  min_frequency,词频的最小值,出现次数小于最小词频则不会被收录到词表中。
 
  vocabulary,CategoricalVocabulary 对象。
 
  tokenizer_fn,分词函数。
 
  假设有如下句子需要处理:
 
  x_text =[
 
      'i love you',
 
      'me too'
 
  ]
  基于以上句子生成词汇表,并对'i me too'这句话进行编码:
 
  vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
 
  vocab_processor.fit(x_text)
 
  print next(vocab_processor.transform(['i me too'])).tolist()
 
  x = np.array(list(vocab_processor.fit_transform(x_text)))
 
  print x
  运行程序,x_text使用词汇表编码后的数据为:
 
   [[1 2 3 0]
 
   [4 5 0 0]]
  'i me too'这句话编码的结果为:
 
  [1, 4, 5, 0]

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读