博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
text mining 2(similarity compare)
阅读量:6555 次
发布时间:2019-06-24

本文共 1923 字,大约阅读时间需要 6 分钟。

import urllib.request data=urllib.request.urlopen("http://127.0.0.1/txt1.txt").read().decode("utf-8","ignore") word10=jieba.analyse.extract_tags(data,20) print(word10) import gensim from gensim import corpora,models,similarities import jieba import urllib.request data1=data.replace('\t', '').replace('\n', '').replace(' ','') data2=urllib.request.urlopen("http://127.0.0.1/comment.txt").read().decode("utf-8","ignore").replace('\t', '').replace('\n', '').replace(' ','') d1=jieba.cut(data1) d2=jieba.cut(data2) data01 = "" for item in d1 :  #print (item)  data01 += item+ " "  data11=data01.replace(",","") data21 = "" for item in d2:      data21 += item + " "      data22=data21.replace(',','') documents = [data11, data22] print(documents) from collections import defaultdict texts=[[word for word in document.split()]        for document in documents] print (texts) frequency=defaultdict(int) for text in texts:     for token in text:         frequency[token]+=1 #texts=[[word for word in text if frequency[token]>3] # for text in texts] dictionary=corpora.Dictionary(texts) dictionary.save("C:/Users/Administrator/Desktop/tripadvisor_gm/tripadvisor_code_python/test_dict1.txt") data3=data=urllib.request.urlopen("http://127.0.0.1/txt2.txt").read().decode("utf-8","ignore") d3=jieba.cut(data2) data31 = "" for item in d3 :  #print (item)  data31 += item+ " "  data31=data31.replace(",","") new_doc=data31 new_vec=dictionary.doc2bow(new_doc.split()) corpus=[dictionary.doc2bow(text)for text in texts] corpora.MmCorpus.serialize("C:/Users/Administrator/Desktop/tripadvisor_gm/tripadvisor_code_python/test_corpus1.txt",corpus) tfidf=models.TfidfModel(corpus) feature_num=len(dictionary.token2id.keys()) index=similarities.SparseMatrixSimilarity(tfidf[corpus],num_features=feature_num) sim=index[tfidf[new_vec]] print(sim) #word1 word2 word3...wordn #小说推荐。。。 #自动匹配推荐。。。

转载于:https://www.cnblogs.com/rabbittail/p/8126270.html

你可能感兴趣的文章
Hive任务优化--控制hive任务中的map数和reduce数
查看>>
[摄影]上海往事
查看>>
『原创』c#实现文件加密、解密及文件拖拽至程序图标直接打开
查看>>
【Leetcode】Search in Rotated Sorted Array
查看>>
redis3.0.0 集群安装详细步骤
查看>>
WCF 之 初识WCF
查看>>
如何在Linux命令行中创建以及展示演示稿
查看>>
FutureTask——另一种闭锁的实现
查看>>
js-ES6学习笔记-Proxy
查看>>
Android和MVC
查看>>
Linux 用户和用户组管理
查看>>
RIP路由协议及工作原理
查看>>
tomcat架构分析(valve源码导读)
查看>>
spring中InitializingBean接口使用理解(转)
查看>>
基于php5.5使用PHPMailer-5.2发送邮件
查看>>
android java.lang.SecurityException: Permission Denial: not allowed to send broadcast
查看>>
InstallShield 2012 Spring新功能试用(16): Suite/Advanced UI 或 Advanced UI安装程序能在安装时进行输入合法性校验与反馈...
查看>>
【转】正则表达式高级讲解
查看>>
C#面试宝典
查看>>
三种排序算法python源码——冒泡排序、插入排序、选择排序
查看>>