范文无忧网范文学习范文大全

Python中extracttags怎么对多行文本提取特征词而不是一行一行计

04月16日 编辑 fanwen51.com

[挫折是存折,而不是骨折]当今是一个励志的时代。这话不假,但,励志也是需要讲究方法的。一味地给别人心里灌黄连汤,灌得人苦不自支,最后再赏赐给人两罐蜂蜜的做法,不能说不允许,但至少是缺少技巧的,如此生搬...+阅读

Python中extracttags怎么对多行文本提取特征词而不是一行一行计

[python] view plain copy#coding:utf-8 import sys reload(sys) sys.setdefaultencoding("utf-8") from multiprocessing import Pool,Queue,Process import multiprocessing as mp import time,random import os import codecs import jieba.analyse jieba.analyse.set_stop_words("yy_stop_words.txt") def extract_keyword(input_string):#print("Do task by process {proc}".format(proc=os.getpid())) tags = jieba.analyse.extract_tags(input_string, topK=100)#print("key words:{kw}".format(kw=" ".join(tags))) return tags#def parallel_extract_keyword(input_string,out_file):def parallel_extract_keyword(input_string):#print("Do task by process {proc}".format(proc=os.getpid())) tags = jieba.analyse.extract_tags(input_string, topK=100)#time.sleep(random.random())#print("key words:{kw}".format(kw=" ".join(tags)))#o_f = open(out_file,'w')#o_f.write(" ".join(tags)+"\n") return tags if __name__ == "__main__":data_file = sys.argv[1] with codecs.open(data_file) as f:lines = f.readlines() f.close() out_put = data_file.split('.')[0] +"_tags.txt" t0 = time.time() for line in lines:parallel_extract_keyword(line)#parallel_extract_keyword(line,out_put)#extract_keyword(line) print("串行处理花费时间{t}".format(t=time.time()-t0)) pool = Pool(processes=int(mp.cpu_count()*0.7)) t1 = time.time()#for line in lines:#pool.apply_async(parallel_extract_keyword,(line,out_put))#保存处理的结果,可以方便输出到文件 res = pool.map(parallel_extract_keyword,lines)#print("Print keywords:")#for tag in res:#print(" ".join(tag)) pool.close() pool.join() print("并行处理花费时间{t}s".format(t=time.time()-t1)) 运行:python data_process_by_multiprocess.py message.txt message.txt是每行是一个文档,共581行,7M的数据 运行时间:不使用sleep来挂起进程,也就是把time.sleep(random.random())注释掉,运行可以大大节省时间。

图像的特征提取都有哪些算法

图像的经典特征提取方法:

1 HOG(histogram of Oriented Gradient,方向梯度直方图)

2 SIFT(Scale-invariant features transform,尺度不变特征变换)

3 SURF(Speeded Up Robust Features,加速稳健特征,对sift的改进)

4 DOG(Difference of Gaussian,高斯函数差分)

5 LBP(Local Binary Pattern,局部二值模式)

6 HAAR(haar-like ,haar类特征,注意haar是个人名,haar这个人提出了一个用作滤波器的小波,为这个滤波器命名为haar滤波器,后来有人把这个滤波器用到了图像上,就是图像的haar特征)

图像的一般提取特征方法:

1 灰度直方图,颜色直方图

2 均值,方差

3 信号处理类的方法:灰度共生矩阵,Tamura纹理特征,自回归纹理特征,小波变换。

4 傅里叶形状描述符,小波描述符等,

延伸阅读:

唯美心语,一行一心情唯美的语句,总是让人留恋。下面小编为大家献上20句唯美的句子,欢迎大家鉴赏哦!1.事情看透,你就明白该如何进行;人情看透,你就明白该如何相处;事情看破,你就不想做事了;人情看破,你...

怎样从几百兆的信号提取有用的特征数字信号处理是把信号用数字或符号表示成序列,通过计算机或通用(专用)信号处理设备,用数值计算方法进行各种处理,达到提取有用信息便于应用的目的。例如:滤波、检测、变换、增强、...

图像的特征提取都有哪些算法图像的经典特征提取方法: 1 HOG(histogram of Oriented Gradient,方向梯度直方图) 2 SIFT(Scale-invariant features transform,尺度不变特征变换) 3 SURF(Speeded Up Robust F...

跪求手写论文的格式啊只要格式模板不要解释啊什么的比如第一行写本科毕业生论文要求 一、论文格式 封 面: 标 题 专 业 考生姓名与考号 指导教师姓名 完成论文时间 第一页 中文摘要(外文摘要) 第二页 目录 第三页 论文正文 (一)、结论或前言 (二...

做程序员的转到哪一行比较好对于程序员来说,职业转换并没有想象的那么难,各行各业都需要与IT打交道,职业选择的途径还是很多的。除非是刚入行不久的新人,否则,从一个完全陌生领域开始即无必要,也不明智。转行...

EXCEL表格中文本格式怎么套公式1,你这列数据是文本格式的数据,可通过先设置单元格格式为文本后输入数字后体现,绿三角就是提示你这些数字以文本方式存储了,(用半角逗号加数字的输入方式也是文本格式的一种,是EXC...

三栏式明细账的登记最后一行如何填写范例一般来说,固定资产是用卡片账的不会用三栏账,三栏账主要用在以下科目:其他应收款,基他应付款,应收账款,应付账款,预收账款,预付账款等涉及明细比较金的总账科目。现就其他应收款来说...

张衡祖冲之郭守敬一行这四人为祖国科学事业的发展做了哪些张衡: ·指出月球本身并不发光,月光其实是日光的反射; ·解释了月食的成因; ·观测记录了两千五百颗恒星; ·创制了世界上第一架能比较准确地表演天象的漏水转浑天仪 ·创制了第...

园丁颂现代诗12行左右一行十字急急急"园丁颂"-----致辛勤耕耘的人民教师早起的脚步惊醒人们的残梦朗朗的引读迎来东升的太阳深夜你如饥似渴在信息网中遨游点击、查阅、下载只为满足孩子们的渴求手牵着手心贴着心...

推荐阅读
图文推荐
栏目列表