笑忍苦 发表于 2023-3-15 03:35:22

软件工程第一次个人作业

代码仓库:第一次个人项目-论文查重系统


目录

[*]代码仓库:第一次个人项目-论文查重系统
[*]PSP表格
[*]计算模块接口的设计与实现过程
[*]性能分析
[*]单元测试

[*]代码覆盖率
[*]单元测试


PSP表格

PSP2.1Personal Software Process Stages预估耗时(分钟)实际耗时(分钟)Planning计划120100· Estimate· 估计这个任务需要多少时间480600Development开发180240· Analysis· 需求分析 (包括学习新技术)120240· Design Spec· 生成设计文档6050· Design Review· 设计复审3020· Coding Standard· 代码规范 (为目前的开发制定合适的规范)2010· Design· 具体设计90120· Coding· 具体编码4040· Code Review· 代码复审3040· Test· 测试(自我测试,修改代码,提交修改)120210Reporting报告3050· Test Repor· 测试报告2015· Size Measurement· 计算工作量2010· Postmortem & Process Improvement Plan· 事后总结, 并提出过程改进计划3035· 合计480600计算模块接口的设计与实现过程

本文使用SimHash和海明距离计算文章重复率,原理参考自:https://blog.csdn.net/wxgxgp/article/details/104106867
在分词与权重计算部分参考自jieba库的Github:https://github.com/fxsjy/jieba
用jieba库分词,并手动删除停用词stopWords = [' ', '!', ',', '.', '?', '!', '?', ',', '。', '\n', '\t', '\b', '"', '“', '”', ':', '《', '》', '']splitWords = jieba.lcut(source)splitWords = del_stopWords(splitWords, stopWords)#删除停用词def del_stopWords(split_sentence, stopWords):    i = 0    while (len(split_sentence) != 0):                if (i >= len(split_sentence)):            break                #匹配停用词      tmp = False      for n in stopWords:            if (split_sentence == n):                tmp = True                break               if (tmp):            split_sentence.pop(i)            continue      i += 1    return split_sentence用哈希函数转换分词为64位01字符串,并用jieba库的TF-IDF 算法对关键词进行抽取并计算权重(词频)# 哈希函数,输入单个分词def string_hash(source):      if source == "":            return 0      else:            x = ord(source)0):            reduction_list.append(1)      else:            reduction_list.append(0)      return reduction_list用按位异或的方式计算海明距离,并计算相似度#海明距离def getDistance(list_1, list_2):    distance = 0    for index in range(len(list_1)):      if (list_1 ^ list_2 == 1):            distance += 1    return distance        #将汉明距离转换为相似度similarity = round((64 - hanmingDistance) / 64 * 100, 2)文件的读取和结果文件的输出address_orig = sys.argvaddress_copy = sys.argvaddress_out = sys.argv#读入并计算源文件的simhashfile_1 = open(address_orig, encoding= 'UTF-8')s1 = file_1.read()list_1 = simhash(s1, stopWords)#print(list_1)file_1.close()#将相似度写入新建文件file_3 = open(address_out, 'w', encoding= 'UTF-8')file_3.write(str(similarity))file_3.close()尝试输出结果
https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230315002608960-1088544703.png
性能分析

https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230314234027014-275769480.png
单元测试

代码覆盖率

https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230314235339470-2083467536.png
https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230314235403632-1400336188.png
单元测试

因为分词的准确性直接关系到最后输出结果过的准确性,所以这次我主要测试分词功能是否完善
https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230315004427274-990822992.png
https://img2023.cnblogs.com/blog/3116876/202303/3116876-20230315004436305-1223323001.png
可见,当完整的词语被空格或者其它符号打断时,jieba库似乎不能很好的检测出来,如果是一些比较重要的词出现增删改的情况,很有可能会影响相似度的计算。
如果考虑在分词前将停用词去除,如果处理的文章里有英文,则会导致单词粘连的情况而无法正确识别英文单词。
也许有更好的方法解决这个问题,比如区分各种情况,再根据不同情况用不同的方法去除干扰词。

来源:https://www.cnblogs.com/Trigger-Kougamy/p/17216481.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: 软件工程第一次个人作业