吾读小说网 www.5du5.co,超级U盘无错无删减全文免费阅读!
而且当这些人名出现在候选词列表里面时,它们的颜色还与别人大不一样的,男生名字的姓都是蓝色,女生的姓都是红色,有男有女的名字则全是绿色。同时本校人的名字下面还会有浅浅一道背景色,颜色与其所在院徽或者校徽的颜色一致。像是文琦就发现自己班所有人名字下面都有浅蓝的底色,而一起上高数课认识的理学院同学的名字下面就是浅紫色的,他女友的名字下面有浅红色背景,那是外语学院的院徽颜色。
这些特殊的标记,都是源自江大词库,马竞版的词库不只是单纯的根据词频排序的文本文件,其中还有简单的关系数据库的内容。像是“文琦”这个名字,就会和“男”、“能源与动力工程学院”、“核工41班”等词语发生关联,而“能源与动力工程学院”又会与“能动学院”、“能动学院院徽”、赵祺(能动学院院长)等词语发生关联。
传统的词频排序算法,只能根据词语累计输入次数与词语最近输入时间这两个数据调整候选词排序,而蜜蜂输入法引入的这些关联数据可以大大补充单纯词频排序算法的不足,使得蜜蜂输入法的输入效果更加智能更加方便。
在0。9公测版的蜜蜂输入法里面,关系排序算法就被应用到人名候选词的排序里面。
文琦试着打班上同学名字时,发现几个姓李姓刘的同学,名字也不需要翻页,在一大堆刘xx、李xx的候选词里面排名非常靠前。其原理就是蜜蜂输入法的关系排序算法,这些同学和他一个班,都和“能源与动力工程学院”、“核工41班”两个词发生关联,所以词序被大大提高,也拥有同样的背景色。
其实学生名字的背景色是经过特殊算法严重变形的院徽图片,完全看不出校徽的形状,只剩下平均色。只有安装了“蜜蜂输入法江大专用版皮肤套装。skin”文件,取得里面的校徽图标素材,输入法才会在学生和老师名字下面放置校徽色标记。当然,没有安装江大专用词库的话,输入法虽然会根据自动生成的关系数据库放置校徽色标记以及其他标记,但是出错率就要高很多了。
因为是全自动收集整理生成,并且使用了一些暴力破解密码的手段,这个词库里面其实是包含了一些江大的秘密信息的,比如校长会议的会议记录以及一些还未公布的文件的部分内容等。但是因为词库经过词频排序,那些秘密信息通常都很少在文件上出现,词频很低,并不容易被人发现,因此也没引起他人注意,马竞自己也并不知道还有这样的问题。
还要到今年暑期招生的时候,有人发现个别新生的名字可以轻松打出,并且显示样式也是本校人,不过那人并没有深究,只是将这件事作为趣事放到校园bbs上面。
这几张截图后来被有心人看到,分析认为那些被三月份过期江大词库标记为本校人的新生,应该是学校内部招生的结果,由此还引发了一次被称为“江大内部招生门”的丑闻事件。
当然,在江大校方看来,则是泄密事件,甚至一度发文禁用蜜蜂输入法,江大计算机管理中心一度还封堵了蜜蜂输入法的升级端口。
不过那时候马竞已经升级了蜜蜂输入法,对用户词库进行了整理,一些词频极低的非用户自创词被自动清理掉了。同时源自保密文件的一些内容也被删除了,封杀事件最后也就不了了之了,反倒是因为封杀事件使得蜜蜂输入法在江大校园里面知名度大增,更加流行了。
而且当这些人名出现在候选词列表里面时,它们的颜色还与别人大不一样的,男生名字的姓都是蓝色,女生的姓都是红色,有男有女的名字则全是绿色。同时本校人的名字下面还会有浅浅一道背景色,颜色与其所在院徽或者校徽的颜色一致。像是文琦就发现自己班所有人名字下面都有浅蓝的底色,而一起上高数课认识的理学院同学的名字下面就是浅紫色的,他女友的名字下面有浅红色背景,那是外语学院的院徽颜色。
这些特殊的标记,都是源自江大词库,马竞版的词库不只是单纯的根据词频排序的文本文件,其中还有简单的关系数据库的内容。像是“文琦”这个名字,就会和“男”、“能源与动力工程学院”、“核工41班”等词语发生关联,而“能源与动力工程学院”又会与“能动学院”、“能动学院院徽”、赵祺(能动学院院长)等词语发生关联。
传统的词频排序算法,只能根据词语累计输入次数与词语最近输入时间这两个数据调整候选词排序,而蜜蜂输入法引入的这些关联数据可以大大补充单纯词频排序算法的不足,使得蜜蜂输入法的输入效果更加智能更加方便。
在0。9公测版的蜜蜂输入法里面,关系排序算法就被应用到人名候选词的排序里面。
文琦试着打班上同学名字时,发现几个姓李姓刘的同学,名字也不需要翻页,在一大堆刘xx、李xx的候选词里面排名非常靠前。其原理就是蜜蜂输入法的关系排序算法,这些同学和他一个班,都和“能源与动力工程学院”、“核工41班”两个词发生关联,所以词序被大大提高,也拥有同样的背景色。
其实学生名字的背景色是经过特殊算法严重变形的院徽图片,完全看不出校徽的形状,只剩下平均色。只有安装了“蜜蜂输入法江大专用版皮肤套装。skin”文件,取得里面的校徽图标素材,输入法才会在学生和老师名字下面放置校徽色标记。当然,没有安装江大专用词库的话,输入法虽然会根据自动生成的关系数据库放置校徽色标记以及其他标记,但是出错率就要高很多了。
因为是全自动收集整理生成,并且使用了一些暴力破解密码的手段,这个词库里面其实是包含了一些江大的秘密信息的,比如校长会议的会议记录以及一些还未公布的文件的部分内容等。但是因为词库经过词频排序,那些秘密信息通常都很少在文件上出现,词频很低,并不容易被人发现,因此也没引起他人注意,马竞自己也并不知道还有这样的问题。
还要到今年暑期招生的时候,有人发现个别新生的名字可以轻松打出,并且显示样式也是本校人,不过那人并没有深究,只是将这件事作为趣事放到校园bbs上面。
这几张截图后来被有心人看到,分析认为那些被三月份过期江大词库标记为本校人的新生,应该是学校内部招生的结果,由此还引发了一次被称为“江大内部招生门”的丑闻事件。
当然,在江大校方看来,则是泄密事件,甚至一度发文禁用蜜蜂输入法,江大计算机管理中心一度还封堵了蜜蜂输入法的升级端口。
不过那时候马竞已经升级了蜜蜂输入法,对用户词库进行了整理,一些词频极低的非用户自创词被自动清理掉了。同时源自保密文件的一些内容也被删除了,封杀事件最后也就不了了之了,反倒是因为封杀事件使得蜜蜂输入法在江大校园里面知名度大增,更加流行了。