搜索引擎相似度前瞻与伪原创方向
目前搜索情况,相同内容的结果漫天飞,这严重影响了用户体验,所以搜索引擎对原创内容的要求会愈发苛刻。从搜索底层算法上来说,会对文本相似度的识别愈发完善。
我大胆的预测了一种简陋的评判模型,水平有限,只用浅显的描述分享。
①40亿!超八成的国民将看北京奥运会开幕式
②08北京奥运会开幕式的观众将超40亿
③08奥运电视观众人数将创40亿新高了
原创度
一。依存对相似程度
①看_开幕式 北京_奥运会 奥运会_开幕式
②08_奥运会 北京_奥运会 奥运会_开幕式 电视_观众
③08_奥运 奥运_收视率 创_新高
二。关键词语义相似程度
1文章摘句:去掉停用词“的”“了”
结果得到:
①40亿超八成国民将看北京奥运会开幕式——记者成星
②08北京奥运会开幕式电视观众数将超40亿——记者成星
③08奥运收视率将创40亿新高——记者成星
2关键词特征:去掉最热最冷关键词然后进行相似对比。这个道理有些类似比赛中去掉一个最高分,去掉一个最低分。
①40亿超八成国民将看北京奥运会开幕式
最热 北京 奥运会 开幕式
最冷:成星
②08北京奥运会开幕式电视观众数将超40亿
最热 08 北京 奥运会 开幕式 观众
最冷:成星
③08奥运收视率将创40亿新高
最热 08 奥运
最冷:成星
结果得到:
①40亿超八成国民将看——记者
②电视观众数将超40亿——记者
③收视率将创40亿新高——记者
3分词:将句子合理划分成词
结果得到:
①40|亿 |超| 八成| 国民 |将| 看——记者
②电视 |观众| 数| 将| 超|40| 亿——记者
③收视率| 将 |创| 40 |亿 |新高——记者
4语义距离:根据近义词词典将相同意思的词进行识别,比如电视观众数=收视率 超=创
结果得到:
①40|亿|超|八成|国民|将|看——记者
②收视率|将|超|40|亿——记者
③收视率|将|超|40|亿|新高——记者
最后综合依存对相似程度和关键词语义相似程度来决定此文原创度。给与不同权重。
通过以上我们发现②同①有很高的依存对相似程度,②同③有很高的关键词语义相似程度
分析到此完毕,至于如何伪原创仁者见仁。
总结:通过seo伪原创技术的发展方向可以看出传统seo的队伍愈发不好带了,seoer必须接触更多的东西,更深层的东西,更前瞻的东西,在互联网中他必须胜任任何角色。。