%0 Journal Article %A 解凯 %A 李业丽 %A 马少平 %A 王欣刚 %A 叶宇姗 %A 曾庆涛 %T HTML页面中的文献记录分析算法 %D 2017 %R 10.13190/j.jbupt.2017.s.019 %J 北京邮电大学学报 %P 85-88 %V 40 %N s1 %X 为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性. %U https://journal.bupt.edu.cn/CN/10.13190/j.jbupt.2017.s.019