需采集的文章列表有4种情况
1.列表网址最新的在前 或最旧的在前
2.列表内,最新的文章在前 或最旧的在前
组合一下就是4种情况了。一般来说最新列表网址在前,列表内最新文章在前。
1.列表网址最新的在前 如 list-1.html , list-2.html , list-3.html , list-1.html是最新的 ,list-2.html其次
2.列表内,最新的文章在前 , 如
2-7证券分析
2-6证券分析
2-5证券分析
2-4证券分析
2-3证券分析
这种情况下,采集方会符合顺序
如果条件2改为最旧的文章在前面
那么 将每个列表页的列表倒序排列。 总的列表序列倒过来排序。
如果列表网址条件为最旧的在前 如 list-1.html是最旧的,list-3.html是最新的
但是列表内是最新的文章在前面 , 那么
需要 更改 将每个列表页的列表倒序排列。 总的列表序列不需要排序。
如果列表内是最旧的文章在前面 , 那么 , 什么都不用改。
正确的顺序是: 采集到的列表为最旧的文章,最先入库。