摘要 分析并建立BBS模型,得出增长期访问量公式,在稳定期对主贴和回帖进行研究,提出溢出门限时间的概念,并推导点击率及其他公式。
关键词 BBS;模型;访问量;溢出门限时间
随着互联网的飞速发展,通过网络进行信息交流变得越来越普及。网络交流工具有很多,BBS是其中应用很广泛的一种。BBS(Bulletin Board System)是电子公告系统的英文缩写,它采用张贴文章(主贴)、回复文章(回帖)的形式进行信息交流,使用十分方便。目前为止,从软件设计和定性管理两个角度对BBS所作研究已经很多了,但在BBS的定量研究方面的工作还比较少见。本文试图在考虑主要因素的条件下,建立有效的BBS数学模型,初步定量分析BBS各因素之间的内在联系,这对提高BBS的管理水平,增加网站的访问量以及指导BBS软件的编写工作,具有十分重要的理论和实际意义。
1. 对BBS各因素的初步分析
BBS作为一个复杂的网络交流系统,它包括各种不同权限的管理人员及其管理策略、帖子的排列规则、访问量(点击率、主贴数量、回贴数量)、帖子质量(强贴、普通贴、水贴)、浏览者构成(潜水者、写手、灌水者、捣乱分子)等诸多因素。为了简化模型,首先对单个BBS版面作出一些硬性规定:
第一,BBS版面讨论主题固定。非固定主题的BBS版面非常不稳定,其演化方向和访问量受到更多不确定因素的影响,有待进一步研究。
第二,BBS版面只对社区注册用户开放访问权。由于网络浏览的任意性,在满足固定主题条件下,非注册用户若拥有访问权,其点击率和发贴量不仅难以预测,而且无法控制,甚至会给BBS版面带来灾难性的后果以致崩溃。在此条件下,本文不加区分地使用社区注册用户和浏览者两个名词。
第三,BBS版面不受社会突发事件以及节假日的影响。这是对讨论主题的进一步规定,由此可见,以时事政治、时尚咨询、旅游休闲、娱乐八卦等为主题的BBS版面不在本文研究范围之内。
实际网络中的BBS版面基本满足第一条;对于第二条,大部分社区对非注册用户只提供浏览权,也有少部分提供发贴权;在长时间的统计条件下,为了排除非理性因素,规定第三条是必要的。下文所讨论的BBS版面都是完全符合这三条的,非特殊情况,不再另行指出。
2. BBS增长期访问量研究
一个BBS版面从建立到倒闭,大致可以分为增长期、稳定期和衰亡期三个阶段。由于点击率包含了主贴数量和回贴数量,简便起见,首先不加区分地将其作为版面访问量共同考虑。下面直接建立BBS增长期的宏观模型,计算其访问量。
一个BBS版面访问量的增长过程,实际上主要受到两个量的影响:一方面是已经访问过的浏览者,他们会反复地访问,使得访问量增加;另一方面,还没有访问过的社区注册用户存在访问的可能性,带来访问量的增加。可以看到,这个过程非常类似于人口增长,所以我选择了Verhulst的Logistic人口模型。之所以没有用Malthus模型是因为任何一个BBS版面的访问量不可能超过整个社区的访问量,不可能有比注册总人数还多的浏览者来访问,因此要加一个限制条件。
假设一个网站所有访问量为 ××,所考察的BBS版面的访问量为××× ,令×× ,×× 为在整个社区中访问量最大的BBS版面的最高访问量所占的比例上限,×× 为Verhulst人口模型中的比例系数, ××为时间,可以得到方程:
(1)
注意到初始及限制条件
(2)
得到方程的解:
(3)
解的图像
上图中 曲线有一个明显的拐点,表明其时访问量变化率达到最大,以后逐渐减缓,令
(4)
结合(2),有:
(5)
此时,访问量达到最大增长率。
3. BBS稳定期模型
在稳定期,一个BBS版面已经形成大致稳定的浏览者群体,增长速度缓慢,浏览者的构成比例也基本固定。此时,BBS版面访问量与帖子质量关系密切,有必要对帖子进行分类讨论,并且要考虑BBS版面的发贴和回帖规则。我们的BBS模型采用具有目前流行的顶贴规则和帖子溢出规则。
规则 新加入主帖和回贴称为对主贴的更新。更新将使主贴置于BBS版面顶部,其它主贴按照更新先后顺序从上到下依次排列,这种类型的BBS称为按照帖子更新时间排列。长时间未更新的主贴将不能被更新,称为帖子的溢出。
严格执行溢出规则的BBS系统很少见,但由于新主贴的不断到来和原有主贴的更新,长期未更新的主贴逐渐沉入BBS底部,实际上再得到回帖的概率很小,可以认为已经溢出。
主帖由于内容和字数的不同,所吸引的点击率和回帖因此大不相同。需要指出的是,并不按照帖子的实际内容或版主(Board Manager)对帖子加上的等级标志进行分类,那样主观性太强,缺乏可操作性;在 BBS稳定期模型中我们按照回帖间隔时间不同将主贴分为强贴、普通贴和水贴,我们假设回帖间隔时间服从负指数分布(在统计中可以看到,这样做是符合实际情况的)其分布函数分别为:
强贴: (6)
普通贴: (7)
水贴: 水贴硬性规定为没有回贴,当然也没有回贴间隔时间及其分布函数。
(6)、(7)两式中 ,×× 是由实际抽象出的两个参数,在模型中用于区分分强贴和普通贴,通常有:
(8)
××相差大约在一个数量级。需要特别注意的是,×× 的含义并非模型中实际回帖到达间隔时间的期望,而是包括了对那部分回帖不成功(主贴已经溢出)的统计。
再考虑强贴、普通贴、水贴的到达分别遵循参数为 ××、×× 、×× 的Poisson过程,新贴的置顶将造成旧贴的下滑,据此,可将溢出门限时间×× 定义为:
(9)
(9)的含义为,溢出门限时间与主贴到达速度成反比,不同种类的主贴对溢出门限时间的贡献相同,×× 是调整参数。凡是距上一更新时刻大于 而又无新跟贴的主贴将溢出,不再允许回贴。
至此,完成了非可控(没有管理人员)平稳(主贴到达速率、回帖间隔时间与时间无关)线性(不同种类的主贴到达速率、回帖间隔时间互不影响)BBS数学模型的构建。可以看到,该BBS模型是一个相当复杂的系统,下面取一种特殊情况进行具体研究。
4. 一种特殊情况的研究
考虑一个非可控平稳线性BBS模型,只有普通贴到达,遵循参数为×× 的Poisson过程,跟贴间隔时间服从参数为 ××的负指数分布,溢出门限时间×× ,现在来推导平均访问量。
设在一个门限时间×× 内,主贴到达数为 ××,则其期望为:
(10)
由于回帖间隔时间服从参数为 ××的负指数分布,主贴在一个门限时间 ××内没有回帖的概率
(11)
主贴在一个门限时间 内有且只有一个回帖的概率
(12)
主贴在溢出前恰有 次回帖的概率
(13)
则主贴回帖数 的数学期望
(14)
易知经过一段长度为×× 的时间后,一个BBS版面回帖数的数学期望为:
(15)
则平均点击率为:
(16)
其中 ××是一个根据实际统计得出的自然数,大约在20-50之间。
另外,我们还可以得出其他一些感兴趣的量。
令回帖间隔时间为 ××,当有回帖时,它的分布函数由已知应是:
(17)
则有回帖时回帖间隔时间×× 的数学期望
(18)
(18)式的实际含义是明显的,由于帖子的溢出,损失了一部分可能的回帖,回帖间隔时间要比 ××小。
还可以得到每个帖子在BBS版面中处于可回复状态(实际上是处于前几页比较容易回复的状态)的平均时间为
(19)
5.结束语
BBS模型是相当复杂的,我的工作只是一个开始,还有许多问题值得进一步研究。例如,管理者的形式化问题、BBS增长期的精确模型、不同类型主贴之间的相互影响、捣乱者对BBS的破坏力分析及其对策等等,这都是我下一步的工作。
参 考 文 献
1 J.W.Cohen.The single server queue.North-Holland Publishing Company,1982
2 同济大学数学教研室.高等数学 高等教育出版社,1996
3 姜启源.数学模型 高等教育出版社,1993
4 苏兆龙.排队论基础 成都科技大学出版社,1998
- Re: 公式资料posted on 11/17/2004
- Re: 公式资料posted on 11/17/2004
- Re: BBS的数学模型posted on 11/17/2004
BBS, Best Bull Shit? :) - Re: BBS的数学模型posted on 11/17/2004
呵呵,楼上的搞笑^_^ - Re: BBS的数学模型posted on 11/17/2004
哇
看不懂
我没什么数学天分,初中以前的除外
呵呵 - Re: BBS的数学模型posted on 11/17/2004
好!这贴子是这店里最独特--也最特毒--的一个。它毒得都没人敢碰它一下。:) - Re: BBS的数学模型posted on 11/17/2004
好, 那就一块儿玩儿吧. 跟律师谈计算机软件设计, 跟作家谈生物DNA双螺旋定理,跟诗人谈黎曼猜想, 最后和数学家谈谈芭蕾舞的足尖技巧.
对牛弹琴被证明牛是很受用的, 鸡同鸭讲呢,那也试试吧:-)
Fengzi wrote:
好!这贴子是这店里最独特--也最特毒--的一个。它毒得都没人敢碰它一下。:) - Re: BBS的数学模型posted on 11/17/2004
阿错,我把帖子转到CND了,请一些高手来跟你玩儿。
笨笨 wrote:
好, 那就一块儿玩儿吧. 跟律师谈计算机软件设计, 跟作家谈生物DNA双螺旋定理,跟诗人谈黎曼猜想, 最后和数学家谈谈芭蕾舞的足尖技巧.
对牛弹琴被证明牛是很受用的, 鸡同鸭讲呢,那也试试吧:-)
Fengzi wrote:
好!这贴子是这店里最独特--也最特毒--的一个。它毒得都没人敢碰它一下。:) - Re: 对牛弹琴牛受用?posted on 11/18/2004
更受用的恐怕还是吃了牛排的弹琴人吧?:)
笨笨 wrote:
对牛弹琴被证明牛是很受用的, - Re: BBS的数学模型posted on 11/18/2004
Comments:
The assumption of this model is fundamentally wrong because of the Poisson distribution for the Web model. - Re: BBS的数学模型posted on 11/18/2004
完全错误不等于没有意义吧:)
我只是建立这么一个模型来看看会得到哪些结论,当然只是初步工作,和实际还相差甚远,以后还可能建立别的模型 - Re: BBS的数学模型posted on 11/18/2004
好玩儿! 支持...
(11/17/05 re: fanghuzhai photo) - Re: BBS的数学模型posted on 11/18/2004
这位澹台错铁算子似乎精于统计模型。不知愿不愿玩一玩这个题目:两极化社会中民主的数学模型。如果假定古典民主社会中市民的利益可用一个连续的正态分布来近似的话,那么现代两极化的社会中平民利益的分布则呈间断、非连续的双峰型(仍可假定正态分布可用于近似任何一峰)。对于后者,是否存在一个有效的统计函数模型呢?这个函数又同正态分布有什么关系呢?两者可否及如何转换?是否存在类似于西格马的参数?两峰面积值的大小同代表函数之间的关系及意义……
不过研究结果千万不要随便公布出来。免得被CIA追杀…:) - posted on 11/18/2004
Good try. I copy a Prof.'s comments from CND for you as well in case you can see http://www.cnd.org
PS. The wrong of your model is not the arrival assumption but the service assumption.
From yedite
The Poisson arrival assumption itself is not wrong, but it should be in the context of Markovian queueing network model, and further adjusted for multiplicative effects between the nodes (websites) in the network. The model, as is presented, is too simplistic for any meaningful analysis.
- posted on 11/18/2004
大致看了一下,很多没看懂,尤其是有××和×××的地方,不知道什么意思。
可能BBS的访问量需要你同时再考虑一个量,即访问过反复几次后就不来的,这其实在你的公式1中的系数k上面应该有反应,如果这个k就是马尔萨斯系数的话,那么,在k<0的时候,BBS增长期的人口实际上是从一开始的一个固定数字之后逐渐下降的,而当其为0时,BBS上人口将不多也不少。
但Verhulst的Logistic人口模型能预报大量移民涌入的情况吗?在BBS上,这将是大量社区之外的人突然得注册进入,要知道原来的人口增长模型是根据自然繁殖来进行的,但BBS上面,我们能找到和自然繁殖有相似的注册人数增加的情形吗?
后面的我也没时间多看,先说这些疑问,做德语练习题去了,以后聊~ - posted on 11/19/2004
to末黑:电脑比数学有意思多了,我也没什么天分,自己的情况自己最清楚,闹着玩的:)
to Fengzi:谢谢,不过我可一点都不毒^_^你是黑蓝的疯人院么?你说的模型我还真感兴趣,不过那玩意儿可不能随便研究的,研究出来了也得藏着
to 笨笨:啊,我要采用什么同什么讲的态度和你说话哪,想想ing
to Cappuccino:那教授的评价很中肯,我以后会采用更一般的M/G的模型
to 七格:XXX 的地方是一些定义,第一次贴的时候贴不上去,后来也就没管他。你说得有道理,增长期的模型还是太粗枝大叶了,会想办法考虑进去。
你现在好像非常忙了,忙点也好,我还一天到晚的闲着,要是不写点这些胡说八道的东西,都快闲出病来了:( - posted on 11/19/2004
越来越好玩儿了.我收回我以前的感受:-)
我很喜欢这条线里的游戏气氛. 这里是聊天的地方,要的是灵感,IDEA,和好兴致. 不管写什么题目都是随笔,不是论文.
我遭到过这种感受:如果和不懂的人谈你的专业,你开始怕有卖弄之嫌,但用不了多一会儿就真卖弄起来,完了觉得特没劲. 和专业的人讨论他专业领域的问题呢,非常小心地还是折磨了别人一把,说得痛快了还能激怒对方. 不过现在找着了这种游戏的感觉, 就都能玩儿了:-)
风子 wrote:
这位澹台错铁算子似乎精于统计模型。不知愿不愿玩一玩这个题目:两极化社会中民主的数学模型。如果假定古典民主社会中市民的利益可用一个连续的正态分布来近似的话,那么现代两极化的社会中平民利益的分布则呈间断、非连续的双峰型(仍可假定正态分布可用于近似任何一峰)。对于后者,是否存在一个有效的统计函数模型呢?这个函数又同正态分布有什么关系呢?两者可否及如何转换?是否存在类似于西格马的参数?两峰面积值的大小同代表函数之间的关系及意义……
不过研究结果千万不要随便公布出来。免得被CIA追杀…:) - Re: BBS的数学模型posted on 11/19/2004
澹台错 wrote:
to 笨笨:啊,我要采用什么同什么讲的态度和你说话哪,想想ing
我最爱讲情话了,谁的情话我都听得懂:-))))) - Re: BBS的数学模型posted on 11/19/2004
现在我才知道了,为什么搞理工科的人不受欢迎!我自己都忘了我也学过高等数学!? - posted on 11/19/2004
For a Poisson process, it is not only meant to the hits only.
The significance of the model depends on what the people think.
………………
Indeed, Markovian queueing network models are used extentively for many applications. Any un-deterministic process(es) in real life can be modelled with it. Data traffic, communication traffic, real highway/street traffic, ferry traffic, accidents, events, etc. all can be modelled this way.
………………
That was my impression too, before I became good at it. Then I got bored, and decided to study law. Guess what? Law was even more boring. So, now I am in business management.
……………………
Internet visit models are plenty. One class is internet pricing based on visit modeling. Marginal visit pricing has been propsoed but not very successful in practice.
So NJ is doing insurance? Must be very fun!
Stochastic programming models are wdiely researched and with limited use in financial engineering. The Black-Scholes model is well recognized as a close form solution technique with stationary stochstic processes (I should mention Merton as well). In reality, it is hardly to find any stationary processes. Ito processes could be a bit more useful for some cases.
None of the stochastic models are good for finding close form solutions when fixed transaction costs are taken into consideration.
My opinion for the research is to use mixed interger programming considering non-stationary movements (mean, variance or semivariance, ...) and good forecasts for the movements are critical.
…………
Please paste HTML code and press Enter.
(c) 2010 Maya Chilam Foundation