SoftSec Lab 博弈论及应用 更新时间:2023.12.12 21:00 课程QQ群:263582419

课后作业    习题作业模板下载 ⇑⇑
  1. 简答(4p)
    什么是博弈论?
  2. 简答(4p)
    博弈论的主要研究内容是什么?
  3. 简答(6p)
    博弈模型中有哪些要素?
  4. 简答(12p)
    博弈问题有哪些分类方法?
  5. 论述(8p)
    博弈论与游戏有什么关系?
  6. 论述(6p)
    博弈论的发展前景如何?
  7. 分析(8p)
    举一个你在现实中遇到的囚徒困境的例子,并做简要分析。
  8. 分析(20p)
    北方航空公司和新华航空公司分享了从北京到南方冬天度假胜地的市场。 如果它们合作,可各获得500,000元的垄断利润,而不受限制的竞争会使每一方的利润降至60,000元。 如果一方在价格决策方面选择合作而另一方却选择降低价格,则合作的厂商获利将为零,竞争厂商将获利900,000元。 将这一市场用标准式博弈加以表示。
  9. 分析(30p)
    一天早晨,黑先生、灰先生和白先生决定,通过用手枪进行三人决斗直到只剩下一个人活着为止来解决他们之间的冲突。 黑先生枪法最差,平均3次只有1次击中目标; 灰先生稍好一些,平均3次中有2次击中目标; 白先生枪法最好,每次都能击中目标。 为了使决斗比较公平,他们让黑先生第一个开枪,然后是灰先生(如果他还活着),再接着是白先生(如果他还活着)。 请问:黑先生应该首先向哪个目标开枪?
  10. 分析(15p)
    升级“剪刀石头布”游戏:如果是“布”赢就得5分;如果是“剪刀”赢就得2分;如果是“石头”赢就得1分。 如果采取只要有人胜出就停止游戏的规则,那么你将如何出拳?
  11. 分析(20p)
    请将“田忌赛马”的博弈过程用策略式(博弈矩阵)和扩展式(博弈树)分别进行表示,并用文字分别详细表述。
  12. 分析(20p)
    “扑克牌对色”游戏表述为:甲、乙二人各出一张扑克牌。翻开以后,如果二人出牌的颜色一样,甲输给乙一支铅笔; 如果二人出牌的颜色不一样,乙输给甲一支铅笔。试将上述游戏形式化表达为一个博弈。 升级游戏规则:甲、乙二人各出一张扑克牌。翻开以后,如果二人出牌的颜色一样,公证人奖励双方各一支铅笔; 如果二人出牌的颜色不一样,公证人不给予任何奖励。试将该升级后的游戏形式化表达为一个博弈。
  13. 分析(15p)
    “三门问题”也称为“蒙提菲尔问题”,出自美国的电视游戏节目《Let's Make a Deal》。 参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车。 选中这扇门可赢得一辆汽车,另外两扇门后面则各藏有一只山羊。 当参赛者选定一扇门但尚未开启的时候,节目主持人打开剩下两扇门中的其中一扇,露出其中一只山羊。 注意,主持人清楚地知道,哪扇门后是山羊。主持人其后会问参赛者要不要改选另一扇仍然关着的门。 请问,换另一扇门能否增加参赛者赢得汽车的概率?请利用单人博弈模型给出简要的分析。
  14. 计算(6p)
    考虑三个参与者参加的一个策略式博弈。三个参与者的策略集相同,均为{x = 1/3, y = 1/2, z = 2/3}。 他们的支付函数分别为:
    u1(x, y, z) = x + y - z
    u2(x, y, z) = x - yz
    u3(x, y, z) = xy - z
    问他们的博弈支付分别为多少?
  15. 分析(25p)
    你正在考虑是否投资100万元开一家饭店。假设情况是这样的: 你决定开,则有0.35的概率将收益300万元(包括投资),而0.65概率将全部亏损; 如不开,则保住本钱但也没有盈利。请你 (1) 分别用策略式(支付矩阵)和扩展式(博弈树)表示该博弈; (2) 如果你是风险中性的,你会怎样选择? (3) 如果你是风险规避的,且期望得益的折算系数为0.9,你的选择是什么? (4) 如果你是风险偏好的,且期望得益的折算系数为1.2,你的选择又是什么?
  16. 分析(15p)
    一逃犯从关押的监狱逃出,一看守奉命追捕。 如果逃犯逃跑有两条可选择路线,看守只要追捕方向正确就一定能抓住逃犯。 逃犯逃脱可少坐10年牢,但一旦被抓住则要加刑10年;看守抓住逃犯可得1000元奖金。 请分别用策略式(支付矩阵)和扩展式(博弈树)表示该博弈,并作简单分析。
  17. 计算(10p)
    以下支付矩阵表述两个参与者之间的一个静态博弈。该博弈中是否存在纯策略纳什均衡?是否存在混合策略纳什均衡?
    assignment_17
  18. 文献(30p)
    在价格战与反价格战的商业对抗中,讲究“竞中有合,合中有竞”,即“竞合策略”。 请查阅文献资料,调查竞合策略的相关案例(如可口可乐与百事可乐的竞争,麦当劳与肯德基的竞争等)并加以分析说明。
  19. 简答(6p)
    学习博弈论需要掌握哪些思维方式?
  20. 简答(5p)
    简述“上策均衡法”的基本原理,优点和弊端。
  21. 简答(5p)
    简述“严格下策反复消去法”的基本原理,优点和弊端。
  22. 简答(5p)
    试比较“画线法”和“箭头法”的特点。
  23. 论述(30p)
    有人说智猪博弈的结果体现了“能者多劳”,你赞成这种看法吗? 你认为实际生活中“能者多劳”是一种合理的要求吗? 假如你是饲养者,你当然希望饲料能够被合理分配,你会如何改变现状(通过设计规则),激励大猪和小猪都去踩踏板呢?
  24. 分析(20p)
    根据以下抽象的得益矩阵,试分析:
    (1) 有没有纯策略纳什均衡?如有请列出。
    (2) 有没有帕累托上策均衡?如有请列出。
    (3) 有没有风险上策均衡?如有请列出。
    (4) 若存在风险上策均衡,则偏离帕累托上策均衡的概率是多少?据此判断,参与者有没有可能达成效率较高的均衡?
    assignment_24
  25. 判断(6p)
    (1) 一个在帕累托效率意义上占优的策略组合一定是纳什均衡吗?
    (2) 一个风险上策均衡一定是纳什均衡吗?
    (3) 风险上策均衡是稳定(即具有可预测一致性)的均衡吗?
  26. 简答(10p)
    多重纳什均衡是否会影响纳什均衡的预测一致性?它对博弈分析有什么不利影响?
  27. 论述(20p)
    为什么说纳什均衡是博弈分析中最重要的概念?
  28. 计算(15p)
    在下图所示的策略式博弈中,用严格下策反复消去法找出占优均衡,写出或画出每一步消去的过程。
    assignment_28
  29. 计算(30p)
    在下图所示的策略式博弈中,哪些策略不会被严格下策反复消去法剔除?纯策略纳什均衡是什么?是否存在混合策略纳什均衡?若存在,请解出。
    assignment_29
  30. 分析(20p)
    甲、乙两家企业分属于两个国家,在开发某种新产品方面有如下得益矩阵表示的博弈关系。试求出该博弈的所有纳什均衡。 如果乙企业所在国家的政府想保护本国企业的利益,可以采取什么措施?
    assignment_30
  31. 计算(20p)
    爱丽丝和鲍勃玩数字匹配游戏,每个人选择1,2,3,如果数字相同,鲍勃给爱丽丝3块钱,如果不同,爱丽丝给鲍勃1块钱。
    (1) 列出得益矩阵;
    (2) 如果参与者以1/3的概率选择每一个数字,请证明该混合策略下存在一个纳什均衡,并写出它。
  32. 分析(20p)
    企业甲和企业乙都是彩电制造商,它们都可以选择生产低档产品和高档产品。但两家企业选择时都不知道对方的选择。 假设两家企业在不同选择下的利润如下图的得益矩阵所示,问:
    (1) 该博弈有没有上策均衡?
    (2) 该博弈的纳什均衡是什么?
    assignment_32
  33. 分析(15p)
    两个人就如何分配1元钱进行谈判,双方同时提出各自希望得到的份额,分别为S1和S2, 且0≤S1, S2≤1。若S1+S2≤1,则两个人分别得到他们所要的一份; 如果S1+S2>1,则两个人均一无所获。请求出此博弈的纯策略纳什均衡。
  34. 计算(15p)
    两个朋友在一起划拳喝酒,每个人有4个纯策略:杠子、老虎、鸡和虫子。 输赢规则是:杠子降老虎,老虎降鸡,鸡降虫子,虫子降杠子。两个人同时出令,如果一方打败另一方,赢者的得益为1,输者的得益为-1,否则得益为0. 请给出以上博弈的策略式描述并求出所有的纳什均衡。
  35. 简答(10p)
    动态博弈分析中为什么要引进子博弈完美纳什均衡?它与纳什均衡是什么关系?
  36. 简答(10p)
    参与者的理性问题对动态博弈分析的影响是否比对静态博弈分析的影响更大?为什么?
  37. 简答(10p)
    逆向归纳法的原理和优点分别是什么?
  38. 计算(30p)
    在一个由三寡头操纵的垄断市场中,逆需求函数(产量和价格相互决定的函数)为p=a-q1-q2-q3, 这里qi是企业i的产量。每一企业生产的单位成本为常数c。三家企业决定各自产量的顺序如下:
    (1)企业1首先选择q1≥0;
    (2)企业2和企业3观察到q1,然后同时分别选择q2和q3
    试解出该博弈的子博弈完美纳什均衡。
  39. 分析(20p)
    设一个四阶段两参与者之间的动态博弈如下图所示。试完成:
    (1)找出全部子博弈;
    (2)讨论该博弈中的策略可信性;
    (3)求出子博弈完美纳什均衡;
    (4)写出均衡解下博弈的结果。
    assignment_39
  40. 分析(15p)
    一对情侣商议在家读书还是去听音乐会。男生首先决定是在家读书还是去听音乐会,如果选择读书,博弈结束,两人的得益均为2;如果去听音乐会,那么男生向女生发出邀请, 并且两人同时决定是去听古典音乐还是去听流行音乐。如果一起去听古典音乐,则男生和女生的得益分别为3和1;如果一起去听流行音乐, 则男生和女生的得益分别为1和3;如果两人意见不一致,那么得益均为0。试求解该博弈的子博弈完美纳什均衡。
  41. 计算(20p)
    在塔斯克博格模型中,我们发现先决定产量的厂商1具有“先行优势”。实际上,如果两个厂商决策的不是产量,而是价格,我们得到的就不再是“先行优势”,而是“后动优势”了。 假设厂商1先决定自己的价格,厂商2后决定自己的价格。
    厂商1的得益函数是:
    u1 = - (p1 - ap2 + c)2 + p2
    厂商2的得益函数是:
    u2 = - (p2 - b)2 + p1
    其中p1和p2分别是厂商1和厂商2的价格。试求:
    (1)该博弈的子博弈完美纳什均衡。
    (2)是否存在某些参数值(a,b,c)使得每一个厂商都希望自己先决策?
  42. 分析(15p)
    乙向甲索要1000元,并且威胁甲如果不给就与他同归于尽。当然,甲不一定会相信乙的威胁。 请用扩展式表示该博弈,并找出其子博弈完美纳什均衡。
  43. 简答(3p)
    动态博弈要解决的核心问题是什么?
  44. 简答(3p)
    求解动态博弈均衡的最基本方法是什么?
  45. 简答(16p)
    完美贝叶斯均衡需要满足哪些要求?
  46. 分析(20p)
    假设你正打算收购一家公司的1万股份,卖方开价是2元/股。根据经营情况的好坏,该公司的股值对你来说有1元/股和5元/股两种可能, 但只有卖方知道经营情况的好坏,你所知的只是好与坏各占50%的可能性。如果公司经营情况不好,卖方会大力包装公司的业绩,以使你无法识别真实情况, 但卖方会因此花费包装费用5万元,问你是否会接受卖方的价格来买下这1万股?如果上述包装费用只有5000元,你会怎样选择?请用博弈分析方法作答。
  47. 简答(12p)
    海萨尼转换的具体步骤是什么?
  48. 简答(10p)
    简述静态贝叶斯博弈的定义。
  49. 简答(10p)
    简述静态贝叶斯纳什均衡的定义。
  50. 计算(12p)
    请使用严格下策反复消去法求解以下博弈型中的纳什均衡。(要求画出每一步消去过程)
    assignment_01
  51. 计算(20p)
    请使用箭头法求解以下博弈型中的纳什均衡。(要求标出所有起点和每个箭头的走向)
    assignment_02
  52. 计算(30p)
    请根据以下博弈矩阵,计算“剪刀、石头、布”游戏中的混合策略纳什均衡。
    assignment_03

团队课题    课题标书模板下载 ⇑⇑

  1. 一个工人给一个老板干活儿,工资标准是100元。 工人如果选择偷懒,老板则可以选择克扣工资。 假设工人偷懒有相当于50元的负效用,老板想克扣工资则总有借口扣掉60元, 工人不偷懒老板有150元产出,而工人偷懒时老板只有80元产出, 但老板在支付工资之前无法知道实际产出,这些情况是双方都知道的。请问:
    (1)如果老板完全能够看出工人是否偷懒,博弈属于哪种类型?用策略式或扩展式表示该博弈并做简单分析。
    (2)如果老板无法看出工人是否偷懒,博弈属于哪种类型?用策略式或扩展式表示该博弈并做简单分析。

  2. 爸爸给了小明和小华两人共100元钱,由小明提出一种分配方案,如果小华同意,则两人就按照小明的方案进行分配; 如果小华不同意,则还给爸爸,两人一分钱也得不到。如果两人都是完全理性的。
    (1)如果你是小明,你会采取什么策略?如果你是小华,你会采取什么策略?
    (2)如果小华不同意小明的分配方案,则所分金额减半,并由小华提出一种分配方案;如果小明同意,则两人就按照小华的方案进行分配; 如果小明不同意,则再将所分金额减半并由小明提出一种分配方案,以此类推。小明和小华各采取什么策略?

  3. 春秋末期的“晋阳之战”呈现了多人联盟博弈的经典案例。请阅读以下史料,以存在联盟的博弈为背景编排博弈题目,并通过建立博弈模型对该案例进行简要的形式化分析。
    在周朝和春秋早期,各诸侯国通常都将公室子孙分封为大夫,以血缘关系作为公室的屏卫。及至晋献公,由于宠爱骊姬而破除了先例,遂杀诸公子。 从此晋国的公室贵族逐渐为外姓“权臣”所取代。从晋文公开始,后经历代演变,到春秋末期,晋国只剩下智、赵、韩、魏四家,其中以智氏最强。
    智氏之主智伯在朝专政,假借想晋公献地进行“削藩”。韩康子、魏桓子惧其以武力相加,被迫各送一万户之邑。 在向赵襄子索地遭拒后,智伯胁迫韩、魏两家出兵攻打赵氏。智伯围困晋阳两年而不能下,引晋水淹灌晋阳城。 危急中,赵襄子派张孟谈说服韩、魏两家倒戈,放水倒灌智伯军营。遂大破智伯军,擒杀智伯。晋阳之战为日后“三家分晋”奠定了基础。

  4. callforsubject_4
    上图所示为数量众多的共享单车。
    几乎每一个新入场的共享单车品牌,都会选择先把单车投放到CBD(中央商务区)地区。除了人流量大、潜在用户多的因素外,CBD还是一个没有资金门槛的广告场地。 随着共享单车公司竞争加剧,越来越多的共享单车被投放到城市里的人流密集地——地铁口、各大商圈、写字楼、公交站和大型小区附近。
    然而,共享单车都面临着一个难题——想赚钱很难。 共享单车行业最流行的盈亏计算公式是:一辆单车平均每天被使用3次,一年有300天可能被使用,年收入就是900元。 900元也是行业平均单车成本线,如果再加上20%左右的运营成本,肯定没法盈利。
    在国外,很多共享单车的收费标准是半小时5美元,所以很多国外共享单车公司靠骑行费就能轻松盈利。 但国内共享单车的价格基本都是半小时5毛或1元,这个定价跟公交车差不多,而公交公司主要是靠政府补贴维持生存的。 对于共享单车来说,如果不能拿到融资,基本很快就会被市场清洗出局。
    有的公司为了减少这种损失,选择避免大规模投放单车,而有些公司仍然在参与混战。 既然这些公司都能认识到问题的根源,就应该都提高价格。他们为什么舍近求远,而不选择统一价格呢?
    为简单起见,假设市场上有两家单车品牌公司:清风和致远。两家公司推出类似的单车运营服务,且共同垄断着同一市场。 为了获得更大的市场份额,两家公司需要各自决定采用高价(如5元)还是低价(如1元)的运营策略。
    (1)如果两家公司都选择低价,公司的运营收入为每年900元/辆。公司不但不盈利,反而可能亏损。
    (2)如果两家公司都选择高价,公司的运营收入为每年1200元/辆。这样两家公司都稍有盈利。
    (3)如果只有一方提高价格,则该方将会更惨淡,如假设清风提高了价格,致远不变,则他们的收入分别为(600, 1500)。
    请绘制博弈矩阵,并详细分析上述博弈案例,找出其中的均衡。为达到找出的均衡,请你给出自己的解决方案。

  5. 假如你正在参加博弈论课程的结课考试,考场中一共有50名考生,你已顺利答完前面累计分值为100分的题目,你现在读到的是附加题:
    “给你一个机会,你可以选择从你的卷面成绩中,贡献出至多5分。你贡献的分数在翻两倍之后,会被平分给考场中参加考试的所有考生。
    (举个例子,假如批改试卷后得知你的卷面成绩为90分,所有人都选择贡献5分,每个5分翻倍变成10分,总计500分,平分给50个人,每人10分。
    那么现在你的卷面成绩将是90-5+10=95分。)请通过博弈分析,写出你愿意贡献出的分数。

  6. 设一个地区选民的观点标准分布于[0,1]上,竞选一个公职的每个候选人同时宣布他们的竞选立场,即选择0到1之间的一个点。 选民将观察候选人的立场,然后将选票投给立场与自己的观点最接近的候选人。 例如,有两个候选人,宣布的立场分别为X1=0.4和X2=0.8,那么观点在X=0.6左边的所有选民都会投候选人1的票, 而观点在X=0.6右边的选民都会投候选人2的票,候选人1将以60%的选票获胜。 再设如果有候选人的立场相同,那么立场相同的候选人将平分该立场所获得的选票,得票领先的候选人票数相同时则用抛硬币决定哪个候选人当选。 我们假设候选人唯一关心的只是当选(不考虑自己对观点的真正偏好)。如果有两个候选人,问纯策略纳什均衡是什么?如果有三个候选人,也请找出至少一个纳什均衡。

  7. 两个厂商生产一种完全同质的商品,该商品的市场需求函数为Q=100-P,设厂商1和厂商2都没有固定成本(即只有边际成本)。 若它们在相互知道对方边际成本的情况下,同时做出的产量决策是分别生产20单位和30单位。 问这两个厂商的边际成本分别为多少?各自的利润是多少?

  8. 小区业主和物业之间总是存在各种矛盾,尤其是物业收取物业费时,业主往往因为感受不到物业的服务效果而不愿主动缴纳。 而物业也有自己的办法,比如给电梯安装梯控卡,一方面提高小区的安全性(增加盗窃的难度),另一方面可以借此收取物业费(不交物业费,不发给梯控卡)。 假设现有一个小区,物业费为3千元,物业已经在电梯里安装了梯控装置,启用成本为1千元。 物业和业主都知道11月30日是交物业费的时间。当物业催缴物业费时,会花费沟通成本1千元,而业主如果抵触,也会花费同样的成本。 若物业到时间时,不催缴物业费,则他和业主都可省去沟通成本。 业主不知道梯控装置是否已启用,而物业将随机决定其是否启用,一旦启用,没交物业费的业主只能徒步爬楼回家(不考虑楼层高低的区别)。 没有梯控卡会给业主生活带来不便,相当于损失3千元,业主交了物业费就可以获得梯控卡。 启用梯控装置可以提升安全性,相当于业主增加1千元的价值,否则将减少1千元的价值。 由“自然”来决定是否启用梯控装置,物业的策略为催缴和不催缴,业主的策略为交纳和不缴纳。 以下是不同情况下物业和业主的得益:
    callforsubject_8
    当物业启用梯控装置并催缴物业费时,如果业主交纳,则物业获得3千元物业费,扣除1千元启用成本和1千元沟通成本,获益1千元;而业主获得1千元的安全收益。
    当物业启用梯控装置并催缴物业费时,如果业主不交纳,则物业花掉1千元启用成本、1千元沟通成本,损失2千元;而业主省下3千元物业费、获得1千元安全收益,花掉1千元沟通成本,损失3千元便利,总得益为0。
    当物业启用梯控装置但不催缴物业费时,如果业主交纳,则物业获得3千元物业费,扣除1千元启用成本,获益2千元;而业主获得1千元的安全收益。
    当物业启用梯控装置但不催缴物业费时,如果业主不交纳,则物业花掉1千元启用成本;而业主省下3千元物业费、获得1千元安全收益,损失3千元便利,总得益为1。
    当物业不启用梯控装置但催缴物业费时,如果业主交纳,则物业获得3千元物业费,扣除1千元沟通成本,获益2千元;而业主损失1千元的安全性。
    当物业不启用梯控装置但催缴物业费时,如果业主不交纳,则物业花费1千元沟通;而业主省下3千元物业费,花费1千元沟通成本,损失1千元安全性。
    当物业不启用梯控装置且不催缴物业费时,如果业主交纳,则物业获得3千元物业费;而业主损失1千元的安全性。
    当物业不启用梯控装置且不催缴物业费时,如果业主不交纳,则物业不赔不赚;而业主省下3千元物业费,损失1千元安全性。
    请运用完全但不完美信息博弈的模型构建方法和完美贝叶斯均衡求解方法来解决以下问题:
    (1)画出博弈模型(扩展式表示);
    (2)计算该博弈的完美贝叶斯均衡解,求出均衡路径和对应的信念(业主对于物业可能采取策略的信念,即后验概率)。

  9. 1939年,美国耶鲁大学心理学家奥威尔·霍巴特·莫雷尔(Orval Hobart Mowrer)主导了一项用于研究恐惧和焦虑心理的动物实验。 然而,在仅仅4天实验之后,莫雷尔就惊奇地发现了“老鼠阶级”的产生,如图1所示。
    莫雷尔的结论
    实验过程是这样的,实验人员选择了三只健康的老鼠,分别在背上标注1、2、3号,并准备了一个方形的老鼠箱,如图2所示。
    老鼠箱
    首先,让老鼠了解获得食物的方法。在老鼠箱的一端放置了一个拉杆,而在另一端则放置了一个食槽,当老鼠拉动拉杆时,会有一粒鼠粮掉落到食槽中。 经过若干次训练,老鼠都学会了获得食物的方法,如图3所示。
    训练获取食物的方法
    然后,实验开始了。莫雷尔把三只老鼠都放入了老鼠箱。 第一天,三只老鼠都拼命地去触动拉杆,然后跑到箱子的另一侧去寻找鼠粮,但是每次拉动拉杆只会随机性地掉落1粒鼠粮,90分钟后,第一天实验结束,如图4所示。
    第一天实验
    第二天,三只老鼠都非常饥饿,已进入老鼠箱,它们就拼命地去触动拉杆,但是鼠粮仍然非常少,90分钟后,第二天实验结束。 第三天,快要饿扁的老鼠们怒气冲冲,也不再友善,开始出现攻击拉杆的行为。 这时,莫雷尔调整了拉杆,变成每次触动拉杆,都会有1粒鼠粮掉落。 3号老鼠首先发现了这个变化,于是它开始努力工作,但是每次跑到食槽边时只能得到最少的食物,因为另外两只老鼠就在食槽边上,一发现食物就马上吃掉了。 3号辛苦很久,却仍然饥肠辘辘,而1号和2号却吃的饱饱的。至此,第三天实验结束。 实验进入第四天,饿的不行的3号老鼠已进入老鼠箱就开始一遍一遍地触动拉杆,而1号和2号老鼠却悠然自得的待在食槽边上,等着鼠粮的掉落。 3号的劳动果实不断被1号和2号吃掉,但是3号为了生存,只得继续奋力工作。 90分钟实验后,莫雷尔做出了统计,在第四天的实验里,3号共触动了拉杆1156次,而1号和2号一共才触动了3次,这是压倒性的工作量。 至此,3号老鼠彻底变成了一个劳动者,而1号和2号老鼠则变成了不劳而获的寄生虫。 仅仅在四天之后,莫雷尔就观察到了“老鼠阶级”的产生。
    是什么原因导致了这种分化的产生呢?关键在于第三天实验,如图5所示。
    关键的第三天实验
    当3号老鼠有一次触动拉杆时,恰好另外两只老鼠就在食槽边上。原来,老鼠阶级的产生与老鼠本身无关,只与老鼠所在的位置有关。 这与人类社会有些相似,很多人莫名其妙就发财了、成功了,但是他们不知道自己为什么成功,所以就把这种成功归结为“命”。 这里暗示的是,人的命运不同只是因为每个人所处的位置不一样罢了。然而,莫雷尔的实验真的揭示了这个道理吗?不一定。
    时间回溯到1883年,哲学家弗里德李希·尼采(Friedrich Nietzsche)在其著作《查拉图斯特拉如是说》中阐述了“超人”的存在。 所谓超人,是一种超越人,其特点是超越现有的道德体系,并创造新的价值。 超人不只是为自己创造价值的人,更是为社会和文化创造新价值的人,是为人类指引方向的人。 回到莫雷尔的实验,他把拉杆和食槽设置在箱子的两头,这是一种低效率的生产方式。 真正的变化仍然出现在第三天的实验里,3号老鼠有了一个重大的发现,它发现拉杆可以连续拉,而食物可以不断掉落下来。 这是一个突破性的发现,其意义相当于人类社会里,瓦特改良了蒸汽机,成倍提高了生产效率。 而到了第四天,3号拼命触动拉杆1156次,掉落了大量的鼠粮。结果是3号在喂饱了1号和2号之后,还有大量剩余鼠粮,3号自己也吃饱了。 在实验最后,莫雷尔写道,“三只老鼠都去喝水了”,这证明它们都吃到了足够的食物。3号老鼠不是一般的老鼠,它在一个偶然的条件下变成了超越鼠。 就像尼采所说的“超人”,并不是无所不能、金刚不坏的Superman,而是勇于自我超越,带动社会前进的人。尼采的“超人”是对人类未来世界的最高期许。 某种程度上,我们的世界是“超人”带动的世界,1543年哥白尼提出日心说、1687年牛顿阐述了三大运动定律和万有引力定律、 1859年达尔文提出了进化论、1860年麦克斯韦提出电磁理论、1905年爱因斯坦发表了狭义相对论、1953年沃尔森和克里克发现了DNA双螺旋结构……。 如果没有这些超越人的存在,我们现在仍然可能处在未曾启蒙的黑暗时代!
    请参考“智猪博弈”,以上述实验为背景,建立恰当博弈模型,来解释“老鼠阶级”实验的各种现象,并通过设计计算机智能体来模拟该实验的过程, 观察并解释动物实验与模拟实验结果上的差别。

实验项目     实验报告模板下载(docx) ⇑⇑
  1. 实验项目
    酒吧博弈模拟
    实验目的
    学习用计算机模拟博弈问题。
    实验要求
    1. 编程实现对酒吧博弈的模拟。
    2. 小镇居民的决策行为通过编写随机函数或实现简单的智能体来模拟。
    3. 输出图表,展示模拟效果(一年内去酒吧人数,居民的平均幸福度等)。
    4. 分析结果,得出结论。
    5. 撰写设计说明书(包括程序的设计细节)写入实验报告。
    6. 将程序运行效果截图,粘贴到实验报告中。
  2. 实验项目
    博弈矩阵分析器
    实验目的
    学习用计算机程序实现博弈模型。
    实验要求
    1. 编程实现一个策略式博弈模型的分析器,以博弈矩阵作为主要分析工具。
    2. 输入任意策略式博弈的博弈要素,分析器能够自动生成博弈矩阵,并图形化显示。
    3. 分析器能够根据生成的博弈矩阵,列出每个博弈参与者(局中人)的策略集。
    4. 分析器能够根据每个博弈参与者的策略集,生成所有策略组合。
    5. 分析器能够根据生成的策略组合,得出所有可能的均衡。
    6. 撰写设计说明书(包括程序的设计细节和分析器的操作说明)写入实验报告。
    7. 将分析器各功能的运行效果截图,粘贴到实验报告中。
  3. 实验项目
    博弈树分析器
    实验目的
    学习用计算机程序实现博弈模型。
    实验要求
    1. 编程实现一个扩展式博弈模型的分析器,以博弈树作为主要分析工具。
    2. 输入任意扩展式博弈的博弈要素,分析器能够自动生成博弈树,并图形化显示。
    3. 分析器能够根据生成的博弈树,列出每个博弈参与者(局中人)的策略集。
    4. 分析器能够根据每个博弈参与者的策略集,生成所有策略组合。
    5. 分析器能够根据生成的策略组合,找出所有可能的均衡。
    6. 撰写设计说明书(包括程序的设计细节和分析器的操作说明)写入实验报告。
    7. 将分析器各功能的运行效果截图,粘贴到实验报告中。
  4. 实验项目
    博弈智能体设计
    实验目的
    结合人工智能算法和博弈原理。
    实验要求
    1. 编程实现一个智能体(Intelligent Agent),由输入、输出、处理和存储四个构件组成。
    2. 该智能体应具有作为博弈参与人的能力(最初可能是有限理性的)。
    3. 智能体的输入构件可以接收博弈场景的相关信息(如三要素,博弈规则,结束条件等)。
    4. 智能体的输出构件可以针对其他参与人的选择或按照博弈规则给出反应(行动/策略的选择)。
    5. 智能体的处理构件可以根据博弈规则和输出要求,对输入数据进行处理(根据需要选择并实现简单的AI算法)。
    6. 智能体的存储构件可以记录每次博弈的经过和数据,用于智能体进行离线学习(可自行实现训练算法);同时也需要记录智能体(分类器)的参数,或者一些IF-THEN规则等。
    7. 智能体应是可实例化的,即对于两人或多人博弈类型,博弈的每一个参与方都应当是你所编写的智能体的一个实例。 即,智能体相当于面向对象程序设计中的“类”,智能体的实例相当于“对象”。
    8. 准备一些博弈场景数据(类似“智猪博弈”),“喂给”智能体,让智能体通过重复博弈,能够从最初的有限理性,逐渐接近理性选择,并最终在统计数据上接近这些博弈的均衡。
    9. 注意,智能体在某一博弈场景中变得“智能”,并不能保证输入新的博弈场景后,仍能够保持“智能”, 即,对每一个博弈场景,它都需要经过反复博弈进行训练,以便逐渐调出一组针对该场景的自动优化的参数。就像“智猪”一样,如果不是踏板求食的博弈场景,就需要重新学习。
    10. 撰写设计说明书(包括程序的设计细节和操作说明)写入实验报告。
    11. 将智能体的详细运行效果截图,粘贴到实验报告中。
    提示
    还记得“智猪博弈”中,大猪和小猪是怎样变“聪明”的吗?你所设计的智能体能否具备这样的“智能”,并通过反复参与博弈,最终接近理论上的均衡?!
  5. 实验项目
    核酸检测博弈模型的设计及验证
    实验目的
    掌握分析具体博弈场景,设计博弈模型,并验证模型正确性的方法
    实验背景
    近年来,新冠疫情在全球肆虐,而我国的防疫策略很好地控制了病毒的大范围传播,保障了人民的身体健康。 在防疫常态化的今天,每个社区都会定期开展核酸检测。不过,检测人员(昵称“大白”)和待检居民偶尔也会因为时间效率上的预期不一致, 再加上工作压力而发生小争执。这是一个大白与居民间的博弈问题,让我们建立模型来找到一个双方都满意的均衡策略组合。
    该博弈的建模应满足以下假定:
    (1)某小区共有居民d人,以及核酸检测点1个(假设只有一个核酸检测窗口)。该小区每次核酸检测均需要全员参加。
    (2)每天核酸检测的时间是6点-10点。大白和居民可以在这个时间段内分别任意选择开始检测时间和到场检测时间(按最早到场时间算)。
    (3)给每位居民检测核酸的速度相等,均为4/d(即四个小时正好完成)。
    (4)当大白开始检测时间早于居民到场检测时间时,大白会由于正式检测前的等待和超过10点后的加班而感到心情差;而部分居民也会因为排队时间过长而感到不开心。
    (5)当居民到场检测时间早于大白开始检测时间时,居民会由于正式检测前的等待和排队时间长而感到不满;而大白则只会为10点后的加班而郁闷。
    若将大白和居民(全体居民)看做博弈参与者,将开始检测时间和(最早)到场检测时间作为双方的策略,将双方的愉悦程度作为各自的得益, 那么上述博弈可以看做是连续得益无限策略的类型。请仿照古诺模型和伯川德模型的设计理念,认真体会参与者的心理,并分析双方的博弈条件,设计出新的博弈模型来描述上述博弈问题。 然后编写计算机程序,用两个智能体(能够通过修正参数来改变策略选择)来模拟大白和居民,收集每次博弈的数据,并通过分析这些数据来验证所设计模型的正确性。
    实验要求
    1. 分析博弈问题,设计博弈模型,并用数学符号和概念形式化表示博弈模型(仿照古诺模型和伯川德模型)。
    2. 通过理论计算,得出所设计博弈模型下的纳什均衡。
    3. 分析该纳什均衡达到的条件,以及能够达到均衡的原因。回答:是否存在其他帕累托效率意义上的上策?为什么没能在该策略组合上达成均衡?
    4. 编写计算机程序,实现两个能够给出策略选择的智能体(对象)来模拟大白和居民的策略选择。
    5. 智能体输入参数的值可以根据上一次博弈的结果进行修正,进而给出新的策略选择,以此模拟博弈参与者根据经验变换策略选择的效果。
    6. 收集并存储每次博弈的过程和结果数据(博弈次数根据需要设定,通常一个收敛的博弈模型,博弈次数越多,实验效果越精细)。
    7. 将博弈的结果数据进行整理,并绘制为折线图(或其他用于数值比较的图表),进而分析双方的博弈结果是否符合所设计模型理论上的均衡。
    8. 撰写设计说明书(包括模型的设计细节、程序的设计细节和操作说明等)写入实验报告。
    9. 将验证实验的详细运行效果截图,粘贴到实验报告中。
    10. 将验证实验的结果折线图,粘贴到实验报告中,用来证明博弈模型的正确性。
    11. 注意:博弈模型不是唯一的,每位同学的设计应当完全不同,若雷同则不能获得成绩。此外,博弈模型不要求100%正确,其正确性高低仅作为实验考核的一个指标。
  6. 实验项目
    古诺模型或伯川德模型的验证
    实验目的
    通过计算机程序和数据分析来验证经典连续得益无限策略博弈模型的正确性
    实验要求
    1. 选择古诺模型或伯川德模型之一,作为验证对象。
    2. 详细描述一个应用所选模型的博弈场景,给出各博弈要素的完整假设。
    3. 计算所描述博弈场景的纳什均衡,并分析:是否存在其他帕累托效率意义上的上策?为什么没能在该策略组合上达成均衡?
    4. 编写计算机程序,实现两个能够给出策略选择的智能体(对象)来模拟博弈模型中的参与者。
    5. 智能体输入参数的值可以根据上一次博弈的结果进行修正,进而给出新的策略选择,以此模拟博弈参与者根据经验变换策略选择的效果。
    6. 收集并存储每次博弈的过程和结果数据(博弈次数根据需要设定,通常一个收敛的博弈模型,博弈次数越多,实验效果越精细)。
    7. 将博弈的结果数据进行整理,并绘制为折线图(或其他用于数值比较的图表),进而分析双方的博弈结果是否符合所选模型理论上的均衡计算。
    8. 撰写设计说明书(包括程序的设计细节和操作说明等)写入实验报告。
    9. 将验证实验的详细运行效果截图,粘贴到实验报告中。
    10. 将验证实验的结果折线图,粘贴到实验报告中,用来证明博弈模型的正确性。
    11. 注意:由于古诺模型和伯川德模型中的参数应根据具体博弈场景来设定,所以博弈模型不是唯一的,博弈场景也不是唯一的, 每位同学的实验内容和程序应当完全不同,若雷同则不能获得成绩。此外,验证结果正确性的高低将作为实验考核的一个指标。
  7. 实验项目
    讨价还价博弈的折现因子分析
    实验目的
    通过计算机程序和数据分析来验证讨价还价博弈中折现因子对博弈的各方面影响
    实验背景
    假设甲乙两同学正在对1000元奖金的分配进行讨价还价。双方互相不知道对方的折现因子(可以相同也可能不同),但都随机在[0.1,0.9]区间取值(取1位小数)。 然后双方开始进行讨价还价博弈,直到一方接受为止。由于双方的折现因子是不互知的,因此多阶段博弈得以进行,双方互相猜测对方的折现因子,并探查对方的“底线”。 当博弈结束后,两名同学各自给出自己对对方折现因子的猜测,并统计各自的得益结果。
    实验要求
    1. 编写计算机程序模拟上述实验过程,实验轮数尽可能多,以便能从实验数据中验证规律。
    2. 收集实验数据,绘制比较图表,并在屏幕上展示。
    3. 通过对博弈模型的计算,先得出理论上折现因子对博弈的各方面影响(对得益的影响,对双方策略选择的影响,对结果的影响等)。
    4. 通过对博弈数据的分析,再验证理论分析的正确性。
    5. 在实验报告中给出详细的分析过程和结论。
    6. 撰写设计说明书(包括程序的设计细节和操作说明等)写入实验报告。
    7. 将验证实验的详细运行效果截图,粘贴到实验报告中。
    8. 将验证实验的数据折线图,粘贴到实验报告中,用来证明理论分析的正确性。
    9. 注意:每位同学的实验内容和程序应当完全不同,若雷同则不能获得成绩。
  8. 实验项目
    博弈小游戏设计
    实验目的
    试验并观察博弈模型在电子游戏设计中对智能化的促进作用
    实验要求
    1. 任意选择或设计一款可以人机交互的单人或多人小游戏,如纸牌游戏、猜数字游戏、策略战棋类游戏等。
    2. 选择或设计博弈模型,并将其作为小游戏的关键组成部分,提升游戏的智能程度。
    3. 撰写设计说明书(包括程序的设计细节和操作说明等),写入实验报告。
    4. 将游戏运行界面截图,粘贴到实验报告中。
    5. 注意:每位同学的实验内容和程序应当完全不同,若雷同则不能获得成绩。
  9. 实验项目
    刺杀博弈验证游戏
    实验目的
    通过游戏设计试验完全但不完美信息博弈的均衡求解过程
    游戏过程
    1. 以《教父》中迈克医院救父情节为背景,计算机扮演迈克,人类玩家扮演杀手。
    2. 计算机随机设定“自然”判定迈克是否持枪的概率分布,如持枪可能性和空手可能性各占50%等。此信息对人类玩家不公开。
    3. 人类玩家设定双方各种策略组合下的得益情况(任意设定),可参考下表的例子:
      experiment_1
    4. 人类玩家输入杀手对迈克是否持枪的信念(后验概率),如:
      P(持枪|把守)=2/3,P(空手|把守)=1/3
      P(持枪|躲避)=0,P(空手|躲避)=1
    5. 游戏内部按照“自然”所给出的概率分布来自动确定迈克是否持枪(对人类玩家不公开)。
    6. 第1阶段,计算机按照人类玩家给出的对杀手的信念,用逆向归纳法计算双方的均衡策略,显示迈克的行动并转化为条件概率,如:
      若“自然”确定了迈克持枪,而比较期望得益获知迈克持枪时始终选择把守,则给出“把守”行动,条件概率为:P(把守|持枪)=1,P(躲避|持枪)=0
      若“自然”确定了迈克空手,而比较期望得益获知迈克以混合策略选择行动,则按该混合策略随机给出“把守”或“躲避”,条件概率可能为: P(把守|空手)=1/2,P(躲避|空手)=1/2
    7. 第2阶段,从第1阶段计算出的均衡策略中取出杀手可能的策略选项,供人类玩家选择。例如:
      若第1阶段迈克选择“把守”,而杀手的策略是(1/2,1/2),则给出“刺杀”和“离开”两个选项,由人类玩家自由选择;
      若第1阶段迈克选择“躲避”,而杀手的策略是“刺杀”,则仅给出“刺杀”选项供人类玩家点击确认。
    8. 计算实际得益,显示双方的胜负。
    9. 游戏内部使用贝叶斯法则验证人类玩家输入的信念是否与后验概率相符(显示比较结果),
      若不相符,则说明杀手判断失误,即便获胜也是纯属侥幸,可从第4步重新开始一轮新猜测;
      若相符,则可列出双方的完美贝叶斯均衡。
    实验要求
    1. 编程实现上述游戏过程。
    2. 撰写设计说明书(包括程序的设计细节和操作说明等),写入实验报告。
    3. 将游戏运行界面截图,粘贴到实验报告中。
    4. 注意:每位同学的实验内容和程序应当完全不同,若雷同则不能获得成绩。
  10. 实验项目
    世界杯博弈
    实验目的
    掌握完全但不完美信息博弈的完美贝叶斯均衡求解过程
    实验背景
    2022年卡塔尔世界杯上,激战如火如荼,很多不确定性因素影响着比赛的走向。塞内加尔队(后简称赛队)的当家球星马内,带伤入选世界杯阵容, 对于赛队小组赛首轮对手荷兰队来说,马内的伤情无法预知,却左右着这场比赛中荷兰队首发阵容的配置。 假设马内的伤情由“自然”决定,赛队已将马内安排为首发,其策略是派马内主打或不主打; 而荷兰队的策略是在观察到赛队大名单后,决定是否派主力首发。
    假设赢球得益为2,输球得益为0,平局得益为1。
    双方在各种情况下的得益如下表所示:
    experiment_2
    若马内带伤主打,而荷兰全主力,则双方可能打平,马内很容易再受伤(-2),荷兰消耗了主力体力(-1),不利于后续比赛,双方得益为(-1,0);
    若马内带伤主打,而荷兰半主力,则赛队可能获胜,马内很容易再受伤(-2),双方得益为(0,0);
    若马内带伤不主打,而荷兰全主力,则荷兰队可能获胜,马内有可能受伤(-1),荷兰消耗了主力体力(-1),双方得益为(-1,1);
    若马内带伤不主打,而荷兰半主力,则双方可能打平,马内有可能受伤(-1),双方得益为(0,1);
    若马内痊愈主打,而荷兰全主力,则赛队可能获胜,荷兰消耗了主力体力(-1),双方得益为(2,-1);
    若马内痊愈主打,而荷兰半主力,则赛队可能获胜,双方得益为(2,0);
    若马内痊愈不主打,而荷兰全主力,则荷兰队可能获胜,但会消耗主力体力(-1),双方得益为(0,1);
    若马内痊愈不主打,而荷兰半主力,则双方可能打平,双方得益为(1,1)。
    实验要求
    1. 画出上述博弈背景下的博弈模型(扩展式表示)。
    2. 编写计算机程序,求解上述博弈的完美贝叶斯均衡。
    3. 撰写设计说明书(包括模型的扩展式表示,求解的思路,程序设计的细节和操作说明等)写入实验报告。
    4. 将程序的详细运行效果截图,粘贴到实验报告中。
    5. 提示:完美贝叶斯均衡的求解过程如下:
      (1)给定“自然”判定的概率分布。
      (2)给定荷兰队对马内是否有伤的判断(信念)。
      (3)编写计算机程序,利用逆向归纳法求解对应于该信念的均衡,然后使用贝叶斯公式计算后验概率。
      (4)判断该信念是否满足贝叶斯法则(即后验概率与信念一致),若不一致,则重复第(2)步。
      (5)直到找到符合贝叶斯法则的信念,然后打印出完美贝叶斯均衡的策略组合。

理论课成绩 ⇑⇑

实验课成绩 ⇑⇑