Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

STRATEGIC DECISION MAKING

Benzer bir sunumlar


... konulu sunumlar: "STRATEGIC DECISION MAKING"— Sunum transkripti:

1 STRATEGIC DECISION MAKING
GAME THEORY STRATEGIC DECISION MAKING

2 What is Game Theory? GT is an analytical tool for social sciences that is used to model strategic interactions or conflict situations. Strategic interaction: When actions of a player influence payoffs to other players

3 GT: science or art? GT is the science of rational behavior in interactive situations. Good strategists mix the science of GT with their own experience.

4 How to use GT Explanation: What is the game to be played?
Prediction: What outcome will prevail? Advice or prescription: Which strategies are likely to yield good results in which situations?

5 Why is GT important? Facilitates strategic thinking.
Provides a standard taxonomy that is needed for a scientific approach in analyzing strategic interactions. Helps confirm long held beliefs. Provides new insights. “To be literate in the modern age, you need to have a general understanding of GT.” P.Samuelson

6 GT in the News GT, long an intellectual passtime, came into its own as a business tool. Forbes, July 3, 1995 FCC hired game theorists to construct rules of an auction for new wireless phone systems’ licenses. In response, communications companies hired game theorists first to negotiate with FCC and then help prepare optimal bids given the rules of the auction. Business Week, Mar. 14, 1994. GT is hot. The Wall Street Journal, Feb. 13, 1995.

7 GT in the News (cont.) …lately game theorists have focused on real-world issues—how to raise auction proceeds by revealing the bids and how Wal-Mart can coexist with local retailers. Consultants are jumping in. McKinsey & Co. has set up a game theory unit. Forbes, Nov. 7, 1994.

8 GT in the News (cont.) Get In The Game: Enhanced Scheduling System Increases Business Profitability Accurate scheduling of people, products and equipment can mean the difference between profit and loss for a business. Most scheduling approaches assume that there is a single decision maker that has complete information about the activity, but this is rarely the case. University of Arkansas researcher Erhan Kutanoglu has developed an approach using incentive-compatible scheduling and game theory to ensure selection of the most profitable schedule. University of Arkansas News Release, May, 2000

9 Where can we use GT? Any situation that requires us to anticipate our rival’s response to our action is a potential context for GT. Games: Checkers, poker, chess, tennis, soccer etc. Economics: Industrial Organization, Micro/Macro/ International/Labor/Natural resource Economics, and Public Finance Political science: war/peace (Cuban missile crisis) Law: Designing laws that work Biology: animal behavior, evolution Information systems: System competition/evolution

10 Where can we use GT? (cont.)
Business: Games against rival firms: Pricing, advertising, marketing, auctions, R&D, joint ventures, investment, location, quality, take over etc. Games against other players Employee/employer, managers/stockholders Supplier/buyer, producer/distributor, firm/government

11 Some Terminology Strategy Payoffs Rationality
Common knowledge of rules Equilibrium

12 Strategic (Normal) Form Games
Static Games of Complete and Imperfect Information

13 What is a Normal Form Game?
A normal (strategic) form game consists of: Players: list of players Strategies: all actions available to all players Payoffs: a payoff assigned to every contingency (every possible strategy profile as the outcome of the game)

14 Prisoners’ Dilemma Two suspects are caught and put in different rooms (no communication). They are offered the following deal: If both of you confess, you will both get 5 years in prison (-5 payoff) If one of you confesses whereas the other does not confess, you will get 0 (0 payoff) and 10 (-10 payoff) years in prison respectively. If neither of you confess, you both will get 2 years in prison (-2 payoff)

15 Easy to Read Format of Prisoner’s Dilemma
Confess Don’t Confess -5, -5 0, -10 -10, 0 -2, -2 Prisoner 1

16 Assumptions in Static Normal Form Games
All players are rational. Rationality is common knowledge. Players move simultaneously. (They do not know what the other player has chosen). Players have complete but imperfect information.

17 Solution of a Static Normal Form Game
Equilibrium in strictly dominant strategies A strictly dominant strategy is the one that yields the highest payoff compared to the payoffs associated with all other strategies. Rational players will always play their strictly dominant strategies.

18 Solution of a Static Normal Form Game
Iterated elimination of strictly dominated strategies Rational players will never play their dominated strategies. Eliminating dominated strategies may solve the game.

19 Solution of a Static Normal Form Game (cont.)
Nash Equilibrium (NE): In equilibrium neither player has an incentive to deviate from his/her strategy, given the equilibrium strategies of rival players. Neither player can unilaterally change his/her strategy and increase his/her payoff, given the strategies of other players.

20 Solution of Prisoners’ Dilemma Dominant Strategy Equilibrium
Confess Don’t Confess -5, -5 0, -10 -10, 0 -2, -2 Prisoner 1

21 Solution of Prisoners’ Dilemma Iterated Elimination Procedure
Confess Don’t Confess -5, -5 0, -10 -10, 0 -2, -2 Prisoner 1

22 Solution of Prisoners’ Dilemma Cell-by-cell Inspection
Confess Don’t Confess -5, -5 0, -10 -10, 0 -2, -2 Prisoner 1

23 NE of Prisoners’ Dilemma
The strategy profile {confess, confess} is the unique pure strategy NE of the game. In equilibrium both players get a payoff of –5. Inefficient equilibrium; (don’t confess, don’t confess) yields higher payoffs for both.

24 A Pricing Example 100, 100 -10, 140 140, -10 0, 0 High Price Low Price
Firm 2 High Price Low Price 100, 100 -10, 140 140, -10 0, 0 Firm 1

25 3x3 Game Using Iterated Elimination
Player 2 Left Center Right Top 1, 0 1, 3 3, 0 Middle 0, 2 0, 1 Bottom 2, 4 5, 3 Player 1

26 A Coordination Game Battle of the Sexes
Husband Opera Movie 2, 1 0, 0 1, 2 Wife

27 Battle of the Sexes: After 30 Years of Marriage
Husband Opera Movie 3, 2 0, 0 1, 2 Wife

28 A Strictly Competitive Game Matching Pennies
Player 2 Heads Tails 1, -1 -1, 1 Player 1 No NE in pure strategies

29 International Investment Game
3 Turkish firms investing in a Turkic Republic. A new law is being debated in the Turkic Republic and they all want the law to be favorable for Turkish firms. The president is very powerful. He promises to match the total donation made to a state university in terms of favorable tax cuts for Turkish firms. The 3 firms have to decide whether to contribute or not.The more they contribute the more favorable the law.

30 International Investment Game
Firm 1 is the row player. Firm 2 is the column player. Firm 3 is the page player. Firm 3 Donates Firm 3 does not Donate Donate Don’t 5, 5, 5 3, 6, 3 6, 3, 3 4, 4, 1 Donate Don’t 3, 3, 6 1, 4, 4 4, 1, 4 2, 2, 2 NE is: (Don’t, Don’t, Don’t)

31 Dynamic Games of Complete and Perfect Information
Extensive Form Games Dynamic Games of Complete and Perfect Information

32 What is a Game Tree? Right Left A B C D P11 P21 P12 P22 P13 P23 P14
Player 1 Right Left Player 2 Player 2 A B C D P11 P21 P12 P22 P13 P23 P14 P24

33 An Advertising Example
Migros Normal Aggressive Wal-Mart Wal-Mart Enter Enter Stay out Stay out 680 -50 730 700 400 800

34 Assumptions in Dynamic Extensive Form Games
All players are rational. Rationality is common knowledge Players move sequentially. (Therefore, also called sequential games) Players have complete and perfect information Players can see the full game tree including the payoffs Players can observe and recall all previous moves

35 Solution of an Extensive Form Game
Subgame Perfect Equilibrium: For an equilibrium to be subgame perfect, it has to be a NE for all the subgames as well as for the entire game. A subgame is a decision node from the original game along with the decision nodes and end nodes. Backward induction is used to find SPE

36 Advertising Example: 3 proper subgames
Migros Wal-Mart Wal-Mart 680 -50 730 700 400 800

37 Solution of the Advertising Game
Subgame 1 Subgame 2 Wal-Mart Wal-Mart Enter Enter Stay out Stay out 680 -50 730 700 400 800

38 Solution of the Advertising Game (cont.)
Migros Normal Aggressive 730 700 400 SPE of the game is the strategy profile: {aggressive, (stay out, enter)}

39 Properties of SPE The outcome that is selected by the backward induction procedure is always a NE of the game with perfect information. SPE is a stronger equilibrium concept than NE SPE eliminates NE that involve incredible threats.

40 Suppose WM threatens to enter no matter what Migros does
Suppose WM threatens to enter no matter what Migros does. Is this a credible threat? Migros Normal Aggressive Wal-Mart Wal-Mart Enter Enter Stay out Stay out 680 -50 730 700 400 800

41 A 3 Player Sequential Game
Right Left Middle P3 2 1 P2 X Y F G P3 P3 3 -9 2 1 A C E B D 3 2 -2 1 5 4 6 -3 3 10 2 5

42 Backwards Induction Obviously, Player 3’s choices are B, C, and F in the three last period subgames. Eliminating the non-equilibrium strategies will make the game tree simpler. The game tree reduces to:

43 Reduced Game Tree Right Left Middle X Y
P1 Right Left Middle 2 1 P2 3 X Y -2 1 5 4 6 SPE is when player 1 plays middle, 2 plays Y, and 3 plays C.

44 A Critique of SPE What do you think player 1 would do, if he is not certain whether player 2 is rational or not, but he is certain that player 3 is rational? What do you think player 1 would do, if he is not certain whether player 3 is rational or not, but he is certain that player 2 is rational?

45 A 3 Player Sequential Game (cont.)
Right Left Middle P3 2 1 P2 X Y F G P3 P3 3 -9 2 1 A C E B D 3 2 -2 1 5 4 6 -3 3 10 2 5

46 Limit Pricing Game Entrant Stay out Enter Incumbent Incumbent Maximize
540 loss 265 1275 865

47 Commitment Game Incumbent Inflexible Technology Flexible Technology
Entrant Entrant Enter Enter Stay out Stay out 1000 -100 2000 500 3000

48 Establishing Credibility
Establish and use a reputation. Example: Do not negotiate with terrorists. Write contracts. Example: Supplier agrees to a punishment if he fails to deliver on time. Cut off communication. Example: Mesut Yilmaz government cutting off communication with EU. Burn bridges behind you. Example: Firm investing in inflexible technology.

49 Establishing Credibility (cont.)
Leave the outcome to chance. Example: Automatic response to nuclear attacks. Move in small steps. Example: $1 million agreement versus 1000 sequential transactions limited to $1000. Develop credibility through teamwork. Example: Army requires soldiers to shoot deserters. Failing to kill a deserter gets the death sentence. Employ negotiating agents. Example: Union leader negotiating a wage increase instead of the worker.

50 JUST PLAYING! Repeated Games

51 Game 1 Firm 1 Firm 2 Low Output High Output 40, 40 60, 30 30, 60
50, 50 Firm 1

52 Game 2 Greece War Peace 1, 1 3, 0 0, 3 2, 2 Turkiye

53 Repeated Normal Form Games
REPEATED GAMES Repeated Normal Form Games

54 Prisoners’ Dilemma Revisited
Suppose that the two suspects play the same game every time they get caught. Can they coordinate their choices in order to get the best outcome for both of them? Finitely repeated game Infinitely repeated game

55 Twice-repeated PD: First stage payoff matrix after adding NE payoffs of the second stage
Prisoner 2 Confess Don’t Confess -10, -10 -5, -15 -15, -5 -7, -7 Prisoner 1

56 N-times repeated PD In a finitely repeated (n times repeated game where n  2) PD game, the cooperative outcome (don’t confess, don’t confess) cannot be enforced. Since in the last stage (nth stage) the NE is (confess, confess) and all players know this, in all previous stages the same NE will prevail.

57 Infinitely Repeated PD
When the game is played infinitely or players do not know when the game is going to end, the backward induction breaks down. Following trigger strategies can enforce the cooperative outcome. Trigger strategy: A player cooperates as long as the other players cooperate, but any defection from cooperation on the part of the rivals triggers the player to behave noncooperatively for a specified period of time (period of punishment).

58 Trigger Strategies Grim strategy: A trigger strategy in which the punishment period lasts till the end of the game. Grim strategy for PD game: Play “don’t confess” in the first period. In period t, play “don’t confess” if the outcome was (don’t confess, don’t confess) in all preceding t-1 periods, and play “confess” otherwise.

59 Trigger Strategies (cont.)
Tit-for-tat (TFT): A trigger strategy in which the punishment period lasts as long as the rival keeps on cheating (returning back to cooperative periods of game play is possible). TFT strategy for PD game: Play “don’t confess” in the first period. In period t, play “don’t confess” if the rival’s most recent play was (don’t confess, don’t confess), and play “confess” otherwise.

60 Axelrod’s Tournament Axelrod’s 4 rules for successful repeated PD game play: i)   Don’t be envious ii)  Don’t be the first to defect iii) Reciprocate both cooperation and defection iv) Don’t be too clever

61 Repeated Extensive Form Games
REPEATED GAMES (cont.) Repeated Extensive Form Games

62 Chain Store Example A Chain store has branches in K towns.
There is a potential entrant (k) in each town. Chain store has to decide between fighting or accommodating entry in each town. The rival in the next town can observe how the chain store behaved in previous towns.

63 Game Tree in Town K k Stay out Enter C. Store 5 Prey Acco. -1 2

64 SPE of Chain Store Game In the last town the entrant will solve SPE and choose to enter. In town K-1 the entrant will do the same, for that matter in all previous towns the outcome will be the same. Solution: In every town, entry will occur and the chain store will accommodate.

65 Chain Store Paradox The incumbent has an incentive to prey on the first entrant and hence to scare off the entrants in other towns by establishing a predatory reputation. However, the second potential entrant will not be impressed (expecting a rational behavior from the C. store. In that case, there is no incentive for the C. store to prey in the first town.

66 The Paradox The result is counterintuitive
The result is due to strict reliance on backward induction. Infinitely repeated version: predatory behavior is an equilibrium strategy.

67 A Critique of Backward Induction
Longer chains of backward induction are more sensitive to small changes in the information structure of the game. Backward induction rules out any behavior that is contingent upon an event to which the theory assigns zero probability.

68 Managers May Choose which game to play with whom to play
Which strategies are available to each player What payoff each outcome will yield Whether to play or not

69

70 TWO-PERSON ZERO-SUM GAME
Have saddle point (pure strategy solution) EXAMPLE : Consider following zero-sum game c=0; Column player’s strategy Column 1 Column 2 Column 3 Row min Row player’s strategy Row 1 4 10 Row 2 2 3 1 Row 3 6 5 7 Column max

71 TWO-PERSON CONSTANT-SUM GAME (Have saddle point (pure strategy solution)
EXAMPLE There are 100 million audience shared by Network 1 and Network2 so c=100 Network 2 Western Soap opera Comedy Row min Network 1 35 15 60 45 58 50 38 14 70 Column max

72 GRAPHICAL SOLUTION When there is no saddle point COLUMN PLAYER (EVEN)
1 Finger 2 Finger Row minimum ROW PLAYER (ODD) -1 +1 Column Maximum

73 (0,1) A E (1,1) 1 B C (1,-1) (0,-1) D FINDING ODD’S OPTIMAL STRATEGY
AC = Odd’s reward with x1 if even picks 1 DE =Odd’s reward with x1 if even picks 2 (0,1) A Expected reward to Odd Even picks 1 E (1,1) (0,-1) D C (1,-1) 1 Even picks 2 B x1 FINDING ODD’S OPTIMAL STRATEGY x1 + x2 = x1, x2=1-x1 İf Even puts out 1 finger Odd reward = (-1)x1 + (+1)(1-x1)=1-2x1 AC İf Even puts out 2 fingers Odd reward = (+1)x1 + (-1)(1-x1)=2x1-1 DE Odd should choose mixed strategy x1=1/2 x2=1/2

74 (0,1) A E (1,1) 1 B C (1,-1) (0,-1) D FINDING EVEN’S OPTIMAL STRATEGY
AC = Odd’s reward against y1 if odd picks 1 DE =Odd’s reward against y1 if odd picks 2 (0,1) A Expected reward to Odd Odd picks 1 E (1,1) (0,-1) D C (1,-1) 1 picks 2 B FINDING EVEN’S OPTIMAL STRATEGY y1 + y2 = y1, y2=1-y1 İf Odd puts out 1 finger Odd reward = (-1)y1 + (+1)(1-y1)=1-2y1 AC İf Odd puts out 2 fingers Odd reward = (+1)y1 + (-1)(1-y1)=2y1-1 DE Even should choose mixed strategy y1=1/2 y2=1/2 y1

75 LINEAR PROGRAMMING AND ZERO-SUM GAMES
Stone-Paper-Scissors Game COLUMN PLAYER Stone Paper Scissor Row minimum ROW PLAYER -1 +1 Column Maximum

76 s.t. v <= x2 – x3 (Stone constraint)
COLUMN PLAYER Stone Paper Scissor Row minimum ROW PLAYER -1 +1 Column Maximum THE ROW PLAYER’S LP Column player will choose a strategy that makes the row player’s expected reward equal to min (x2-x3, -x1+x3, x1-x2) Then row player will choose (x1,x2,x3) that makes min (x2-x3, -x1+x3, x1-x2) as large as possible Max z= v s.t. v <= x2 – x3 (Stone constraint) v <= -x1+x3 (Paper constraint) v <= x1-x2 (Scissor constraint) x1+x2+x3 = 1 X1,x2,x3 >= 0; v urs

77 s.t. w >= -y2+y3 (Stone constraint)
COLUMN PLAYER Stone Paper Scissor Row minimum ROW PLAYER -1 +1 Column Maximum THE COLUMN PLAYER’S LP Row player is assumed to know (y1,y2,y3) the row player will choose a strategy to ensure that she obtains an expected reward of Max (-y2+y3, y1-y3, -y1+y2) Thus the column player should choose (y1,y2,y3) to make Max (-y2+y3, y1-y3, -y1+y2) as small as possible Min z = w s.t. w >= -y2+y (Stone constraint) w >= y1-y (Paper constraint) w>= -y1+y (Scissor constraint) y1 +y2+ y3 = 1 y1, y2, y3 >=0, w urs

78 LINEAR PROGRAMMING AND ZERO-SUM GAMES
EXAMPLE: Solve following zero sum game. ANSWER: This game has no saddle point and no dominated strategies so we set up the row and the column player’s LP. COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 60 10 Column maximum

79 x1, x2, v >= 0 Substituting x2=1-x1 into the row player’s LP yields
COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 60 10 Column maximum ROW PLAYER’S LP Max v s.t. v <= 30x1+ 60x2 v <= 40x1+ 10x2 v <= 36x1+ 36x2 x1 + x2 = 1 x1, x2, v >= Substituting x2=1-x1 into the row player’s LP yields s.t. (a) v + 30x1 <= (y1, or column 1, constraint) (b) v – 30x1 <= (y2, or column 2, constraint) (c) v <= (y3, or column 3, constraint) x1,v >= 0

80 s.t. (a) w + 6y1 – 4y2 >= 36 (x1, or row 1, constraint)
COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 60 10 Column maximum COLUMN PLAYER’S LP Min w s.t. (a) w >= 30y1 + 40y2 + 36y3 (b) w >= 60y1 + 10y2 + 36y3 y1 + y2 + y3 = 1 y1, y2, y3, w >= 0 Substituting y3 = 1- y1 –y2 into the column player’s LP yields s.t. (a) w + 6y1 – 4y2 >= (x1, or row 1, constraint) (b) w – 24y1 + 26y2 >= 36 (x2, or row 2, constraint) y1, y2, w >= 0

81 SOLUTION ( w = 35, y1 =1/2, y2 = 1/2, y3 = 0 )
COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 60 10 Column maximum Solving ROW PLAYER’S LP Max v s.t. (a) v + 30x1 <= 60 (b) v – 30x1 <= 10 (c) v <= 36 x1,v >= 0 SOLUTION (v = 35, x1 = 5/6, x2 = 1/6) Solving COLUMN PLAYER’S LP Min w s.t. (a) w + 6y1 – 4y2 >= 36 (b) w – 24y1 + 26y2 >= 36 y1, y2, w >= 0 SOLUTION ( w = 35, y1 =1/2, y2 = 1/2, y3 = 0 )

82

83 LINEAR PROGRAMMING AND ZERO-SUM GAMES
EXAMPLE: Solve following zero sum game. ANSWER: This game has no saddle point and no dominated strategies so we set up the row and the column player’s LP. COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 50 Row 3 60 10 Column maximum

84 LINEAR PROGRAMMING AND ZERO-SUM GAMES
COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 50 Row 3 60 10 Column maximum ROW PLAYER’S LP Max v s.t. v <= 30x1+ 50x2+60x3 v <= 40x1+ 30x2 +10x3 v <= 36x1+ 30x2+36x3 x1 + x2+x3 = 1 x1, x2, x3, v >= 0

85 LINEAR PROGRAMMING AND ZERO-SUM GAMES
COLUMN PLAYER Column 1 Column 2 Column 3 Row minimum ROW PLAYER Row 1 30 40 36 Row 2 50 Row 3 60 10 Column maximum COLUMN PLAYER’S LP Min w s.t. w >= 30y1 + 40y2+ 36y3 w >= 50y1 + 30y2+ 30y3 w >= 60y1 + 10y2+ 36y3 y1 + y2+ y3 = 1 y1 , y2, y3, w >=0

86 LINEAR PROGRAMMING AND ZERO-SUM GAMES
ROW PLAYER’S LP Max v s.t. v <= 30x1+ 50x2+60x3 v <= 40x1+ 30x2 +10x3 v <= 36x1+ 30x2+36x3 x1 + x2+x3 = 1 x1, x2, x3, v >= 0 RESULT ( V=35,45, X1=0,787 ,X2=0,091 ,X3=0,121 ) COLUMN PLAYER’S LP Min w s.t. (a) w >= 30y1 + 40y2+ 36y3 (b) w >= 50y1 + 30y2+ 30y3 (c) w >= 60y1 + 10y2+ 36y3 y1 + y2+ y3 = 1 y1 , y2, y3, w >=0 RESULT ( W=35,45, Y1=0,272, Y2=0,272, Y3=0, 454)

87

88 (-5,-5) (0,-20) (-20,0) (-1,-1) TWO-PERSON NON-CONSTANT-SUM GAMES
EXAMPLE : Prisoner’s Dilemma PRISONER 2 Confess Don’t Confess PRISONER 1 (-5,-5) (0,-20) Don’t confess (-20,0) (-1,-1)

89 (2,2) (9,-1) (-1,9) (6,6) TWO-PERSON NON-CONSTANT-SUM GAMES
EXAMPLE : Hot Dog King and Hot Dog Chef advertisement budget Profit after advertisement budget HOT DOG CHEF Spend $10 million Spend $6 million HOT DOG KING (2,2) (9,-1) (-1,9) (6,6)

90 (-10,-10) (10,-100) (-100,10) (0,0) TWO-PERSON NON-CONSTANT-SUM GAMES
EXAMPLE : USA and USSR arm race Benefit matrix after deducting missile cost USSR Develop new missile Maintain status quo USA (-10,-10) (10,-100) (-100,10) (0,0)

91

92 Tepe Noktalı Oyunlar ve Tam Stratejiler
Minimaks-Maksimin Kriteri Bir karar probleminin çözümünde, Minimaks-Maksimin kriteri diye adlandırılan çok tutucu veya temkinli bir kriteri kullanılır. Her rakibin diğerinin avantajının aksine çalıştığı veya uğraştığı gerçeğini dikkate almak için minimaks kriteri her oyuncunun (karışık veya saf) stratejisini seçer. Öyle ki bu strateji en kötü muhtemel sonuçların en iyisini versin. Eğer hiçbir oyuncu stratejisini değiştirmesini faydalı bulmuyorsa optimal bir çözüme ulaşılmıştır denir. Bu durumda oyun dengededir denir veya bir denge durumuna ulaşılmıştır denir. Oyun matrisi genellikle A oyuncusunun ödemeleri (kazanç) cinsinden ifade edildiğinden bunun stratejileri satırlarla gösterilir. Söz konusu tutucu (çekimser) kriter, A oyuncusunun saf veya karışık olmak üzere kendisini minimum kazancını maksimize eden stratejiyi seçmesini gerektirir. Burada minimum, B oyuncusunun bütün stratejisinin yönünden düşünülmektedir. Aynı düşünce tarzıyla B oyuncusu kendisini maksimum kayıplarını minimize eden stratejiyi seçer. Burada da maksimum A oyuncusunun bütün stratejileri yönünden düşünülür.

93 Tepe Noktası Oyunların en basiti tepe noktası (eyer) olan oyunlardır. Tepe noktayı bulmak için, oyun matrisinin satır minimum elemanı, sütun maksimum elemanına eşit ise oyunun tepe noktası vardır, denir. Oyunun tepe noktası aynı zamanda oyunun değeridir. Her oyunun birden fazla tepe noktası olabileceği gibi hiç olmayabilir de. Oyunun tepe noktası yoksa her oyuncunun optimal stratejisi karma olacaktır. Bu durumda aşağıdaki ilişkiler görülür. Maksimin değer <= oyun değeri <= minimaks değer. Yani; dir. Bu eşitsizlik oyunun alt ve üst sınırını belirler. Bu durum Nash Dengesi olarak ifade edilir.

94 Örnek Aşağıdaki A oyuncusunun kazancını gösteren ödemeler matrisini göz önüne alalım; Bu örnek, bir oyunun minimaks veya maksimin hesaplarını göstermektedir. Maksimin (alt) değer Oyun değeri  Minimaks (üst) değer Yukarıdaki örnekte maksimin = 5, minimaks=5’ti. Bu nokta oyunun matrisinin (2, 2) girişiyle verilen bir oturma noktasına sahip olduğu anlamına gelir. Bu durumda oyunun değeri 5’e eşit olmaktadır. Görüldüğü gibi hiçbir oyuncu başka bir strateji seçerek daha iyisini bulamaz. B Oyuncusu Satır Minimumları B1 B2 B3 B4 A Oyuncusu A1 8 2 9 5 A2 6 7 18 5 * A3 3 -4 10 Sütun maksimumları

95 Tepe Noktasız Oyunlar ve Karma Stratejiler
Bir m x n oyununun tepe noktası yoksa, özellikle büyük boyuttaki oyunların çözümü zor olabilir. Bu tip oyunlarda kazançları optimize etmek isteyen oyuncular karma stratejiler kullanmak zorundadırlar. Tüm oyunlar, her bir oyuncunun %100 olasılıkla yalnızca tek strateji seçtiği bir saf-strateji Nash dengesi biçiminde değildir. Bazı uygulamalarda oyuncular, olanaklı saf stratejileri olasılıklara dayalı olarak seçerler. Bu tür oyunlar karma stratejiye sahiptir. Bir karma strateji, bir oyuncunun her bir olanaklı saf stratejiyi oynayacağı olasılığı tanımlamaktadır Bundan önceki kısımda görüldüğü gibi bir oturma noktasının mevcudiyeti oyun için optimal (en uygun) saf stratejileri hemen vermektedir. Bununla beraber bazı oyunların oturma noktası yoktur. Mesela aşağıdaki sıfır toplam oyununu göz önüne alınız.

96 Örnek: Bu oyunun bir oturma noktası yoktur
Bundan önceki kısımda görüldüğü gibi bir oturma noktasının mevcudiyeti oyun için optimal (en uygun) saf stratejileri hemen vermektedir. Bununla beraber bazı oyunların oturma noktası yoktur. Mesela aşağıdaki sıfır toplam oyununu göz önüne alınız. Burada minimax değer 4, maximin değer (2) den daha büyüktür. Dolayısıyla oyunun bir oturma noktası yoktur. Dolayısıyla maximin-minimax optimal değildir. Böyle olması doğrudur. Zira her oyuncu farklı bir strateji seçmek suretiyle kendi ödemesini kazancını iyileştirebilir, artırabilir. B 1 2 3 4 Satır Min. 5 -10 9 6 7 8 A 15 2 *maximin -1 Sütun Min.  *minimax

97 Karma Stratejiler x1, x2, ….., xm ile satır olasılıklarını ve y1, y2, ….., yn ile de sütun olasılıklarını gösterelim. Bu olasılıklarla sırayla A ve B saf stratejilerini seçerler. Bu sebepten aij oyunun (i, j) inci girişini (elemanını) gösterirse xi ve yj aşağıdaki matristeki gibi görünürler. Karışık strateji probleminin çözümünde daha önce gördüğümüz minimax kriterine dayanır. Aradaki yegane fark A’ nın bir kolondaki en küçük beklenen ödemeyi (kazanç) maximize eden xi‘ yi seçerken B‘ nin bir satırdaki en büyük ödemeyi kazancı minimize eden yj’ yi seçmesidir. Matematiksel olarak bir karışık strateji için minimax aşağıdaki gibi verilir. A oyuncusu, maxmin (  ai1 xi,  ai2xi, ……,  aimxi )  bunu veren xi’ yi seçer, Burada (xi  0 ve  xi = 1). xi i= i=1 i=1 B y1 y2 yn x1 a11 a12 ….. a1n A x2 a21 a22 a2n . xm am1 am2 amn

98 Karma Stratejiler Aynı şekilde B ise,
minmax (  aij yj,  aij yj, ……,  amj yj ) bunu veren yj’ yi seçer, yj j= j= j=1 (yj  0 ve  yj = 1) Bu değerlere sırasıyla maximin ve minimax beklenen değerler denir. Yine saf stratejide olduğu gibi minimax beklenen ödeme bağıntısı burada da geçerlidir. xi ve yj optimal çözüme tekabül edince eşitlik geçerli olur ve meydana gelen değerler oyunun beklenen optimal değerine eşit olurlar. Bu sonuç minimax teorisinden çıkarılabilir ve burada ispatı verilmeksizin gösterilmiştir. Eğer, xi* ve yj* her iki oyuncu için optimal çözümler iseler, her ödeme veya kazanç elemanı aij, ( xi*, yj) olasılığı ile irtibatlı olacaktır. Bundan dolayı oyunun beklenen değeri şöyledir. V* =   aij xi*yj* olacaktır.

99 İki kişi sıfır toplam oyunlarının çözüm yöntemleri
İki kişi sıfır toplam oyunlarını xi ve yj’ nin optimal değerleri için birkaç metod mevcuttur. Biz sadece 2 metodu ele alacağız. (2xn) veya (mxn) oyunlarının çözümü için kullanılan grafik çözüm metodu ve (m x n) şeklindeki herhangi bir oyunun çözümü için lineer programlama metodu söz konusu metodlardır.

100 Grafik Çözüm Yöntemi (mx2 veya 2xn Oyunları için)
Grafik çözümler en azından bir oyuncunun iki stratejisinin olduğu oyunlara uygulanır. Mesela aşağıdaki (2xn) oyununu gözönüne alalım. Oyunun bir oturma noktası olmadığı kabul ediliyor. A’ nın sadece iki stratejisi olduğundan, x2 = 1- x1; x1  0, x2  0 olacağı görülür. A’ nın beklenen ödemeleri (kazançları) yani B’ nin saf stratejilerine tekabul eden kazançları aşağıdaki gibi verilir. B’ nin saf stratejisi A’ nın beklenen ödemesi(kazancı) 1 (a11-a21)x1 + a21 2 (a12-a22)x1 + a22 . . n (an-a2n)x1 + a2n Buradan görüldüğü gibi A’ nın ortalama kazancı x1 ile doğrusal (lineer) olarak değişir. Karışık strateji oyunları için minimax kriterine göre A oyuncusunun, minumum beklenen ödemelerini (kazançlarını) maxsimize eden x1 değerini seçmesi gerekir. Bu ise, yukarıda x1’ in fonksiyonları olarak doğruların çizilmesi ile yapılır. B y1 y2… …….yn A x1 a11 a12…….. a1n x2=1-x1 a21 a22…….. a2n

101 Örnek: (2 x 4) oyununu gözönüne alalım
Bu oyunun oturma noktası yoktur. Bu sebepten B’ nin saf stratejilerine tekabül eden, A’ nın beklenen ödemeleri aşağıdaki gibi verilirler. B 1 2 3 4 A -1 6  B’ nin saf A’ nın beklenen Stratejisi ödemesi(kazancı) 1 -2x1 + 4 2 -x1 + 3 3 x1 +2 4 -7x1 +6 Bu dört doğru sonra şekildeki gibi x1’in fonksiyonları olarak çizilirler. Şekilden de görüleceği gibi maxsimin değeri x1* = 1/ 2’ de meydana gelir. Bu da 3 ve 4 doğrularının ikisinin kesişme noktasıdır. x1 +2 ve -7x1 +6 eşitlenip çözülür. Sonuç olarak, A’ nın optimal stratejisi x1* = 1/2 , x2* = 1/2 dir. Oyunun değeri, maximin noktasından geçen herhangi bir doğrunun denkleminde x1’ i yerine koymak suretiyle elde edilir. Bu ise bize şu sonuçları verir. V*=1/ 2 +2=5/2 veya -7(1/2)+6=5/2 (1) (2) (3) (4) y1=-2x y1=-x y1=x y1=-7x1+6 x1=0 y1=4 x1=0 y1=3 x1=0  y1= x1=0  y1=6 x1=1  y1=2 x1=1  y1=2 x1=1 y1= x1=1 y1=-1

102 (m x n) Şeklindeki Oyunların Lineer Programlama İle Çözümü
Oyun teorisi LP ile kuvvetli bir bağlantı içindedir. Zira her sonlu iki şahıs sıfır toplamlı oyun bir LP olarak ifade edilebilir ve bunun tersi olarakta her LP bir oyun olarak temsil edilebilir. Oyunların LP ile çözülmesi büyük matrisli oyunlar için gerekli ve kullanışlı olmaktadır. Karışık stratejiler bahsinde gösterildiği gibi A’ nın optimum karışık stratejileri aşağıdaki ifadeyi karşılarlar: maxmin(  ai1xi,  ai2xi, …..,  ainxi) ilgili kısıtlar xi 0 i=1, 2, …, m xi i= i= i=1 Bu problem aşağıdaki şekilde LP formuna sokulabilir. V=min(  ai1xi,  ai2xi, …..,  ainxi) olsun. O zaman problem şöyle olur: i= i= i=1 max Z = V Kısıtlar  aijxi  V ;j=1, 2, …., n  xi  1 xi  0 Burada V oyunun değerini gösterir.

103 Örnek 1: Aşağıdaki (3 x 3) oyununu gözönüne alalım.
Aşağıda A ve B oyuncuları arasında oynanan oyunun matrisi verilmiştir. Oyunun değerini ve her iki oyuncunun optimal strateji vektörünü bulunuz. Çözüm : B oyuncusu için yj teriminde çözümlenecek doğrusal programlama problemi; Maksimum yo = y1 + y2 + y3 Kısıtlar 3y1 + 2y2 + 3y3 ≤ 1 2y1 + 3y2 + 4y3 ≤ 1 5y1 + 4y2 + 2y3 ≤ 1 y1, y2, y3 ≥ 0 B oyuncusu B1 B2 B3 A oyuncusu A1 3 2 A2 4 A3 5

104 Maksimum y0 = y1 + y2 + y3 + 0S1 + 0S2 + 0S3 Kısıtlayıcılar
Simplex metodu ile problemi çözmek için önce kısıtlayıcı denklemlerin sol tarafına S1, S2, S3 aylak değişkenlerini ekleyelim. Maksimum y0 = y1 + y2 + y3 + 0S1 + 0S2 + 0S3 Kısıtlayıcılar 3y1 + 2y2 + 3y3 + S1 = 1 2y1 + 3y2 + 4y3 + S2 = 1 5y1 + 4y2 + 2y3 + S3 = 1 y1 , y2 , y3 , S1 , S2 , S3 ≥ 0 Başlangıç simpleks tablosu aşağıdaki gibidir. cj y y y S S S3 Çözüm 0 S1 0 S2 0 S3 1 1* zj cj – zj = Yo 1*

105 İkinci simplex çözüm matrisi aşağıdaki şekilde optimal çözümü vermektedir.
Buna göre B oyuncusunun optimal strateji vektörünü belirleyecek değerler, doğrusal programlama ile; y1 = 1/8, y3 = 3/16, S1 aylak değişken olup gerçek değeri yoktur. Oyunun değeri ise V = 1 / Y0 = 1/5 / 16 = 3. 2 ‘dir. B oyuncusunun gerçek değeri optimal stratejileri q1 = y1 * V, q3 = y3 *V formüllerinin değeri yerine konularak bulunur. q1 = 1/8 * 16/5 = 0. 4 q3 = 3/16 *16/5 = 0. 6 B oyuncusu % 40 oranda B1 stratejisini ve % 60 oranında B3 stratejisini uygularsa rakibinin A oyuncusunun kabul edebileceği bir düzeyde oyun değeri belirlemiş olacaktır. Bu değerde V = 3. 2 ‘dir. cj y y y S S S3 Çözüm y3 s2 y1 / / /8 / / /8 / / /4 1/16 3/16 1/8 zj cj – zj = Yo / / /8 / / /8 5/16

106


"STRATEGIC DECISION MAKING" indir ppt

Benzer bir sunumlar


Google Reklamları