Thế nào là Điều kiện hóa từ kết quả (Operant Conditioning)?

Điều kiện hóa từ kết quả (đôi khi còn được gọi là điều kiện hóa công cụ) là một phương thức học tập xuất hiện thông qua quá trình thưởng phạt các hành vi. Qua điều kiện hóa từ kết quả, một liên kết được tạo dựng giữa hành vi và một kết quả do hành vi đó mang lại.

Operant conditioning (sometimes referred to as instrumental conditioning) is a method of learning that occurs through rewards and punishments for behavior. Through operant conditioning, an association is made between a behavior and a consequence for that behavior.

Ví dụ, khi một con chuột trong phòng thí nghiệm nhấn nút màu xanh, nó sẽ nhận được các viên thức ăn coi như phần thưởng, khi nó nhấn nút màu đỏ, cái nó nhận được là một cú sốc điện.

For example, when a lab rat presses a blue button, he receives a food pellet as a reward, but when he presses the red button he receives a mild electric shock.

Kết quả là nó học cách bấm nút màu xanh và tránh bấm nút màu đỏ.

As a result, he learns to press the blue button but avoid the red button.

Lịch sử Điều kiện hóa từ kết quả. The History of Operant Conditioning

Điều kiện hóa từ kết quả được gọi tên lần đầu tiên bởi nhà tâm lý học hành vi B. F. Skinner, bởi vậy đôi lúc quá trình này còn được gọi là Điều kiện hóa Skinner. Là một nhà tâm lý học hành vi, Skinner tin rằng không cần thiết cứ phải đào sâu vào những suy nghĩ hay động lực bên trong để giải thích hành vi. Thay vào đó, ông cho rằng ta chỉ nên nhìn vào cái thể hiện ra bên ngoài, những nguyên nhân có thể quan sát được từ hành vi con người.

Operant conditioning was coined by behaviorist B.F. Skinner, which is why you may occasionally hear it referred to as Skinnerian conditioning. As a behaviorist, Skinner believed that it was not really necessary to look at internal thoughts and motivations in order to explain behavior. Instead, he suggested, we should look only at the external, observable causes of human behavior.

Suốt nửa đầu thế kỷ XX, thuyết hành vi trở thành phân ngành chủ đạo trong tâm lý học. Những ý tưởng của John B. Watson đã thống lĩnh trường phái tư tưởng này từ những ngày đầu. Watson tập trung vào những nguyên lý của điều kiện hóa cổ điển, ông rất nổi tiếng với phát biểu cho rằng mình có thể khiến bất cứ người nào, với bất kỳ nền tảng học vấn nào, trở thành điều ông muốn thông qua huấn luyện.

Through the first part of the 20th-century, behaviorism had become a major force within psychology. The ideas of John B. Watson dominated this school of thought early on. Watson focused on the principles of classical conditioning, once famously suggesting that he could take any person regardless of their background and train them to be anything he chose.

bfskinner-pemanpassuedited-150612073419-lva1-app6891-thumbnail-4.jpg — Nguồn: My Room

Trong khi những nhà tâm lý học hành vi đời đầu tập trung mối quan tâm của họ vào quá trình học tập thông qua liên kết thì Skinner lại hứng thú hơn với cách mà kết quả có được từ hành động của con người ảnh hưởng lên hành vi của họ.

Where the early behaviorists had focused their interests on associative learning, Skinner was more interested in how the consequences of people’s actions influenced their behavior.

Skinner sử dụng thuật ngữ “operant” để chỉ tất cả “các hành vi chủ động được thực hiện trong một bối cảnh nhất định nhằm đưa đến một kết quả.” Nói cách khác, học thuyết của Skinner giải thích cách ta tiếp thu và thực hiện được một loạt các hành vi qua học tập mà có, mỗi hành vi này đều có thể được quan sát hàng ngày.

Skinner used the term operant to refer to any “active behavior that operates upon the environment to generate consequences.” In other words, Skinner’s theory explained how we acquire the range of learned behaviors we exhibit each and every day.

Học thuyết của ông bị ảnh hưởng lớn từ công trình của nhà nghiên cứu Edward Thorndike, người đã đề xuất “Định luật về hiệu quả”.

His theory was heavily influenced by the work of psychologist Edward Thorndike, who had proposed what he called the law of effect.

Theo như nguyên lý này, hành động đưa đến những kết quả mong muốn sẽ dễ có khả năng lặp lại hơn trong khi những hành động đưa đến kết quả không mong muốn sẽ ít có khả năng lặp lại.

According to this principle, actions that are followed by desirable outcomes are more likely to be repeated while those followed by undesirable outcomes are less likely to be repeated.

Điều kiện hóa từ kết quả dựa trên một giả thuyết khá đơn giản – những hành động theo sau bởi một tác nhân củng cố sẽ trở nên vững chắc hơn và dễ có khả năng xuất hiện trở lại trong tương lai. Nếu bạn kể một câu chuyện cười trong lớp và tất cả mọi người đều cười thì bạn sẽ có khả năng kể lại câu chuyện đó trong tương lai.

Operant conditioning relies on a fairly simple premise – actions that are followed by reinforcement will be strengthened and more likely to occur again in the future. If you tell a funny story in class and everybody laughs, you will probably be more likely to tell that story again in the future.

Ngược lại, hành động theo sau đó bởi một hình phạt hoặc một hậu quả xấu sẽ bị yếu đi và ít có khả năng xuất hiện lại trong tương lai. Nếu bạn kể cũng câu chuyện đó ở một lớp mà mà lần này chẳng ai cười thì lần tới khả năng cao là bạn sẽ không kể câu chuyện đó nữa.

Conversely, actions that result in punishment or undesirable consequences will be weakened and less likely to occur again in the future. If you tell the same story again in another class but nobody laughs this time, you will be less likely to repeat the story again in the future.

Các dạng hành vi. Types of Behaviors

Skinner phân biệt 2 dạng hành vi. Skinner distinguished between two different types of behaviors

– Hành vi phản ứng là những hành vi xuất hiện một cách tự động và linh hoạt, như rụt tay khi chạm vào bếp nóng hoặc giật giật chân khi bác sĩ gõ vào khớp đầu gối. Bạn không cần phải học những hành vi dạng này, đơn giản là chúng xuất hiện một cách tự động không cần sự điều khiển của ý thức.

Respondent behaviors are those that occur automatically and reflexively, such as pulling your hand back from a hot stove or jerking your leg when the doctor taps on your knee. You don’t have to learn these behaviors, they simply occur automatically and involuntarily.

– Các hành vi hình thành từ kết quả, mặt khác, lại là những hành vi có được dưới sự kiểm soát có ý thức của con người. Một số có thể xuất hiện khá tự phát và số khác lại có mục đích rõ ràng, nhưng kết quả/hay hậu quả của những hành động này sẽ tác động đến khả năng xuất hiện hay không xuất hiện lại những hành động này trong tương lai. Hành động của chúng ta đặt trong một bối cảnh và những kết quả của hành động đóng một vai trò quan trọng trong quá trình học tập.

Operant behaviors, on the other hand, are those under our conscious control. Some may occur spontaneously and others purposely, but it is the consequences of these actions that then influence whether or not they occur again in the future. Our actions on the environment and the consequences of that action make up an important part of the learning process.

Mặc dù điều kiện hóa cổ điển có thể bao quát được các hành vi của đối tượng phản ứng nhưng Skinner nhận ra rằng nó không thể thể hiện toàn bộ quá học tập rộng lớn. Thay vào đó, Skinner cho rằng điều kiện hóa từ kết quả nắm giữ một vai trò lớn lao hơn rất nhiều.

While classical conditioning could account for respondent behaviors, Skinner realized that it could not account for a great deal of learning. Instead, Skinner suggested that operant conditioning held far greater importance.

Skinner phát minh ra nhiều thiết bị khác nhau khi ông còn trẻ và chính những kỹ năng này đã được áp dụng rất nhiều trong các nghiên cứu sau này về điều kiện hóa từ kết quả.

Skinner invented different devices during his boyhood and he put these skills to work during his studies on operant conditioning.

Ông tạo ta một thứ gọi là Hộp điều kiện hóa từ kết quả, mà nay ta vẫn gọi là Hộp Skinner. Hộp này về cơ bản là một cái hộp có thể nhốt các con vật nhỏ như chuột hay bồ câu. Hộp này cũng có một then chắn hay chốt sắt mà con vật nó thể nhấn để nhận được phần thưởng.

He created a device known as an operant conditioning chamber, most often referred to today as a Skinner box. The chamber was essentially a box that could hold a small animal such as a rat or pigeon. The box also contained a bar or key that the animal could press in order to receive a reward.

Để theo dõi phản ứng, Skinner cũng đã chế tạo ra một thiết bị có tên máy ghi lũy tích. Thiết bị này ghi lại những phản ứng bằng đường vẽ hướng dần lên trên, từ đây ta có thể đọc được các mức độ phản ứng thông qua độ dốc của đường ghi này.

In order to track responses, Skinner also developed a device known as a cumulative recorder. The device recorded responses as an upward movement of a line so that response rates could be read by looking at the slope of the line.

skinner2 — Hộp Skinner và Máy ghi tích lũy. Nguồn: Learning-Theorists

Các thành tố của Điều kiện hóa từ kết quả. Components of Operant Conditioning

Có một số khái niệm cơ bản trong Điều kiện hóa từ kết quả. There are several key concepts in operant conditioning.

Củng cố trong điều kiện hóa từ kết quả. Reinforcement in Operant Conditioning

Củng cố là bất kỳ sự kiện nào làm gia tăng hoặc thúc đẩy hành vi theo sau nó. Có 2 loại củng cố: Reinforcement is any event that strengthens or increases the behavior it follows. There are two kinds of reinforcers:

– Củng cố tích cực là những sự kiện hay kết quả tốt thể hiện sau khi hành vi được thực hiện. Trong những tình huống củng cố tích cực, một phản ứng hoặc hành vi được củng cố bằng cách thêm thứ gì đó, như một lời khen hay một phần thưởng trực tiếp. Ví dụ, nếu bạn làm tốt ở chỗ làm và sếp bạn cho bạn tiền thưởng.

Positive reinforcers are favorable events or outcomes that are presented after the behavior. In situations that reflect positive reinforcement, a response or behavior is strengthened by the addition of something, such as praise or a direct reward. For example, if you do a good job at work and your manager gives you a bonus.

– Củng cố tiêu cực là việc loại bỏ một sự kiện hay kết quả không mong muốn sau khi một hành vi được thực hiện. Trong những tình huống này, một phản ứng được củng cố bởi việc loại bỏ thứ gì đó khó chịu. Ví dụ, nếu con bạn la hét giữa tiệm tạp hóa, nhưng lại ngừng la hét khi bạn đưa cho nó thứ gì đó hay ho nó thích, thì lần tới nếu con khóc, bạn sẽ lại đưa cho con một thứ tương tự. Hành vi của bạn được dẫn dắt bởi việc loại bỏ đi sự kiện khó chịu (tiếng la khóc của con), nhân tố tiêu cực ảnh hưởng lên hành vi của bạn.

Negative reinforcers involve the removal of an unfavorable events or outcomes after the display of a behavior. In these situations, a response is strengthened by the removal of something considered unpleasant. For example, if your child starts to scream in the middle of the grocery store, but stops once you hand him a treat, you will be more likely to hand him a treat the next time he starts to scream. Your action led to the removal of the unpleasant condition (the child screaming), negatively reinforcing your behavior.

Ở cả hai trường hợp củng cố trên, hành vi đều có sự gia tăng. In both of these cases of reinforcement, the behavior increases.

Trừng phạt trong điều kiện hóa từ kết quả. Punishment in Operant Conditioning

Trừng phạt là sự hiện diện của một sự kiện hoặc kết quả bất lợi làm giảm thiểu hành vi đi kèm sau đó. Có 2 loại trừng phạt:

Punishment is the presentation of an adverse event or outcome that causes a decrease in the behavior it follows. There are two kinds of punishment:

– Trừng phạt tích cực, có lúc được gọi là trừng phạt ứng dụng, là đưa ra một sự kiện hay kết quả khó chịu để làm giảm đi phản ứng đi kèm sau đó. Phát vào mông con trẻ khi chúng cư xử không đúng là ví dụ về củng cố ứng dụng.

Positive punishment, sometimes referred to as punishment by application, presents an unfavorable event or outcome in order to weaken the response it follows. Spanking for misbehavior is an example of punishment by application.

– Trừng phạt tiêu cực, còn được gọi là trừng phạt loại bỏ, xuất hiện khi một sự kiện hay kết quả dễ chịu bỏ loại bỏ sau khi hành vi được thực hiện. Lấy lại máy chơi game sau khi con trẻ cư xử không đúng là ví dụ về củng cố tiêu cực.

Negative punishment, also known as punishment by removal, occurs when a favorable event or outcome is removed after a behavior occurs. Taking away a child’s video game following misbehavior is an example of negative punishment.

Ở cả hai trường hợp trừng phạt, hành vi đều giảm đi. In both of these cases of punishment, the behavior decreases.

Khung thời gian củng cố. Reinforcement Schedules

Skinner cũng phát hiện ra rằng thời gian và cách thức làm xuất hiện hành vi được củng cố cũng đóng một vai trò quyết định tốc độ và mức độ lĩnh hội (học tập) của chủ thể. Ông đã chỉ ra một số khung thời gian củng cố khác nhau:

Skinner also found that when and how often behaviors were reinforced played a role in the speed and strength of acquisition. He identified several different schedules of reinforcement:

– Củng cố liên tục là thực hiện củng cố mỗi lúc phản ứng xuất hiện. Việc học tập có xu hướng xuất hiện tương đối nhanh, tuy nhiên mức phản ứng là khá thấp. Sự biến mất (hay dập tắt) cũng xuất hiện khá nhanh ngay khi ngưng củng cố.

Continuous reinforcement involves delivery a reinforcement every time a response occurs. Learning tends to occur relatively quickly, yet the response rate is quite low. Extinction also occurs very quickly once reinforcement is halted.

– Khung thời gian củng cố tỷ lệ cố định là một dạng củng cố bán phần. Phản ứng chỉ được củng cố ngay khi một số phản ứng đã xuất hiện. Điều này thường sẽ đưa đến mức phản ứng khá ổn định.

Fixed-ratio schedules are a type of partial reinforcement. Responses are reinforced only after a specific number of responses have occurred. This typically leads to a fairly steady response rate.

– Khung thời gian củng cố theo quãng cố định là một dạng củng cố bán phần khác. Củng cố chỉ xuất hiện sau một quãng thời gian nhất định nào đó trôi qua. Mức độ phản ứng cũng khá ổn định và bắt đầu tăng dần khi thời gian củng cố đến gần, và chậm dần ngay sau khi củng cố đã được thực hiện.

Fixed-interval schedules are another form of partial reinforcement. Reinforcement occurs only after a certain interval of time has elapsed. Response rates remain fairly steady and start to increase as the reinforcement time draws near, but slow immediately after the reinforcement has been delivered.

– Khung thời gian củng cố tỷ lệ linh hoạt cũng là một dạng củng cố bán phần, củng cố lên hành vi sau khi một số lượng (không cố định) phản ứng nào đó đã xuất hiện. Nó sẽ đưa đến mức phản ứng cao và mức dập tắt hành vi chậm.

Variable-ratio schedules are also a type of partial reinforcement that involve reinforcing behavior after a varied number of responses. This leads to both a high response rate and slow extinction rates.

– Khung thời gian củng cố theo quãng linh hoạt là dạng cuối cùng trong củng cố bán phần do Skinner mô tả. Ở dạng này, củng cố được thực hiện sau một số khoảng thời gian (không cố định) nào đó trôi qua. Điều này đưa đến mức phản ứng nhanh và mức dập tắt chậm.

Variable-interval schedules are the final form of partial reinforcement Skinner described. This schedule involves delivering reinforcement after a variable amount of time has elapsed. This also tends to lead to a fast response rate and slow extinction rate.

Ví dụ về Điều kiện hóa từ kết quả. Examples of Operant Conditioning

Ta có thể thấy khá nhiều ví dụ về điều kiện hóa từ kết quả trong cuộc sống quanh ta. Hay thử nghĩ đến con trẻ làm xong bài tập về nhà để được cha mẹ hay thầy cô giao khen thưởng, hoặc nhân viên hoàn thành công việc được giao để được tuyên dương hoặc thăng tiến.

We can find examples of operant conditioning at work all around us. Consider the case of children completing homework to earn a reward from a parent or teacher, or employees finishing projects to receive praise or promotions.

Một số các ví dụ khác về điều kiện hóa từ kết quả trong thực tế: Some more examples of operant conditioning in action:

Nếu trẻ quấy phá trong lúc đi mua đồ, bạn có thể cho con cái gì con thích để chúng ngưng la hét. Vì lúc đó bạn đã thực hiện củng cố tích cực thói hư tật xấu đó nên lần tới có thể con sẽ lại la hét quấy phá để lại được bạn cho đồ.

If your child acts out during a shopping trip, you might give him a treat to get him to be quiet. Because you have positively reinforced the misbehavior, he will probably be more likely to act out again in the future in order to receive another treat.

Sau khi hoàn thành một vai trong vở kịch ở rạp hát, bạn được khán giả vỗ tay tán thưởng. Những tràng pháo tay đóng vai trò như củng cố tích cực khuyến khích bạn thử thêm nhiều vai diễn khác.

After performing in a community theater play, you receive applause from the audience. This acts as a positive reinforcer inspiring you to try out for more performance roles.

Bạn dạy chú chó ở nhà cách tìm lấy đồ cho bạn bằng cách khen ngợi và vỗ đầu nó những lúc nó làm được.

You train your dog to fetch by offering him praise and a pat on the head whenever he performs the behavior correctly.

Một giáo sư nói sinh viên rằng nếu chúng đi học đầy đủ trong cả học kỳ thì chúng sẽ không phải thi bài cuối khóa. Bằng cách bỏ đi kích thích khó chịu (bài thi cuối khóa) sinh viên đã bị củng cố tiêu cực để đến lớp thường xuyên.

A professor tells students that if they have perfect attendance all semester, then they do not have to take the final comprehensive exam. By removing an unpleasant stimulus (the final test) students are negatively reinforced to attend class regularly.

Nếu bạn không thể nộp đồ án đúng hạn, sếp bạn sẽ tức giận và phê bình hiệu suất làm việc của bạn trước mặt đồng nghiệp. Đây chính là trừng phạt tiêu cực giúp hạn chế việc nộp trễ trong tương lai.

If you fail to hand in a project on time, your boss becomes angry and berates your performance in front of your co-workers. This acts as a positive punisher making it less likely that you will finish projects late in the future.

Một cô gái trẻ không dọn dẹp phòng khi mẹ nhắc nhở, bố mẹ cô đã tịch thu điện thoại của cô cho đến hết ngày. Đây chính là một ví dụ về trừng phạt tiêu cực, trong đó một kích thích tích cực bị lấy đi.

A teen girl does not clean up her room as she was asked, so her parents take away her phone for the rest of the day. This is an example of a negative punishment in which a positive stimulus is taken away.

Trong những ví dụ trên, lời hứa hẹn hay khả năng nhận phần thưởng khiến hành vi gia tăng, nhưng điều kiện hóa từ kết quả cũng có thể được áp dụng để giảm thiểu hành vi. Việc áp dụng loại bỏ kết quả dễ chịu hoặc tiêu cực có thể được sử dụng để giảm hay ngăn ngừa những hành vi không mong muốn. Ví dụ, thông báo với trẻ rằng chúng sẽ nhận được ít đặc quyền hơn trong giờ giải lao nếu chúng nó nói leo, trả treo trong lớp. Kiểu trừng phạt này có thể làm giảm những hành vi gây rối ở trẻ.

In some of these examples, the promise or possibility of rewards causes an increase in behavior, but operant conditioning can also be used to decrease a behavior. The removal of a desirable outcome or negative outcome application can be used to decrease or prevent undesirable behaviors. For example, a child may be told they will lose recess privileges if they talk out of turn in class. This potential for punishment may lead to a decrease in disruptive behaviors.

Kết luận. A Word From Verywell

Mặc dù thuyết hành vi có thể đã mất đi vị thể thống trị như nó đã từng trong những năm đầu thế kỷ XX, điều kiện hóa từ kết quả vẫn đóng vai trò khá quan trọng và thường là công cụ được sử dụng trong quá trình học tập và điều chỉnh hành vi. Đôi khi, hệ quả xuất hiện tự nhiên sẽ đưa đến thay đổi trong hành vi. Trong những trường hợp khác, phần thưởng và trừng phạt có thể được tích hợp dần dần giúp tạo điều kiện thay đổi.

While behaviorism may have lost much of the dominance it held during the early part of the 20th-century, operant conditioning remains an important and often utilized tool in the learning and behavior modification process. Sometimes natural consequences lead to changes in our behavior. In other instances, rewards and punishments may be consciously doled out in order to create a change.

Điều kiện hóa từ kết quả là thứ mà bạn có thể ngay lập tức nhận ra trong cuộc sống của chính bạn, dù là dạy dỗ con trẻ những điều hay lẽ phải hay huấn luyện chú chó cưng ngưng nhai gặm giày dép. Điều quan trọng cần nhớ là với kiểu học tập nào đi chăng nữa thì tất thảy đều cần thời gian. Hãy cân nhắc loại củng cố hay trừng phạt nào phù hợp nhất cho tình huống hiện tại và đánh giá lựa chọn khung thời gian củng cố phù hợp sẽ giúp đưa đến kết quả tối ưu.

Operant conditioning is something you may immediately recognize in your own life, whether it is in your approach to teaching your children good behavior or in training the family dog to stop chewing on your favorite slippers. The important thing to remember is that with any type of learning, it can sometimes take time. Consider the type of reinforcement or punishment that may work best for your unique situation and assess which type of reinforcement schedule might lead to the best results.

Tài liệu tham khảo. Sources:

Coon, D & Mitterer, JO. Psychology: A Journey. Belmont, CA: Wadsworth; 2014.

Domjan, M. The Principles of Learning and Behavior, Seventh Edition. Stamford, CT; Cengage Learning; 2015.

Nguồn: https://www.verywell.com/operant-conditioning-a2-2794863

Như Trang.