貴族壓力金耳朵們在自欺欺人嗎?－老音響資料庫/蘇桑部落格

唐凌按:在許多極為頂尖性的試聽比較機會中,當我坦率地向左右的金耳朵們表示我的耳朵無法分辨被比較的擴大機間有些什麼差異時,我常常會留意對方的表情,大多數的情況,我所發現的,並不是他們對我如此遲鈍的一臉疑惑,而是金耳朵們會逐漸地收斂自己,不再那麼放肆地評某一台擴大機的音色較為甜潤、清澈而另一台則稍硬一些並帶有金屬音。

　　我自己一直相信自己的耳朵並不是頂壞的,這種信心即使不能建立在我能聽到由信號產生器所發出的將近 18KHz 的聲音(相對地大約只有一半的人能聽到 15KHz 以上),而在其他機會裡,我仍然能夠得到一些印證。例如說,我與金耳朵們同行時,我常常會因為汽車剎車時所發出的一聲尖銳響聲(大約也在十數 KHz 以上)而驚奇地去找尋發出此尖聲的汽車,然而金耳朵們卻仍若無其事地邁著方步。

　　然而究竟什麼原因,使得一干金耳朵們,仍然熱衷於鑑賞式的評價呢?本文並沒有給我們明朗的答案,不過它卻給我們指出了正途,怎樣做比較、怎樣統計以及怎樣尋求比較近接的結論。

　　這是一篇極為珍貴的文章,儘管譯者為了存真,而譯得有些生澀。

　　在一些主要的音響雜誌上,到底有多少對擴大機所做的測試報告肯承認受測器材『不具本身特有的聲音』?失真如此低,頻率響應如此平坦,這台器材可說是『一條有增益的導線』。

　　然而這些同樣完美的放大機仍在許多『地下』刊物或音響極品沙龍裡受到主觀的評估。不可避免地,他們總是詳細地描述各擴大機獨一無二的聲音(很不幸的是,若干主觀的評論者常常在那些擴大機聽起來較輕快』,『甜美』,抑或『晦暗』、『粗糙』的意見上彼此不一致),許多音響器材銷售者都贊同這些主觀評論者的金耳朵,他們堅信這些這些經驗豐富的聆聽者的確可以輕易地辨別音響組件的差異,即使第一流的功率擴大機亦然。

　　即使有了這些彼此矛盾的論調,雙方似乎都未以科學的數據來支持各自的說法。那麼到底哪一邊才是正確的呢?再者,這些存在於不同器材,例如擴大機之間的歧異真的可以聽出來嗎?

　　身為科學研究者及業餘的音響迷,這種爭論不休的現象激起我們起而探討的興趣,於是我們試圖尋找出一些有關的數據來支持其中一方的說法。在一般性的音響雜誌裡可以找到許多有關這個主題的文章,但卻沒有可以直接應用的數據,我們與一些音響工業界的人士接觸過後也僅能得到非常有限的數據。我們還在技術性的音響雜誌中尋得一些較切題的文章,但是他們所做的測試不是涉及特殊的儀器設備就是使用了非音樂性的素材,例如 Sine 波等。

　　對此困境深加思索之後,我們決定建立一種可資信賴的方法來澄清這一切。於是根據我們所從事的供作在科學上的要求與原則,我們開始著手於這些試驗。

　　我們的測試結果顯示這些即將購買音響的人既不必受相互牴觸的意見所困惑,亦不應受到那些自詡知道哪些器材較好聽的金耳朵們所唬倒。本篇文章所描述的是一種精密的 A-B 測試,這個測試可以洞悉那些出現於主觀的評論文章或銷售者口中的相互牴觸的意見。

　　這個精密的測試法適用於任何音響組件上。我們用它來解決這樣的一個問題:聆聽者是否真能不矛盾地分辨出一流的功率擴大機聲音的差異?這些出乎意料──可能引起爭論──的結果可使人們對功率擴大機的性能水準及比較組件性能之 A-B 測試有新一層的認識。

　　在我們致力於建立科學的 A-B 測試的理論基礎幾個月後,供給我們研究的組件送來了,這使我們興奮的程度提高不少。這些慷慨的製造商出借的器材計有:Accuphase P300,Dynaco Stereo 400,Phase Linear 400 功率擴大機及一前置擴大機 Quintessence Model I。使用的喇叭揚聲器則是由我們這一群 17 個人所組成的聆賞會捐贈的,計有:Large Advent,Magnepan MG II 及 Fulton FMI 80。這個聆賞會的成員包括了 11 位普通聆賞者及 6 位自稱金耳朵的聆賞者。這 6 位金耳朵之中有二位職業音樂家,一位音響極品的銷售者。所有金耳朵們都擁有所謂的極品。

　　圖(一)表示了這個用以比較功率擴大機的 A-B 測試的設備安置情形。一個強力,多極的肘節開關可同時開關(multipole toggle Switch)功率擴大機的輸入與輸出,如此,擴大機『看到』的負載僅為揚聲器,而不會是另一擴大機的輸出。又,肘節開關沒有中間『關』的位置,因此我們駁接一個平時置於閉接位置的暫歇(斷離)開關。

　　最末的準備工作是對二部擴大機的輸出做仔細精密的匹配。首先送 1KHz 的正弦波進入前置擴大機,然後讀出跨過揚聲器接線端的電壓值。我們使其匹配電平在 0.1dB 以內,這是我們所使用的真空管電壓計解析度的極限。我們又以寬頻帶的 FM 台間雜音及 1KHz 方波來查驗先前的匹配是否良好,其結果都維持在 0.1dB 內。最後我們以 100H 及 10KHz 的正弦波來查驗輸出電平。在匹配過的功率擴大機,以其他頻率的正弦波及方波查驗的結果分別在 0.2dB 及 0.5dB 內。

　　我們未曾等化擴大機的頻率響應,否則就與這個測試的目的相牴觸。每一測試都藉功率擴大機上的增益控制以匹配電平,但有一個例外,這例外的一個不能用前述的方式來匹配:我們在其輸入端串聯一對 Cermet 電位器。後來的試聽比較顯示不同的電平匹配方法並不造成什麼影響。

　　接下來的六個星期裡,聆聽者參加了 14 個不同的測試。每一測試裡,每一聆聽者都接受一組(通常為 18 個,有時 12 或 8 個)A-B 比較。在這些比較的半數裡,先由一個功率擴大機放出音樂,然後換另外一座擴大機,試擴大機 A 或 B 先使用,我們稱之為 A-B 或 B-A 。在其餘比較中,我們讓音樂經由同一擴大機放出來,但是在音樂播放途中,我們把開關撥離擴大機 A,然後扳回同一擴大機 A 而不置於擴大機 B,我們稱之為 A-A(若使用的擴大機為 B,則稱為 B-B)。聆聽時並不知道 A-B,B-A,A-A 及 B-B 比較的次序。

　　這四種比較出現的頻率相同,但在事前先隨機安排使它們的次序混雜。聆聽者所要做的就只是判斷聲音特質是否已因開關的扳動而有所變化,於是他就在評分卡上的兩種可能答案中選取其一:他認為擴大機未變?或另一擴大機已被切入?然後把他這的評分卡與操作者的切換序相比較以決定他的分數。

　　前八個測試,我們使用切換法(I):聆聽者每作一次判斷,操作者即切換一次。切換時機則恰好在半分鐘的音樂播放中間,切換動作歷時 1/5 秒以使聆聽者知道已經切換過了。操作者在扳動肘節開關時同時按下斷離開關(這個技巧也可不讓聆聽者得到是否已切入不同擴大機的線索)。

比較音響組件性能之正確原則與方法

　　我們採用的測試步驟可以反映出一種原則,這種原則支配了我們在聆聽環境中比較音響組件性能之科學方法,我們將此原則彙要於次。

　　我們相信品論組件性能的最高前提是讓人們在正常的聆賞狀況中聽到經過準確再生的音樂。以電子器材來量測其性能或許有所幫助,尤其對設計者為然,但這種量測結果不能立刻與可聽覺的因素有必然的相關性。電子量測可能包含某些在聽覺上毫無影響的參數也可能漏去那些與音質有關的參數(Davis,1978)。更明顯的一點是,可量測的參數仍有一個聽覺上的極限,在此極限以內,人類的耳朵就無法辨識它們的差異(Fletcher,1953)。

　　因此我們確信,以聽覺來比較組件的性能才是正本清源之道。『A-B』試聽比較(在兩個單元間來回切換)是一種應為應用──亦被濫用──於這種比較的方法之一。但是此種 A-B 試聽法內藏許多陷阱。例如,組件的輸出電平應該藉電子儀器嚴密地匹配過(Hirsch,1975)。我們的測試結果提供了這種匹配所應該達到的精確度。Lipshitz 等(1979)曾做過更詳細的測試。藉人耳來作電平的匹配無法獲致足夠的準確度。此外,我們還應考慮待測組件與其以從麥克風到人類聽覺系統之間各環節之元件可能能產生的交互作用(Hodges,1974),當然這些元件內的殘餘失真與其他缺陷都應一併考慮(Moucieff, 1978; Moir, 1978)。

　　若不遵循科學的方法,即使完全符合前述要求的 A-B 測試仍不完全可信。欲使 A-B 測試的結果足以為科學上的證據,這個測試必須符合下列七項要求:

　　(1)測試程序應該基於『差異測試』,這是研究主觀現象的一種客觀方法(可見於Bindra 等,1965; Bryan 與 Parbrook, 1960; Gabrielsson Sjogren, 1972; Bose, 1973)。在差異測試中,受測的聆聲者並不宣稱較偏好哪一組件發出的聲音,他僅指出二者發出的聲音是否有所差異,如此一來,個人之品味或偏好的影響就被摒除(若分別以錄音及現場樂段為素材時,差異測試更可間接地指出到底哪一組件發出的聲音較近於現場音樂)。

　　(2)應該在『盲目』中聆聽。也就是說,在任一設定的時間內不應讓聆聽者察覺到底正在使用哪一組件。非盲目的聆聽結果可能被聆聽者的偏見所影響。

　　(3)每一聆聽者應被『隔離』使其不受他人的影響(Hope, 1978; Colloms, 1978)。

　　(4)測試狀況及輔助儀器設備都應交代清楚。測試結果可能與這些因素有關。

　　(5)應該包括控制測試。這些測試可評估主要變數之外的可能影響因素。控制測試應包括極限狀況或邊界研究使組件的差異顯現或消失。譬如說,如果聆聽者聽出了差異,則應該要求他再比較兩不同型的擴大機,甚或就在 A-B 測試中作同一擴大機的自相比較。如果無法使差異出現,或是在不同狀況下不能使差異消失,那麼此測試必然存在一未被發覺的系統因素同時偏置了測試結果。

　　(6)應以統計學的方法來處理結果,如此才能識別瞎猜的可能影響。當然獲得的數據或判斷的個數必須在統計上顯著(通常需要數百甚或數千個數據,我們的測試得到 1211 個聆聽判斷, Colloms 的為 143 個,Moir 576 個,Bindra 等 2048 個,Gabrielsson 與 Sjogren 則達萬個)。最後的結論亦應說明統計的信賴水平。

　　(7)研究者發表的數據在統計變量內應該可以再生。如果個人的研究結果與其他研究者研究同一測試之結果不盡相符時,在此歧異解決之前,這些數據仍不能算是正確。

　　就我們所知,幾乎所有的 A-B 測試──在陳列室、在家裡,或為了作組件性能之主觀評論──都不盡符合前列的七項要求,但其中有三個例外(Chadwick, 1978; Moir, 1978; Colloms, 1978)將討論於后。比較起來,心理聲學現象的專業研究者所使用、發表的 A-B 測試法通常較合於這七項要求──可見於 Bindra 等,Bryan 及 Parbrook, Gabrielsson 及 Sjogren。因此他們的結果就可被科技界接受為科學的證據。然而他們採用為素材的 Sine 波及許多專業化的儀器並不可能出現於一般典型的家居聆賞狀況中。

　　在本測試裡,我們遵循了前述七項要求,並採用心理聲學的研究方法來探討有關音響組件之種種。在我們整理兩年來的研究結果之同時,Moir, Chadwick 及 Colloms 等亦各自在英國發表了他們的測試結果。他們的方法差不多都符合我們的七點要求,諸位可發覺我們的結果與這些新近的研究相當一致。Moir 還提供了其他新近的研究以為參考,結果都相近。

　　以唱片為音源將不合於此種應具重複特性的測試工作。除卻兩個以外的所有測試所使用的錄音帶包括了風琴的現場錄音及摘錄自高品質唱片者。使用的製帶器材為:Braun TG 1000 錄音座,Mark Levinson JC-2 前置擴大機,Denon 103 唱頭,Decca International 唱臂及 Technics SP 10 唱盤。Tandberg 3000X 錄音座則用以播放帶子。

　　第一個測試乃經由 Advent 揚聲器來比較二擴大機之異同,其結果可窺得本項研究結果之端倪:聆聽者在 180 個判斷中僅對了 46%,這個結果與完全瞎猜對率 50% 很相近(『相同』與『不同』的切換次數相同,且僅此二種答案)。我們可以看出來,一個控制下的科學測試顯示所有參加聆聽者──普通人或金耳朵皆同──都無法一致地分辨出受測擴大機之區別。

　　我們一開始就認定功率擴大機本身以外的其他變數也一定會影響到擴大機相異處的可聽辨程度。第 13 與 14 個測試正是企圖在聆聽者的分數上指出這些可能的影響變數。

　　首先,我們研究每一次判斷時,聆聽時間的長短對判斷『相同』或『不同』的影響。雙倍的時間使分數從 46% 上升至 53%,亦即 90 次判斷中對了 48 次。這種改變在統計上並不顯著。大多數的聆聽者都說他們根據切換前後的一剎那間聲音的差異來做判斷。聆聽時間的增長對他們的幫助極小。或許是因為人類記憶對細微印象僅保留一段很短的時間(Sekuler Bauer,(1965)在精神物理學的研究裡發現類似的結果),這一點將在底下再度論及。

　　接下來要研究的變數是聲壓水平(SPL)。幾乎所有測試的平均 SPL 都在 80~85dB 間,有的在 70~75dB 及 90~95dB 重覆多次。結果顯示 SPL 對歧異的識別度並無抑制的影響。因此 SPL 上升或降低對結果的改善在統計上不顯著。

　　其次再研究音樂複雜度的影響。本研究所使用的音樂素材大多屬於小型樂團,偶或加上獨奏的樂曲。複雜的管弦樂使分數下降了一些,但在統計上不顯著:108 次判斷中有 47 個正確,即 44%。因此音樂的複雜並非本測試狀況中的主要變數。

　　揚聲器是否可能掩蓋了擴大機之間的差異?這是接下來所要探討的變數。某些揚聲器可能較易於顯現擴大機間細微的差異。我們以一些人認為是『現階段最高技藝』的Magnepan's MG II 替代 Advent。但是其結果並未達到統計上的顯著(162 個判斷中正確率為 54%)。

　　其次再研究潛能相差較大的擴大機的影響。為了使分數提高些,我們拿一頂級的功率擴大機與一較廉價的收音擴大機(Allied Model 395)內的擴大機部分相較,但是聆聽者仍然不能聽出它們的差別,252 個判斷中正確率為 49%。

　　至此為止,所有聆聽者都未能一致地聽出擴大機的差異。我們重新檢查一下儀器設備。甚至有一位聆聽者懷疑肘節開關是否真的撥動過呢?但在他瞥見擴大機輸出指示表上指針的移動時又不得不信了。

　　為了提高分數,我們又故意將擴大機之一的輸出電平較另一擴大機調高 1dB,我們以普通的音樂為素材,其中音符的範圍很少維持在 1dB 內。以切換法(I)操作時,這種不平衡的現象依舊未能聽辨:在 72 個判斷的正確率為 44%。

　　其次,我們想出另一種切換方式:切換法(II),以使辨識的行為較容易進行些。我們讓聆聽者在判斷時往復撥動開關,而不是僅扳動一次,同時也取消了以前在二擴大機切換中途的短暫的時間空檔。

　　在切換法 II 中,聆聽者親自操作開關,但他並不知道肘節開關上的『A』與『B』二位置究竟是接到不同或相同的擴大機上(在前後兩個判斷之間,聆聽者被送至另一房間,操作者就把信號線接成特定的 A-B 形式,然後才讓聆聽者回來操作開關)。聆聽者可在他作出判斷前的三分鐘內隨意撥動肘節開關。此時以不用暫歇開關。因此切換法 II 的開關效果是即時的。

　　我們讓擴大機的輸出作 1dB 的輸出補償,然後以切換法(II)重覆以前的測試項目。現在每一個聆聽者都做出了正確的判斷!我們終於摘出了一些可以聽辨的差異。

　　依此看來,切換方式好像就是主要的支配變數了。因此我們使用這種新的切換方式重覆了一些原先的測試項目,但此次我們重新使擴大機電平恢復平衡,並再度啟用兩部頂級的功率擴大機。其結果是:沒有可聽變的差異(96 個判斷中,正確率 45%)。換成 Fulton FMI 80 揚聲器仍就無法辨別擴大機的差異(36 個判斷中,正確率 50%)。

　　我們又懷疑錄音座或是錄音過程是否掩蓋了擴大機的差異。但,我們使用 Technics SL 1300 自動唱盤與 ADC XLM MK II 唱頭來播放最高品質的唱片仍未能使分數獲得改善,現場錄音帶亦未能改善此種局面。

　　為了對此項研究作個結論,先讓我們回頭看看先前因電平未匹配的程度降至 ½dB,則此時不論音樂來源是錄音帶或唱片,聆聽者均無法辨識相異處(24 個判斷中,正確率為 46%),此處使用的錄音帶包括了錄自唱片及現場錄音二種。若維持 ½dB 的不平衡,但聆聽素材卻換成 Heathkit Sine-Sq-uare Audio Generator Model IG-18 產生的 1KHz Sine 波,則聆聽者的分數為 100% 正確。

　　現在讓我們把這些結果綜合一下吧!就我們研究的變數範圍內及使用的器材種類而言,所有下列的因素均不會抑制電平匹配妥當的擴大機之可聽辨差異:平均聲壓水平、聆聽時間、音樂複雜度,錄音媒介、揚聲器廠牌、擴大機廠牌、或是 A-B 切換方式。對輸出電平不平衡達 1dB 的二功率擴大機而言,亦僅在聆聽者重覆,不停滯地親自扳動開關之時才能辨識出差異(即使用切換法 II )。在 ½dB 不平衡時,只能聽出單頻聲調之差異,對真實的音樂則無法辨別不同點──即使採切換法 II 亦然。這個因電平不平衡所得到的結果與 Hirsch(1975)所討論的及 Fletcher(1953)的結果均相符。

　　輸出電平達到平衡時,所有測試的整體分數為:17 位聆聽者所作的 1104 個判斷中,正確率 49.1%,這個結果與純粹猜選的預期比例 50% 相當接近。個別聆聽者的整體分數則從 35% 至 57% 皆有之。金耳朵們──即使那些自認曾聽出功率擴大機差異者──的分數並不比普通的聆聽者為佳。在我們刻意模擬的家居聆聽狀況裡,沒有一位受測的聆聽者肯定自己一直聽出功率擴大機的相異點。我們所使用的器材的性能水準已足以使它們之間的差異低於可聽辨的極限了。

　　這些結果使我們不得不問:在作功率擴大機的 A-B 比較中『聽到』的差異真的存在嗎?又有多少是想像出來的呢?我們已經識明,未精確匹配的輸出電平可誘使聆聽者做出違背事實的判斷。其他可能的原因則是偏見與貴族壓力(譯註:這裡所謂的『貴族壓力』大概是指,一般人總以為金耳朵們的耳朵的確比普通人高明些,因而熱切地期望他們可以品列各種器材之高下)。Brindra 等(1965)發現聆聽者想像不存在的差異還多過未能察覺真正出現的差異。就那些主觀的評論員們對頂極功率擴大機分歧的評價,我們的結果也提供了一種可能的解釋:不同的人可對同一件事物作出不同的想像。

　　某些讀者可能懷疑這些結果,那麼我們首先建議他們回想本文及比較測試時正確的原則與方法,數據之說服力在於他們賴以建立基礎的實驗方法。

　　其次,我們也期望這些心存懷疑的讀者親自來一次這種科學的測試以查覆我們的結果之再生性與代表性又是如何。

　　但是,在把我們結論擴充至其他與我們測試狀況不同的狀況下之時必須格外小心。可能在某些情況下,一些聆聽者可證明他們的確聽出功率擴大機之間的差異,我們期望這種證明與其是準則,無寧僅是例外罷了。當然了,我們不可能以『所有』音樂素材及『所有』類型的擴大機對『所有』聆聽者測試,但我們相信我們所做的測試乃在具有代表性的狀況中進行的。我們避免用同一類的輔助組件,專業捲帶等等,因為這種理想狀況不能代表大多數的家居聆賞狀況。

　　我們當然不把本項研究視作 A-B 比較的定論之作。相反的,以較科學的態度與方法評估各組件的努力過程中,我們希望它是一個有用的起步。我們應該繼續研究其他對功率擴大機差異之可聽辨度有所影響的變數。此外,我們還猜想前置擴大機,唱頭及其他組件之差異是否也應該和功率擴大機一樣不易聽辨,這個疑問可以用此處使用的方法逐一研究(揚聲器之比較則要求特殊方法以把輻射之方向性一併考慮)。

　　末了,我們想說的是,音響迷總是狂熱的搜集性能極致的組件,就像當年尋金者尋找大金礦一樣(譯註:指 1849 年,大批狂熱的尋金者湧入 California 採掘黃金一事)。然而這兩群追尋者都以其行動證驗了 James Bonner 說過的一句話:『人心自欺的能力是無限的』(取材自 Audio Amateur JAN. 1980)

　　今天我們在科學知識的學習過程中,最大的悲哀,乃是無可避免地受到商業化的影響,商業說全 IC 電路最好,學者(學習者)便認為 IC 真好,其實 IC 好在哪裡,好在裝配生產簡單,錢賺得快。如有故障,推說偶然故障,換一個也可以毫不臉紅。(5-36)

轉載音響技術第55期JUL. 1980 貴族壓力金耳朵們在自欺欺人嗎?/Thomas H. Smith Michael R. Peterson Peter O. Jackson 原著/楊瑾譯述