A/B Test(二) 十項原則與技巧 @ 老音響資料庫/蘇桑部落格

十項原則與技巧

　　以下我們將提出一些將A/B Test運用到Hi-Fi Stereo時的原則或技巧,這些原則或技巧未必然都是絕對的,但看我們實施A/B Test的程序及目的而定,有些原則可能因A/B Test的目的不同,而須特別予以要求,而另外一些則可予以忽略。然而不管怎樣,在決定應確遵某些原則之前,我們應先了解全部技巧運用的原理。

一、決定測驗目的與程序

　　這是很容易一開始就被忽略的原則,正如在前面我們所舉在音響店的試聽室裡比喇叭的例子一樣。雖然我們已經知道,我們「比」的目的,不外乎想在二者之中選擇其中的一個。換句話說,我們正遵循一般選擇的慣例:「不怕不識貨,就怕貨比貨」,企圖以比的方法來彌補我們對那兩對喇叭認識之不足,並透過「比」而選擇其中比較好的一對。

　　但是,你是否曾經認真地考慮過,我既然不識貨,我憑什麼比?比些什麼?只比那些在表面上可以看見、可以聽見或可以摸到的表徵嗎?那麼這些表徵能否獨立存在?如其能獨立存在,是不是具有品質鑑別的意義?或者說得更淺顯一些,有某種名牌喇叭,一般認為它低音很好,那麼我們便可以刻意去設計一種喇叭,低音比它更好,並以A/B Test來證明,這種新設計的喇叭,低音確實比那名牌的好,此時我們該如何來肯定「貨比貨」的結果呢?只是很保留地說它低音很好?那麼低音很好又代表了什麼實質的意義?能不能因為前一種喇叭之好,好在低音,而後一種的低音又尤有勝之,故而推論後一種的喇叭比前一種更好?如果不能這樣推論,那麼我們做A/B Test的目的何在?

　　因此,儘管A/B Test與貨比貨有些近似,唯其不宜直接去比好壞,因為好惡之心,易由塑造而生,當有人暗示「它低音很好」然後再加一句「不信你試試」的時候,很快地,你已經有了「低音好就是好」的錯覺,而專注地去比較兩者的低音,而事實上怎樣的低音才是好呢?你卻仍然沒有一點明確的概念。既然沒有「好」的明確概念,充其量所比的不過是低音的「份量」或「程度」而已──可能是因為低音的份量更多一些,也可能是因為低頻更往下延伸之故。

　　對付一個甚至好幾個僅憑份量以定好壞的人,似乎是一件極為棘手的事,甚或於當你碰到某些「護牌人士」(他自己使用或販賣的牌子總是天下第一)的時候,他先和你比份量,直到後來,你份量超過他了,他又說太多了不好的時候,會弄得你簡直不知如何是好。

　　切記,這時正是你正確運用A/B Test技巧的時候。

　　A/B Test程序經常可能因對象及目的的不同,有多種繁簡不同的安排,以下僅係一例:

情況:某人花了三千元買了一對所謂的發燒線。

A/B Test的目的:想證實三千元的喇叭線究竟是必要還是不必要。

程序安排:

　　第一步:做A/B辨別測試:非常單純的一種差異實驗,只比三千元的喇叭線和五十元的喇叭線,究竟在音質上有沒有差別?如果不能聽出明顯的差別(其具體做法,以下將分項敘述),A/B Test即到此為止。如果大家都能明確辨別,則續作下列測驗。

　　第二步:做摹倣辨別測驗:A/B辨別測驗既已證明三千元的喇叭線所表現的音質確與五十元的不同,但是一方面僅憑此不同你無法肯定它一定是好,而另一方面也無法對別人提出反證說它不好,此時即必須進行摹倣的時候,必須先考慮摹倣的可能性如何?意義何在?以喇叭線而言,你不應變更「普通導線」的本質,而僅在普通導線之外,插入一些可變的元件,例如電容電阻之類,甚至於修改分音器或增加一輔助之高音單體或加上等化設備等等,總之只要是不變更「普通導線」的事實一切方法均可加以嚐試,直至以普通導線加上你的摹倣修正措施之音質與使用發燒線之音質儘可能相近的程度,然後再提供做A/B辨識,此時,可能有兩個結果:a.兩者仍然明顯可辨,表示摹倣的失敗,必須再努力或根本放棄,而承認三千元的音色非用錢買不可;摹倣的結果已使兩者不能明顯可辨,表示要達成三千元那種音色,並非只有一種方法,此時可一方面分析兩者的難易、成本及可靠程度(可換一對同性質的導線,結果是否一樣?)等予以檢討,另一方面進行還原比較。

　　第三步:還原比較測驗:直接以五十元的線和三千元的線比好壞,只要是能分辨,結論極可能為三千元的為「好」。但現在我們已經研究出一種方法,以普通導線加上廉價的一個電容或另一個輔助單體,即可摹倣三千元導線的音色到不可分辨的程度,為了更進一步證實此種摹倣是否必要?是否確實更好?最好再做還原辨識測驗。此還原辨識測驗,最好能找到另外一批完全不知情的測驗對象進行之。方法是:以已摹倣和未摹仿兩者來比(但不宣佈),不只是比辨識(因為能辨別在第一步中已肯定),而是直接就比你喜歡或不喜歡。由於這項測驗已介入了主觀選擇成份,那麼在抽樣方式上,就要更合於統計原理的要求才是。

　　此一測驗的結果,如果較多的人喜歡未摹倣的音色,即證實三千元的喇叭線是多此一舉;反之如果有更多的人已歡已摹倣的音色,則說明三千元的喇叭現值得一試,但也可用別的方法代替。

二、實施精密校整

　　有句話說:「天底下沒有兩個相同的東西!」這是一句站在哲學或科學立場所說的話(至少時空不一樣),事實上就人類的感覺系統而言,世上真有不知多少東西像得根本無法辨別。而A/B Test的精義之一,就是把兩種一聽就有明顯分別的聲音,加以修正,再修正,直到難以分辨的程度,然後再把「修正量」抽離,使這些抽離的修正量成為音色差異的「因子」──或稱答案。設使此因子無法抽離,則任何A/B Test都是枉費。

　　因此,在真正的A/B Test開始前,必須實施校正工作。校正一般分為兩種:一是基線校正,一是修正量校正。

基線校正:

　　任何一件音響器材,都有屬於它自己的工作條件與能量。例如揚聲系統必有自己的效率、功率容量,而擴大機則有不同的輸出功率、靈敏度、割切特性...等等。

　　假如這些工作條件與能量,全被忽視的時候,就像常在音響店裡所看到聽到的A/B Test一樣:「你看:唱盤、唱頭、唱片都一樣,擴大機的調整鈕也完全不動...你聽切過來A,喇叭的聲音就開闊一點,切到B,聲音好像縮回去了許多...」天啊!這不是強迫輕丙級和重甲級選手拼老命嗎?

　　喇叭的效率有高低,同樣給一瓦的功率有的音量高到93dB,有的卻只有86dB,如果我們只叫兩對喇叭比音量,就像拳擊選手只比體重一樣,雙方「毫無準備」是未嚐不可。但現在我們要它們比的是音色,因此在其他方面,我們一定得使他們吃飽了、睡足了、精神養夠了才來比。

　　就一般說來,各種音響器材,在A/B Test前應作的基線校整項目大略如次:

　　喇叭：至少要做①音壓水平校整,並允許附屬於揚聲系統之等化器或電平調整做修正調整(不限於只能歸零)。做音壓水平校整時,應使用正弦連續信號並以聲平表量度,而不只是使兩者功率一樣或聽起來聲音一樣大。因為人耳對音量大小的辨別相當遲鈍,往往兩個相差數dB的音量,一個聽起來充實一點,但並不是大聲一點;另一個聽起來少掉一些聲音,而不是聲音小一點,在此情形下,如果你不做嚴密的聲壓校正,可能真會相信某些「玩家」的妙論,說什麼有些聲音聽不到了......等等。再者,等化器或電平調整鈕等,既是附屬於揚聲系統,目的是供配合音場調整用的,我們既不在無響室內做A/B Test,沒有理由要求它們完全歸零。

　　然後切記:功率容量為100瓦者不能和10瓦的比,落地的大傢伙,不該和小巧的書架型比,除非「弱者」願意比,且亦只限於雙方的工作容量之內,而不能開到邊際去比,10瓦的喇叭開10瓦,和100瓦的喇叭開10瓦,是不公平的,當然開得太小了,對100瓦的那對來說也不相宜。

　　喇叭線：至少要做直流電阻校正,因為直流電阻不只影響效率,更與阻尼有關。

　　擴大機：要校正的地方相當多,例如電源電壓、開機時間、溫升、靈敏度(增益)、及各項特殊控制器等等。要特別說明的是:①高低音控制器在基線校整時,以規零為宜;②如比後級,要在後級調增益;③注意輸出入阻抗的影響;④除非比過荷特性,不要接近過荷點──最好在滿載點下-10dB去比;⑤要特別重視修正量校正(下有詳述)。

　　唱盤：一般甚少做A/B Test,如有也是做淨特性──如轆聲、雜音、哼聲、顫抖等,只要特別注意外加附件如基座、唱頭、防塵等的影響就是了。

　　錄音座及錄音帶：由於每一台錄音機對每一種錄音帶的適應性不一樣,所以除非再相當精密的實驗室中,可以做淨特性比較之外,一般的A/B Test是不合理的。例如以兩台錄音座同放一捲錄音帶或者以同一錄音座試A/B兩種錄音帶,我們只能說A帶或B帶更適宜合於此錄音座而已,這是一種相互的關係而非單純本身的差異所致,是故極可能換了另一台錄音座時,B帶會有更佳的表現。

　　一種常用於錄音設備的A/B Test方式,是自身的未經錄音/已經錄音的比較。這種比較必須是錄放音頭互為獨立的錄音座方能實施。其比較的可能性是:

　　①選擇更適合的錄音帶:用同一台錄音座,不斷換用不同的帶子,每一次均以未經錄音為A,而已經錄音為B,找出A、B最難分辨者為最適合的帶子。

　　②選擇更適合的錄音機:方法同上,只是每次用相同的錄音帶。

　　不管是選帶子或選錄音機,錄音電平的調整是不可缺少的,而且要多做試驗,因為有些錄音帶要錄進較高的電平,才能表現其特點。

　　唱頭：與錄音座相反的,在音響愛好者中,拿唱頭比唱頭的人,可能較拿喇叭比喇叭的人更多,但大多數人都忽視了①負載阻抗②負載電容③輸出電平等的基線校正工作,既未做基線校正,那麼一個最佳負載阻抗為2歐姆,另一為20歐姆;一個最佳負載電容為500P,另一為250P;一個輸出為0.2mV,一個為0.02mV,它們的音色當然不一樣。

修正量校正：

　　基線校正的目的是令A/B兩者均儘可能在同樣的條件下工作,看它們的表現有何不同。如果發現確有可辨的不同,接著我們可以試試調整一下它們的工作條件,看是否能有同樣的表現。套句俗話說:修正量校正,就是要試一試『勤』是不是真能補拙,亦即是:為了達成那樣一個效果,除了既有的方法之外,是不是可以找出另外一種方法?

　　修正量校正不同於基線校正,可以有一定的規則可循,它往往需用到操作人個人的智慧與經驗,找出它們之所以不同的原因,然後就此原因分析應修正之處加以修正之。

　　一個簡單的例子,例如我們確已發現三千元一對的喇叭線確與普通導線的音質有所不同,那麼我們可以嘗試做修正量校整的地方至少包括:

　　①把擴大機的音質控制鈕稍加調整看看,能不能摹倣出三千元一對的喇叭線的音色,一直修正到非常接近的程度,然後再進行正式的A/B Test。

　　②把喇叭上的等化器或電平調整稍加調整看看,儘可能去摹倣,然後A/B Test。

　　③也許我們還可以在普通導線或分音器上動些腦筋,加一些附加的小零件,甚或加上一只補助高音,也使它們儘可能接近三千元一對喇叭線的音色。

　　修正量之修正通常比較費時而且費腦筋的,因為各種複雜的因素你必須同時考慮,有時可能只修正一個變數就得到你希望得到的結果了,有時則須使各種變數同時做不等量的調整,才能摹倣出你所希望的音色。

　　修正量之修正唯一較基線校正方便而不受限制之處,是它並不限於被A/B Test器材本身之校正,凡一切可能造成同樣音色的方法部位均不妨加以嘗試,有時甚至可以考慮修改RIAA等頻率響應曲線。

　　假如修正量修正的結果,能夠極成功地摹倣其某種音色至不可分辨的程度,那麼至少便說明了:要那樣的音色,並非只有那一種方法,而其整個的推理過程是:

　　①A與B的音色能明顯分辨

　　②A的價值高,所以其音色應該是比較好的

　　③當B加上b和c之後,A與B+(b+c)已不可分辨

　　④A與B的差量就是(b+c)

　　⑤最後我們決定該選擇A或B+(b+c)

以符號表之

　　①A≠B

　　②A＞B

　　③A=B+(b+c)

　　④A-B=(b+c)

　　⑤選擇A或B+(b+c)

　　能做如此這般的推理,方是A/B Test的精義所在,是故舉凡真空管電晶體之爭,MC與MM的差別,鍍金與鍍銀線的運用等等,莫不可以此法加以明確分辨之。

三、實施參考測驗

　　一般的A/B Test均是在正常的音樂節目聆聽方式下進行的,例如在一普通的或設計良好的聆聽室內,播放一首或數首大家都熟悉的音樂,從樂聲中去鑑別A/B間的差異。

　　一個似是而非的理論是:音響器材的測試通常用正弦波或方波,可是音樂的訊號是迅息萬變的,所以正弦波或方波並不能真正分析出音響器材的音樂性。

　　我們並不願意完全否認這樣的論調,但不得不指出其可疑之處如次:

　　①正弦波、方波或三角波等看似單純的波形事實上它却是一種函數波,『函數』代表了某一部份完整的性質它並不是一種純粹的音調。

　　②我們利用視覺或儀表對規則的函數波形有較強的辨識能力的原理,抽出並安排了函數波形以供測試,除非你能證明聽覺對複雜的波形(如音樂訊號)有更強的辨別能力,否則函數波的運用是必要且有相當可靠性的。

　　一個最簡單的例子是:電視螢光幕上的檢驗圖不是方的就是圓的並加上一些簡單的規則的線條,我們只要將這些方向、圓的、直的線條修正到看起來是方是圓是直的程度,則任何複雜的畫面都不可能因為我們只調整簡單的方、圓、直而有所變形。但相反地,我們若拿一最熟悉的臉蛋(鳳飛飛?)來作為鑑別標準,用以校正,則其後果是沒有把握的。

　　正所以如此,所以我們從事正式的A/B Test前或後,不妨試著拿函數波代替最熟悉的音樂訊號來做參考測驗。尤其是當實施基線或修正量校整的時候,不妨做一次方波或正弦波的A/B鑑別比較,一直修正到最不可聽辨的程度,再做音樂聽辨測驗。

四、適當地宣述全部測驗過程及原理

　　不正確的A/B Test,除了過程及技巧安排的不當之外,也有甚大的可能是因為宣述的不當而造成。例如在比喇叭的時候,許多人一開始便宣述這兩對喇叭的各自屬性、售價等等,使接受測驗者產生一種心理壓力,覺得如果無法分辨那對售價高的,或一般風評極佳的喇叭,實在是一件丟人的事情。為了怕丟人,所以會用盡一切可能的方法,去偷得『預期』的答案,從而失去了A/B Test的實質意義與準確性。

　　典型的A/B Test過程及原理的宣述範例如下:

　　「現在我們要進行的A/B Test,被比較的兩對喇叭一定是ABC-1000另一為MN-200,究竟哪一個是A哪一個是B,我們暫時不宣布,甚至連操作人員自己也弄不清楚,因為我們的配線有一段是進入一個暗盒中,只有到測驗完畢,我們才將此暗盒打開......

　　「在正式進行聽辨之前,我們已將兩對喇叭做了種種的基線校整工作,例如ABC-1000的電平調整紐是歸零的,MN-200則把高音調到+3dB的位置。同時由於效率不一樣,我們以音壓計做了調整,使兩者所發出來的音壓都一樣......

　　「等一下我們把布簾放下來之後,喇叭的位置可能略做調整,以免已知的位置暗示你的鑑別......

　　「開始測驗時我們每十秒鐘切換一次開關,但開關再切換時並不一定由A換成B或由B換成A,也可能根本沒有變換A仍然是A,B仍然是B,每次切換時,前面的數字燈會加1......

　　「全部過程我們一共要切換100次,現在大家手上拿到的卡片一共有編有號碼的100個空格,等開始時,請你聽到『比較喜歡』的聲音時,就在空格中打一個圈圈,如果是不喜歡的聲音則空著不做任何記號......

　　「記住,隨時要核對前面數字燈的數目,應與卡片上的空格數字相符,否則就亂了......

　　「還有,請特別注意,每一段樂聲都要去分辨,也就是說空格上不做記號就是代表『不喜歡』而不是『聽不出來』,也就是在我們的答案中,只有『是』或『不是』,而沒有『不知道』,所有的『不知道』都可能被誤為『不喜歡』(為了避免差錯,可改為不喜歡則打叉,不能留空白)......

　　「在正式開始之前,我們先試一次,總共有十個樂段,大家試著聽辨,並看數字燈的變化......

　　「還有,切記,A與B的比例未必完全一樣的,亦即在100次中並不一定為A50次B為100次......

　　「有沒有任何疑問?」

　　在解答過少數受測者疑問後,A/B Test才正式開始。

五、要符合統計學原理

　　有些太過於草率的A/B Test,即使沒有暗示行為,也容易造成一面倒的情況。甚至於在測驗結果的引用方面,也會發生錯誤的判定。

　　以下是一般A/B Test應注意的事項:

　　①在對象的選擇方面,應視A/B Test的目的而做抽樣選擇。全部選擇所謂『金耳朵』們來擔任受測者固非不可,但應注意到如此選擇的意義,同時最好再選擇『一般人』做一次複測工作,比較其差異。或在全部受測者中,將『金耳朵』與『一般人』的答案分別統計之。唯應注意:所謂『一般人』的定義,應非一些販夫走卒之流,因為它們在Hi-Fi的音感上可能沒有一點起碼的概念。

　　②在A/B出現的機率上,應有相當的任意性,正如在籤筒裡抽籤的情況一樣,可能是:

　　AABBBAAABABBBA......

　　也可能是:

　　ABAAABABBB......

　　完全出現為AAAA......的情況不是不可能,却是極少極少可能。因此在正常測驗時,最好作隨機性安排,並將隨機的各種可能加以宣述,希望受測者不要企圖猜測。

　　③在抽樣數字上,要有足夠的數量,例如在受測的人數方面,二個人可能少一些,十個或二十個可能恰當一些,但也要考慮測驗的目的與代表性;而在A B變換的次數上,似亦應在數十次以上,否則可能會出現明顯的習慣或心理性偏向。而總的答案數──即人數乘上A B變換次數,似應在千以上。

　　④答案的分析與統計:可先做一次或數次完全盲目的猜測試驗,即不放音樂,另受測者再答案卡上任意填答,然後以其中一人之答案為準,去統計其他人的答案的答中率,例如:

　　甲AABABBAAABBA

　　乙BABAABAABBAB

　　丙ABABBABABABB

　　其中以甲為參考答案時,乙之答中次數為7次,丙答中4次,合計為11次,而總答案數為12×2=24次,故答錯次數為13次,其比率為:

　　答對:11÷24=0.45=45%

　　答錯:13÷24=0.55=55%

　　如果抽樣數字夠多,機率夠任意性時,答對與答錯應各佔50%,而現在既出現45%與55%,說明了其誤差約在±5%左右。

　　正式A/B Test的答中率,應以50%(加減誤差量)時為完全沒有辨識能力,而以100%為完全辨別,因此整個有意義的答案統計範圍為50%~100%之間,亦即當有75%的答中率時,其中50%是亂猜的,而只有25%為真正答對。

　　所或答案應當可以『再生』:這意思是說不只測一次如此,第二次做同樣的測驗,統計所得仍然一樣。因此在力求嚴密的A/B Test的進行中,如果預計得到10.000次答案,則不妨將之平分為五次或二次作答,以便看出再生的可能性如何。

六、操作技巧

　　一種最簡單的A/B Test用的操作設備就是開關箱,而有些擴大機上如設有A/B喇叭可以切換者,在簡易的A/B Test之中,自然也可供利用。

　　不過,如果是為了獲得較精確客觀的研究結果,那麼這個專供為A/B Test用的開關箱,就必須經過特殊的設計,以免在操作進行中發生許多麻煩。

　　讓我們先來看看一般開關箱用在A/B Test的理想操作方法:

　　①事先準備一份隨機切換表──事實上它就是標準答案,可能是切換二十次也可能是一百次。答案的獲得要有足夠的任意性已如前述,因此如用任意填寫ABBBBAB.....當無不可,若能事先以抽獎或擲骰子的方式排出三、五種次序,以供任意選用當必更佳。

　　②有了標準答案後,操作員即以此次序切換開關,並事先宣布每一切換的間隔時間,例如每九秒間隔一秒切換一次等等。

　　③操作員操作的情況,其切A或切B,不能讓受測者看到,同時要謹防遺漏造成提號之錯亂。

　　使用這種方法,有時候也可能碰到一些麻煩,例如某些擴大機的輸入或輸出,略帶有一點直流,因此每當切換到此機工作時,在切入的瞬間,有一聲輕微的卡啦聲,使人很容易辨別出此正是A或B的音響,即令受測者完全不知道此卡啦聲屬於A或B,但同一台機器則是必然的,因此所得到答案不市接近100%答對就是接近100%答錯。這項弊端的發生,如果不能在操作技巧上有效予以防止,也要將可能性向受測者宣述。再者,受測者中,若有某些人對A或B器材存有特別的偏好而希望刻意予以維護,此時更要謹防洩密的情事發生。

　　為了更周詳地防範不軌,採用一種完全自動計時,自動隨機切換,自動顯示次序,及自動紀錄變換過程的裝置自然最好莫過,不過這種裝置可能要花費相當的代價方能獲得,在一般業餘的情況下,以簡易的開關箱加上一些應有的技巧,總比那些明明告訴你:「你聽現在是A......」要好得多了。

七、盲目與隔離的必要性

　　合理的A/B Test,自然必須是既盲目又隔離的。所謂盲目,是指的完全不知道現在所發出的聲音究竟是A是B的情況之下,僅憑聽覺來辨認後作答。而隔離則是指受測者之間不能受到彼此的暗示或干擾的獨立作答情況。

　　在我們常見的非盲目亦無隔離的A/B Test的情況是:三、五發燒友相邀某晩前往某府去聽一聽張三最近花了十二萬買的那套前級。由是乎及至當晚,大家盛裝赴約,可能先聊上一陣,直到夜深人靜時,「聽」的活動才開始,此時十數萬的新機已接上了,並加上三十分鐘的溫機活動。

　　開始先放一段小提琴、接著鋼琴奏鳴曲......然後看有人提議聽什麼就放什麼,一面聽,大家一面討論,只要有人發表一點對這種聲音的某種形容(一面聽,一面絞盡腦汁,想該用什麼形容詞最恰當、最好別人沒用過的,但又很含糊的,使人必然能接受的......)大家就隨聲附和或加補充,於是乎在一陣七嘴八舌之中,一種完整的聲音的形象就被建立起來,這就是A。

　　接著,可能有人提議再聽聽那老傢伙吧!趁主人在換機的空檔裡,音樂沒了,於是大家又是一陣評頭論足,說這老傢伙的聲色本來如何啦!某人把某個電容器或真空管換掉已如何了!直到音樂又開始,但並不是從頭,因為聽了兩三個小時下來,他們可能想換換口味,鄧麗君、姚蘇容、日本曲......無所不來,有的人可能呼呼大睡了......這就是B。

　　日後一談起那天晚上的情形,大家無不津津樂道。大家都說那是一次A/B Test,A的聲音如何如何,B的聲音又是如何如何?不過有一種情形是極為可能的,那就是假如五個人分別回憶並敘述那晩A/B Test的情況,可能會有三種以上結論,但這只是一種可能,如果那天晚上有某權威光臨,則所有的人可能會將那位權威人士的評語,一字不漏地傳誦著。

　　這種所謂A/B Test的弊端是顯見的,假如你不願放棄這種很有氣氛的自由聆聽的方式的話,我們建議你不妨試作必要的隔離看看,也就是聽的時候,大家都不要表示意見,不要互相有所溝通,等到聽完,每個人再單獨地將自己的評語寫在紙條上,如果書寫有困難時,改用錄音來代替也不妨,但要後面一個錄音的時候根本不知道前面的人講了什麼。等所有的人錄完,再把全部錄音逐一公開放出來,這就是一種隔離測驗的結果。

　　而在盲目方面,主持人如若有興趣,也可以做一個簡單的實驗,也就是在操作過程中,就像平時那樣自然地,在聽到一半的時候,就停下一段時間,忙著把機器由A換成B,但特別注意動作是那樣做了,實際上則根本沒有換,亦即仍然保持著A的配線,然後找一張稍稍不同的唱片,放第一曲,自第二曲後仍一如前半段一樣,任君點唱,聽完了,你們發表高論罷!

　　像這樣,不事先宣布的盲目法,當然可能遭致某些人的非議,而事實上也不該如此做,而我們如此做的原因,只不過是想誇張一點它可能產生的謬誤罷了!

　　謬誤既生,重新再來,現在可以明白的告訴你不一定用A也不一定是B,可能左聲道為A右聲道為B(祇說說而已)。這一從頭再來的結果,可能使得大家都緊張起來的,大家摒息注意傾聽的,只是不要把A錯聽為B,就算不出醜了,管他什麼A的低音深一點、厚一點、寬一點,像老情婦......這些形容都變得不重要了。

　　因此,盲目與隔離才能使受測者真正進入聆聽的情況。

八、即時非即時與時間間隔的差異

　　所謂即時,是指A─B兩者之間透過立時的切換,非A即B的聆聽情形,當然這種立時基於技術上的要求,並非全無間斷地由A到B或由B到A。所謂非即時則指當聆聽過A之後,經過相當長的一段時間,再聆聽B的情況,即時的比較得助於開關箱的切換,當沒有開關箱擔任立時切換工作時,只好在聆聽中斷時實施重新配線工作。

　　有些人聲稱他對音色的記憶永保清新,這些人常常會對你描述他前幾天晚上甚至數週前數月前所聽到某一型喇叭的音色如何乾淨而動人,據而批評眼前這對喇叭比起他所聽到的那對是如何如何的不能令他滿意等等。

　　由於人類聽覺所激起的一些記憶究竟能保持多久呢?這也正是A/B Test想探求的一個答案。記住A/B Test原由聽覺醫學中沿用而來,如今我們亦不妨將之回歸到聽覺醫學中去。在以下,我們也許不提供『正確』的答案,因為所有的答案可能都是統計性的,但我們要提出一些可行的思考方向,其答案則有賴於讀者自己去觀察與實驗:

情況一:張三與李四交談,閉著眼睛,甚至隔著最不Hi-Fi的越洋電話,你都可以辨得出誰是張三?誰是李四?這是最簡單、最常見、最......的A/B Test形式,這種形式說明了人的聽覺對人類的語言有驚人的辨識能力。

　　情況二:聽一首奏鳴曲鋼琴和小提琴交互或同時出現,你也清晰可辨,絕不致弄錯。這也是A/B Test的一種形式,這種形式說明了人的聽覺對各種器物發出來的聲音亦有極強的辨解能力。

　　但現在,我們要把音色差異的量逐漸縮小,直到似可辨別又不能辨別的程度,它可能有以下情況:

　　情況三:我們試著在鋼琴上敲響C及C#音,並告訴你這是C這是C#,停幾秒,再敲C,你可能仍然可以辨別,但過了一個小時,兩個小時,或者再聽完一段音樂之後,任意地只敲C或C#中之一音,你能辨別嗎?(對象是一般人,而非音樂家)。

　　情況四:正在播放中的唱片,我們將Pitch Control稍稍調高一點,你能察覺嗎?能察覺的變化量是多少?在同樣的變化量中(例如由33⅓→34轉),把變化的時間拉長到一分鐘,(緩慢加速的)你仍然可以察覺嗎?或者再播完正確的33⅓轉後休息一段時間,再播34轉時你仍然可以分辨的間隔時間是多少?

　　情況五:把擴大機中的高音旋鈕略為旋歪一點,直到你能辨別出與在Flat位置時產生不一樣的音色,反覆比較,或請你的朋友操作,相信都能分辨,但經過一個小時,一天之後,請你的朋友再在任意位置上播放,你仍能分辨是不是在Flat位置嗎?

　　以上都是一些純聽覺性的A/B Test,它們在立時的情況下,大多可以做百分之百的辨認,但經過相當的時間間隔之後,辨別的能力就被削弱,甚至於到無法分辨的程度。

　　我們之所以引述這些狀況,主要在說明A─B聆聽的間隔時間與辨識能力的關係。在大多數的情況之下,A/B Test的實施,總希望盡一切可能去協助被測者,在合理的狀況下去辨認前後所發出的聲音。而且似乎並不極力反對聽完半個鐘頭後,休息並重新配線再聽的那種方式,只要你並不是以評頭論足的方式來尋求結論。不過,假如真是這樣,為了獲得統計學上合理的數字,恐怕我們必須耗費相當多的時間和精神。

　　雖然,有關音響器材的A/B Test,並沒有什麼特別的標準規定或論著指出最確切的聆聽時間及間隔,但是一些已經做過的實驗所採取的方式也許可供參考:

　　首先,正如前章中所提到的有關聽覺醫學中所採取的A/B Test方式,它是聆聽0.5秒然後間隔0.5秒,儘管在這種聽辨中,僅在辨別『有』或『無』。不過我們相信,在聽覺原理上,這應該是一個極靈敏的時間安排。這種方法,相信亦當可以被利用於前面曾經述及的『參考測驗』中,亦即使用方波、正弦波或其他函數波形作為訊源。唯當正式測驗時,因為採用了音樂訊號為訊源,聆聽時間不得不予延長,至少到數秒或數十秒間,因為0.5秒往往無法聽完一個音符。

　　至於間隔時間,就聽覺的聽便利而言,自然以愈短愈好,最好是立即的沒有間斷的比較,正如比較兩物的大小,使他們緊靠一起而不留間隙,最可一目瞭然。

　　在Thomas H. Smith的實際實驗中(詳見本刊55期30頁),採取了兩種方式,第一種是聆聽30秒後切換,切換間隔為0.2秒;第二種方式則是完全沒有間隔,且任聆聽者自己任意切換。實驗的結果,自然證明了後一種切換方式有最高的辨識能力。

　　然而,回過頭來,我們可能會考慮到,假如兩種音響器材之間所存再的音色差異,已經微小到必須由聆聽者任意且不間斷地切換開關才能分辨的話,那麼這種差異對一般的消費大眾顯然已失去了選擇的意義了。

九、注意本然存在的暗示行為

　　人,是感情的動物,所以在某些特殊的情況下,即令你用盡了各種防止「主觀判定」的方法,依然難免出現主觀的暗示,這種主觀暗示,是本然存在的,無法迴避。既無法迴避,便不要企圖去迴避,最好的方法,還是去承認並述明這項事實。

　　例如,當我們想將四聲道和二生到音響兩者拿來做一A/B Test的時候,非常可能的結果,是有更多的人喜歡四聲道音響,並且認為四聲道確實有較佳的效果。這正如同倒一杯白開水和一杯果汁,請大家分辨一下何者味道較佳的情況一樣,一旦遇到這種情形,便需要慎重地透過理智來處理。比方說,你應當慎重地提示和宣述,這不只是一時喜歡的問題,同時也要考慮長久的,或無可模擬的那種狀況下的喜歡──不喜歡──不需要的選擇。

　　另外一個可能發生必然的暗示選擇的例子,就是真空管與電晶體音色差異及喜好的問題。在這個例子上,如果我們不對問題做特別的提示和分析,直接就進行A/B Test,那麼其結果極可能是這樣的:

　　①真空管與電晶體的音色果然不同(事實)

　　②既然不同,所以某些人選擇或留戀真空管是有道理的(暗示)

　　然而,事實的真相如何呢？它可能是這樣的:電晶體的發展,除了剛開始的那一階段,可能是以真空管為摹倣對象,可是再經過一段極短的時間後,電晶體即已脫穎而出,自己朝著自己的方向發展去了。各自發展的結果,必然產生「差異」,但這種差異並不足以說明誰好誰壞。

　　所以在這種情況下,我們想追尋的結論應該是:假如電晶體願意放棄自己的個性,讓它去摹倣真空管,看它是不是也能做到,如果它能輕易地做到,便說明了這根本不是真空管和電晶體之爭,而是音色之爭。音色之爭不能拿真空管與電晶體去比,要比就一定要讓本來的電晶體和仿真空管的電晶體去比(這時可抽去必然存在的暗示),當然比出來的結果,並不僅僅是:真空管贏了!而更是電晶體的技術方向有修正的憑藉。

　　但反觀現在的情況如何呢?有一干人非真空管不要,另一干人則認為電晶體有更多優點,表面上是音色之爭,骨子裡卻是真空管和電晶體的針鋒相對,誰也沒有去想到:假如電晶體也能和真空管一樣又如何呢?大家能不能在感情上來接受這種殘酷的事實?

十、肯定比較結果所產生的意義:

　　假定,我們所做的A/B Test,一切均已遵循了上述的原則與方法去完成了。最後,我們仍不得不在提醒你要找出一個明確的,無所爭執的「結論」出來,這是很重要的。

　　例如,你非常仔細,非常認真地做了某項測驗,所得到的答對率是:

50%

　　這是結果,而非結論,如果你不去肯定結論,結果可能慢慢地會自動形成結論。那麼50%結果所形成的結論是什麼呢?當然也是50%。而事實上,50%所顯示的意義是什麼呢?那是即使亂猜也能得到的結果,因此若以分數計,50%應該是零分,而絕不是一半對一半答錯,甚而至於說:至少已經有50%的人同意了。

　　結論的肯定並不限於是數字上的,有時甚至是方法上的,換句話說,當你下結論的時候,必須重新再檢討一下你所用的方法、程序所得的這項結果,所表現的「特定意義」,這才叫做結論。如果無法得出肯定的結論時,不是宣布測驗的失敗,便要重覆你的測驗,否則可能連你自己都會被不正確的結果所欺矇了。

A/B Test的使用時機

　　在使用正規的A/B Test時,既有如此嚴格的限制,那麼是不是在不管任何狀況之下實施A/B Test都非要如此不可呢?那倒也未必,這主要看我們實施A/B Test的目的何在?是為了解決什麼問題?

　　可能有些問題,根本不是A/B Test所能解決得了的,這時如果你再做A/B Test的,那麼顯然地,你不是「錯用」了A/B Test,就是「利用」了A/B Test。「錯用」和「利用」的結果同樣可怕。以下我們僅例舉了一些常有的A/B Test,並對其做法有一些建議:

案例一:這是最常碰到的一種情況:當你走進音響店,表示想買一對喇叭的時候,不管你們對話是如何開始,以及全部過程怎樣,到了最後抉擇的關鍵時刻,大概都只會剩下兩對喇叭,一對是你真正看上了的,另一對是對方推薦的,在遲疑不決間,對方開腔了:

　　「真的不騙你,兩個音色差那麼遠,怎麼也不該選上......這樣吧!我用A/B Test給你去比較」說完一副認真的樣子,配線、調機器、做開關箱切換示範。

　　「注意哦,你看這樣是A,切過去是B,你聽聽,A的聲音是不是寬宏一些(相反地他可以對另一個人說聲音散一些定位不好),B的聲音窄了好多,擴散不良(相反的可說聲音結實多了,定位也好),現在你自己切切看」說罷,大方地把開關箱交給你。你試來試去果然不錯,於是你聽從他的建議選擇了A(或B)。

建議事項:

　　①一個公正的A/B擇一試驗,應該沒有事先的主觀渲染,因為它可能引導你一面倒。

　　②一個公正的A/B擇一試驗,應在盲目下進行,也就是在切換開關時只知道這是一個試聽時段,不能知道是A或B(其次序是任意安排的例如AABAABBBB......)而你只記下喜歡的次數,最後掀開對照,如果答中率到達自己滿意的比率以上(不妨以50%為零分,100%為滿分定60分為及格則答中率至少應為80%)才能確定你喜歡其中的一種而不是亂猜的。

　　③其他當然還要注意到兩個系統的效率、驅動功率、陳設位置的影響以及喇叭背後的調整鈕的影響等等。

案例二:很多音響技術的讀者,可能都有這樣的經驗:剛裝好了ESS或Hafler,一試聲,聲音果然不凡,於是便興冲冲地抱去和某同學的「山水原裝」機相較量。由於你已經有了基本的A/B Test知識,所以在開關箱前該校準的你都校準好了。由於你的A/B Test只是基於好奇而為,完全沒有二者擇一的偏頗顧慮,並未採盲目方式。經多次反覆試驗,你所得的結論是:「ESS真不賴,低音雖然弱了一些,高音卻較山水原裝機更透明而富於層次......」

建議事項:

　　①在沒有二者則一的偏頗顧慮下,雖非一定要採用盲目或隔離測驗,但人的感覺層次很難避免逐次加深或減淡的現象,因此為了你所得結論的濃度正確,在非盲目測驗後,最好補行盲目測驗,以便校驗所得結論的正確性,此時你只要正確辨別何者為ESS即可,但命中率似應到達100%,否則前述結論力量被削弱,如僅50%,則結論完全被否定。

　　②假如你A/B Test的目的是在探討技術上的差異,更進一步地你應將其中響應不同之處儘可能調整到相近(相差0.5dB以內)的程度內,喫而不捨地再比較,否則你所得的結論並不能給你什麼特定的意義,反會造成ESS本來就是這種音色的誤解,並把其責任推到用單電源不是差動設計、非直流放大......等等而忽略了RIAA網路才是造成音色差異的主因。

案例三:這種情況你可能還沒碰到過,但有一天也許會碰到,所以得預先有心理準備:有位朋友,花了數千元買了一對「發燒線」,並向你誇耀這對線是如何能改善音質而值得一試,並邀你某日到他家去一辨究竟。在大多數的情況之下,在你到達之前他可能已做好了事先準備工作(只是潛意識地覺得理應如此,並非刻意),即把發燒線暫時拆下,恢復原有的普通配線。在你到達之後,他開始放唱片,並靜靜地傾聽,到一個段落結束後,告訴你或請你協助更換成發燒線,此時一對高貴的、豪華的導線在你手中,不聽光看都很舒服。及至換上去之後,你們又開始重覆聆聽聽剛剛那段音樂了。聽了一會兒,或者他先暗示你換上這條線後的音色是如何改進了,或者他直截了當地徵詢你的意見......像這樣的過程,我們不願肯定其結果是什麼,但以下的建議事項卻足供參考。

建議事項:

　　①一般人對前後發生的事物,除非能證明其為同一事物,否則均有增強或衰減的趨向,是增強或衰減則受環境暗示所影響,你應該想一想,為什麼一般人在做A/B Test時,總習慣把舊的事物放在前面呢?這全然只是一種自然秩序嗎?

　　②想一想,如果這個秩序是由第三者來安排,進入盲目測驗程序,甚至做相反的暗示(使用普通線時說它是發燒線並加上主觀提示)其結果又會如何呢?

　　③真正比較正確的方法,仍然是用開關箱做任意式的盲目測驗。

　　④盲目測驗的結果如正確顯示了可辨別的差異性,應立即追尋以其他方式補償並摹倣的可能性及在摹倣後的可辨別性。例如是不是把擴大機上的高音旋多一點,或喇叭後面的高音增加2dB,就和發燒線放在平直位置,產生了不可辨的結果呢?如果確實是這樣,你就有理由說,你那數千元是白花了。

案例四:這種情況,可能只有技術人員才會發生。一般認為,技術人員總該客觀一些罷!事實上不然,因為經常地,他們也會忽略了方法或程序的問題。可能的情況是這樣的:在某雜誌刊物或廠商的資料上,發現了一種新的技術(可能是零件的也可能是電路的),你克服了一切困難,照著這個新技術,裝好了一套擴大機,於是你很急切的把這新的技術(例如FET或RET,或直流放大器等等)與老技術進行A/B Test,其結果可能有兩個:一是聽不出有什麼分別;二是顯然能聽出差別。而在一般的情況下,以後者所出現的機率是比較高的,同時也是你期待的。但你的期望並不應到此為止,而要再次地透過A/B Test去尋找其差異究竟發生在何處?直到:

　　①把新舊技術真正抽離並比較之,而不只是含混地比較RET與TR所裝的機器。

　　②肯定新舊技術的差異性後,接著比較其替代性如何?例如將TR加上或減去一些什麼,能不能等於RET?

　　因為只有這樣,你才不會騙人,也不會騙自己。

......................................................................................................................................................

A/B辨識測驗紀錄表使用說明:

1.A/B辨別測試紀錄表是依據A/B辨別測驗之原理設計,專供具研究性A/B比較測驗之用。

2.表中所有資料狀況力求詳實填註。

3.任意測驗為一必須實施之測驗,以此獲得測驗結果之誤差參考指標。

4.參考測驗與音樂聆聽測驗可視測驗目的而變更次序或重覆之次數,例如:

①基線校整→參考測驗→音樂測驗→修正量校整→參考測驗→音樂測驗→音樂測驗

②基線校整→音樂測驗→參考測驗→修正量校整→參考測驗→修正量校整→參考測驗→音樂測驗→音樂測驗

5.本表除作紀錄使用外,亦可當成測驗、操作、驗答等用途。測驗用時令受測者在空格內填A、B或○×等註記,驗答時則將所有A或○之空格打孔,套在受測表上點數答案。