Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata'

Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata' 1

Sejak setidaknya Computex, Intel telah meningkatkan kekhawatiran dengan pengulas tentang jenis tes yang kami jalankan, yang cenderung digunakan oleh pengulas aplikasi, dan apakah tes tersebut menangkap kinerja 'dunia nyata'. Secara khusus, Intel merasa bahwa terlalu banyak penekanan pada tes seperti Cinebench, sementara aplikasi yang benar-benar digunakan orang praktis diabaikan.

Mari kita dapatkan beberapa hal dari depan.

Setiap perusahaan memiliki tolok ukur yang lebih disukai dan tolok ukur yang tidak disukainya. Fakta bahwa beberapa tes berjalan lebih baik pada AMD versus Intel, atau pada Nvidia versus AMD, adalah tidak, dalam dan dari dirinya sendiri, bukti bahwa tolok ukur telah sengaja dirancang untuk menguntungkan satu perusahaan atau yang lain. Perusahaan cenderung meningkatkan kekhawatiran tentang tolok ukur yang digunakan pengulas ketika mereka menghadapi tekanan persaingan yang meningkat di pasar. Anda yang berpikir Intel mengajukan pertanyaan tentang pengujian yang kami gunakan bersama oleh sebagian pengulas karena kalah dalam banyak pengujian itu tidak salah. Tetapi hanya karena sebuah perusahaan memiliki alasan yang mementingkan diri sendiri untuk mengajukan pertanyaan, tidak secara otomatis berarti bahwa perusahaan itu salah. Dan karena saya tidak menghabiskan banyak waktu dan sesekali melakukan pengujian perangkat keras untuk memberi orang ide keliru tentang bagaimana kinerjanya, saya selalu bersedia untuk meninjau kembali kesimpulan saya sendiri.

Berikut ini adalah pemikiran saya sendiri tentang situasi ini. Saya tidak mengklaim untuk berbicara dengan pengulas lain selain saya.

Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata' 2Orang bertanya-tanya apa pendapat Maxon tentang ini, mengingat bahwa itu adalah mitra Intel utama di SIGGRAPH.

Apa Arti Sebenarnya 'Dunia Nyata' Sebenarnya?

Menjadi pendukung tolok ukur perangkat keras dunia nyata adalah salah satu pendapat paling kontroversial yang bisa dipegang seseorang dalam komputasi. Saya telah bertemu orang-orang yang tidak perlu peduli tentang perbedaan antara tes sintetis dan dunia nyata, tetapi saya tidak pernah ingat bertemu dengan seseorang yang berpikir pengujian dunia nyata tidak relevan. Fakta bahwa hampir semua orang setuju tentang hal ini tidak berarti semua orang setuju di mana garis berada di antara dunia nyata dan tolok ukur sintetis. Pertimbangkan skenario berikut:

    Pengembang membuat tolok ukur komputasi yang menguji kinerja GPU pada perangkat keras AMD dan Nvidia. Ini mengukur kinerja yang harus ditawarkan oleh keluarga GPU dalam CUDA dan OpenCL. Perbandingan menunjukkan bahwa hasilnya memetakan dengan cukup baik untuk aplikasi di lapangan. Perusahaan rendering 3D membuat versi mandiri dari aplikasinya untuk membandingkan kinerja di seluruh CPU dan / atau GPU. Tes mandiri secara akurat menangkap kinerja dasar dari suite rendering 3D (sangat mahal) dalam tes sederhana, mudah digunakan. Perusahaan rendering 3D menciptakan sejumlah adegan uji untuk membandingkan aplikasi lengkapnya. Setiap adegan berfokus pada menyoroti teknik atau teknologi tertentu. Mereka secara kolektif dimaksudkan untuk menunjukkan dampak kinerja berbagai fitur daripada menawarkan render tunggal secara keseluruhan. Sebuah game menyertakan uji benchmark bawaan. Alih-alih meniru adegan yang tepat dari dalam game, para pengembang membangun demo yang menguji setiap aspek kinerja mesin selama periode beberapa menit. Tes ini dapat digunakan untuk mengukur kinerja fitur-fitur baru dalam API seperti game DX11.A termasuk tes benchmark bawaan. Tes ini didasarkan pada peta tunggal atau peristiwa dalam game. Ini secara akurat mengukur kinerja dalam peta atau skenario tertentu, tetapi tidak menyertakan data apa pun pada peta atau skenario lain.

Anda akan memiliki pendapat Anda sendiri tentang yang mana dari skenario ini (jika ada) yang merupakan tolok ukur dunia nyata, dan yang tidak. Izinkan saya mengajukan pertanyaan yang berbeda – yang saya benar-benar percaya lebih penting daripada apakah tes itu "dunia nyata" atau tidak. Manakah dari tolok ukur hipotetis ini yang memberi tahu Anda sesuatu yang bermanfaat tentang kinerja produk yang diuji?

Jawabannya adalah: "Secara potensial, semuanya." Tolok ukur mana yang saya pilih adalah fungsi dari pertanyaan yang saya ajukan. Tes sintetik atau mandiri yang berfungsi sebagai model yang baik untuk aplikasi yang berbeda masih secara akurat memodelkan kinerja dalam aplikasi itu. Ini mungkin model yang jauh lebih baik untuk kinerja dunia nyata daripada tes yang dilakukan dalam aplikasi yang telah sangat dioptimalkan untuk arsitektur tertentu. Meskipun semua tes dalam aplikasi yang dioptimalkan adalah "dunia nyata" – mereka mencerminkan beban kerja dan tugas nyata – aplikasi itu sendiri mungkin merupakan pencilan yang tidak representatif.

Semua skenario yang saya uraikan di atas memiliki potensi untuk menjadi tolok ukur yang baik, tergantung pada seberapa baik mereka menggeneralisasi ke aplikasi lain. Generalisasi adalah penting dalam meninjau. Dalam pengalaman saya, pengulas umumnya mencoba menyeimbangkan aplikasi yang dikenal mendukung satu perusahaan dengan aplikasi yang berjalan baik di perangkat keras semua orang. Seringkali, jika fitur khusus vendor diaktifkan dalam satu set data, review akan menyertakan set data kedua dengan fitur yang sama dinonaktifkan, untuk memberikan perbandingan yang lebih netral. Menjalankan bendera khusus vendor terkadang dapat merusak kemampuan tes untuk berbicara kepada audiens yang lebih luas.

Intel Mengusulkan Pendekatan Alternatif

Hingga saat ini, kami telah berbicara secara ketat tentang apakah suatu tes adalah dunia nyata mengingat apakah hasilnya digeneralisasikan ke aplikasi lain. Namun, ada cara lain untuk membingkai topik. Intel mensurvei pengguna untuk melihat aplikasi mana yang sebenarnya mereka gunakan, kemudian memberi kami data itu. Ini terlihat seperti ini:

Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata' 3

Implikasinya di sini adalah bahwa dengan menguji aplikasi yang paling umum diinstal pada perangkat keras orang, kita dapat menangkap kasus penggunaan yang lebih baik dan lebih representatif. Ini terasa benar secara intuitif – tetapi kenyataannya lebih rumit.

Hanya karena aplikasi yang sering digunakan tidak menjadikannya tolok ukur yang baik secara objektif. Beberapa aplikasi tidak terlalu menuntut. Meskipun ada beberapa skenario di mana mengukur kinerja Chrome bisa menjadi penting, seperti ruang notebook kelas bawah, ulasan yang baik tentang produk ini sudah termasuk jenis tes ini. Dalam konteks penggila kelas atas, Chrome tidak mungkin menjadi aplikasi pajak. Apakah ada skenario pengujian yang dapat membuatnya melelahkan? Iya nih. Tapi skenario itu tidak mencerminkan cara aplikasi paling umum digunakan.

Pengalaman dunia nyata menggunakan Chrome di Ryzen 7 3800XSEEAMAZON_ET_135 Lihat Amazon Perdagangan ET identik dengan menggunakannya pada Core i9-9900K.SEEAMAZON_ET_135 Lihat Amazon Perdagangan ET Bahkan jika ini bukan masalahnya, Google menyulitkan untuk mempertahankan versi Chrome sebelumnya untuk pengujian A / B yang berkelanjutan. Banyak orang menjalankan ekstensi dan adblocker, yang berdampak pada kinerja. Apakah itu berarti pengulas tidak boleh menguji Chrome? Tentu saja tidak. Itu sebabnya banyak ulasan laptop mutlak melakukan menguji Chrome, terutama dalam konteks masa pakai baterai berbasis browser, di mana Chrome, Firefox, dan Edge diketahui menghasilkan hasil yang berbeda. Sesuaikan tolok ukur dengan situasi.

Ada saat ketika saya menghabiskan lebih banyak waktu menguji banyak aplikasi pada daftar ini daripada yang kita lakukan sekarang. Ketika saya memulai karir saya, sebagian besar suite benchmark berfokus pada aplikasi kantor dan tes grafis 2D dasar. Saya ingat ketika menukar GPU seseorang dapat secara bermakna meningkatkan kualitas gambar 2D dan WindowsUI Responsif UI, bahkan tanpa memutakhirkan monitor mereka. Ketika saya menulis untuk Ars Technica, saya menulis perbandingan penggunaan CPU selama decoding konten HD, karena pada saat itu, ada perbedaan yang berarti yang dapat ditemukan. Jika Anda memikirkan kembali ketika netbook Atom memulai debutnya, banyak ulasan berfokus pada masalah seperti responsif UI dengan solusi GPU Nvidia Ion dan membandingkannya dengan grafis terintegrasi Intel. Mengapa? Karena Ion membuat perbedaan nyata pada kinerja UI secara keseluruhan. Peninjau tidak mengabaikan masalah ini. Publikasi cenderung kembali kepada mereka ketika ada perbedaan yang berarti.

Saya tidak memilih tolok ukur ulasan hanya karena aplikasi ini populer, meskipun popularitasnya mungkin mencari dalam keputusan akhir. Tujuannya, dalam tinjauan umum, adalah untuk memilih tes yang akan digeneralisasikan dengan baik ke aplikasi lain. Fakta bahwa seseorang memasang Steam atau Battle.net tidak memberi tahu saya apa-apa. Apakah orang itu bermain Overwatch atau WoW Classic? Apakah mereka memainkan Minecraft atau No Man's Sky? Apakah mereka memilih game MMORPG atau tipe FPS, atau hanya berhenti di Goat Simulator 2017? Apakah mereka benar-benar memainkan game apa saja? Saya tidak bisa tahu tanpa lebih banyak data.

Aplikasi pada daftar ini yang menunjukkan perbedaan kinerja yang berarti dalam tugas-tugas umum biasanya sudah diuji. Publikasi seperti Puget Systems secara teratur menerbitkan perbandingan kinerja di Adobe suite. Dalam beberapa kasus, alasan mengapa aplikasi tidak diuji lebih sering adalah karena telah ada kekhawatiran lama tentang keandalan dan keakuratan paket benchmark yang paling umum memasukkannya.

Saya selalu tertarik pada metode yang lebih baik untuk mengukur kinerja PC. Intel benar-benar memiliki bagian untuk dimainkan dalam proses itu – perusahaan telah membantu dalam banyak kesempatan ketika datang untuk menemukan cara untuk menyoroti fitur baru atau memecahkan masalah. Tetapi satu-satunya cara untuk menemukan perbedaan yang berarti dalam perangkat keras adalah dengan menemukan perbedaan yang berarti di tes. Sekali lagi, secara umum, Anda akan melihat pengulas memeriksa laptop untuk kesenjangan dalam masa pakai baterai dan konsumsi daya serta kinerja. Dalam GPU, kami mencari perbedaan dalam waktu bingkai dan framerate. Karena tidak ada di antara kita yang dapat menjalankan setiap beban kerja, kami mencari aplikasi dengan hasil yang dapat digeneralisasikan. Di ET, saya menjalankan beberapa aplikasi rendering secara khusus untuk memastikan kami tidak menyukai vendor atau solusi apa pun. Itu sebabnya saya menguji Cinebench, Blender, Maxwell Render, dan Corona Render. Ketika datang ke pengkodean media, Handbrake sebenarnya adalah solusi masuk ke semua orang – tetapi kami memeriksa di H.264 dan H.265 untuk memastikan kami menangkap beberapa skenario pengujian. Ketika tes terbukti tidak akurat atau tidak cukup untuk menangkap data yang saya butuhkan, saya menggunakan tes yang berbeda.

Dikotomi Palsu

Perbedaan yang banyak diperdebatkan antara tolok ukur "sintetis" dan "dunia nyata" adalah pembingkaian masalah yang buruk. Yang penting, pada akhirnya, adalah apakah data benchmark yang disajikan oleh pengulas secara kolektif menawarkan pandangan akurat tentang kinerja perangkat yang diharapkan. Seperti yang dirincikan Rob Williams di Techgage, Intel terlalu senang menggunakan Maxon's Cinebench sebagai patokan pada saat-saat core CPU-nya mendominasi kinerja. Dalam posting terbaru tentang Medium, Intel Ryan Shrout menulis:

Hari ini di IFA kami mengadakan acara untuk menghadiri anggota komunitas media dan analis dengan topik yang sangat dekat dan sangat menyentuh hati kami – Kinerja Dunia Nyata. Kami telah mengadakan acara ini selama beberapa bulan sekarang mulai di Computex dan kemudian di E3, dan kami telah belajar banyak di sepanjang jalan. Proses ini telah memperkuat pendapat kami tentang tolok ukur sintetis: mereka memberikan nilai jika Anda menginginkan perspektif yang cepat dan sempit tentang kinerja. Kami masih menggunakannya secara internal dan tahu banyak dari Anda juga melakukannya, tetapi kenyataannya adalah mereka semakin tidak akurat dalam menilai kinerja dunia nyata bagi pengguna, terlepas dari segmen produk yang dimaksud.

Kedengarannya sangat memberatkan. Dia mengikutinya dengan slide ini:

Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata' 4

Untuk menunjukkan inferioritas tes sintetis, Intel menunjukkan 14 hasil terpisah, 10 di antaranya diambil dari 3DMark dan PCMark. Kedua aplikasi ini umumnya dianggap sebagai aplikasi sintetis. Ketika perusahaan menyajikan data tentang kinerjanya sendiri dibandingkan ARM, itu menarik trik yang sama lagi:

Intel Tiba-tiba Sangat Peduli Dengan Benchmarking 'Dunia Nyata' 5

Mengapa Intel merujuk kembali ke aplikasi sintetis dalam posting blog yang sama di mana ia secara khusus menyebutnya sebagai pilihan yang buruk dibandingkan dengan tes yang dianggap lebih unggul "dunia nyata"? Mungkin itu karena Intel membuat pilihan patokannya seperti yang dilakukan oleh pengulas kami – dengan pandangan terhadap hasil yang representatif dan dapat direproduksi, menggunakan tes yang terjangkau, dengan rangkaian fitur yang baik yang tidak crash atau gagal karena alasan yang tidak diketahui setelah pemasangan. Mungkin Intel juga mengalami kesulitan mengimbangi banyaknya perangkat lunak yang dirilis secara berkelanjutan dan mengambil tes untuk mewakili produk-produknya yang dapat diandalkan. Mungkin ingin terus mengembangkan tolok ukur sintetiknya sendiri seperti WebXPRT tanpa membuang seluruh upaya di bawah bus, meskipun secara bersamaan berusaha menyiratkan bahwa tolok ukur yang diandalkan AMD tidak akurat.

Dan mungkin itu karena seluruh framing sintetis-versus-dunia nyata buruk untuk memulai.

Pembaruan (9/5/2019): Satu hal yang saya tidak sebut adalah fakta bahwa kumpulan data aplikasi yang paling umum digunakan Intel diambil sepenuhnya dari notebook dan perangkat 2-in-1. Ini mengungkapkan hal ini dalam slide di atas. Kami tidak akan mengharapkan bahwa pembuat konten yang bekerja dalam aplikasi 3D seperti Blender, Cinebench, atau aplikasi kelas workstation serupa akan menggunakan 2-in-1. Implikasi bahwa aplikasi ini kurang penting karena basis instalasi yang rendah dilemahkan oleh fakta bahwa konfigurasi perangkat keras yang diukur Intel tidak mewakili sistem di mana kita mengharapkan aplikasi ini digunakan.

Sekarang baca:

Pos terkait

Back to top button