▷ Intel đột nhiên rất quan tâm đến việc đo điểm chuẩn "thế giới thực"

Vì ít nhất là Computex, Intel đã bày tỏ mối quan tâm với các nhà đánh giá về các loại thử nghiệm chúng tôi chạy, những người đánh giá ứng dụng có xu hướng sử dụng và liệu họ có nắm bắt được hiệu suất "thế giới thực" hay không. Cụ thể, Intel cảm thấy rằng có quá nhiều sự nhấn mạnh vào các thử nghiệm như Cinebench, trong khi các ứng dụng mà mọi người thực sự sử dụng hầu như bị bỏ qua.

Chúng ta hãy lấy một số thứ ở phía trước.

Mỗi công ty có điểm chuẩn họ thích và điểm chuẩn họ không thích. Thực tế là một số thử nghiệm hoạt động tốt hơn ở AMD so với Intel hoặc Nvidia so với AMD, là không, bản thân nó, bằng chứng cho thấy điểm chuẩn đã được thiết kế có chủ ý để mang lại lợi ích cho công ty này hay công ty khác. Các công ty có xu hướng nâng cao mối quan tâm về các tiêu chuẩn mà các nhà đánh giá sử dụng khi phải đối mặt với áp lực cạnh tranh ngày càng tăng trên thị trường. Những người bạn nghĩ rằng Intel đặt ra câu hỏi về các bài kiểm tra mà chúng tôi chia sẻ với một số người đánh giá vì mất nhiều bằng chứng không phải là xấu. Nhưng việc một công ty có những lý do ích kỷ để đặt câu hỏi không tự động có nghĩa là công ty đó sai. Và bởi vì tôi không dành nhiều thời gian và thỉnh thoảng làm các bài kiểm tra phần cứng để cho mọi người hiểu sai về cách thức hoạt động của nó, tôi luôn sẵn sàng xem xét kết luận của chính mình.

Sau đây là những suy nghĩ của riêng tôi về tình huống này. Tôi không có ý định nói chuyện với các nhà phê bình khác ngoài tôi.

Người ta tự hỏi Maxon nghĩ gì về điều này, cho rằng anh ta là đối tác chính của Intel trong SIGGRAPH.

Ý nghĩa thực sự của "thế giới thực" là gì?

Hỗ trợ điểm chuẩn phần cứng trong thế giới thực là một trong những ý kiến gây tranh cãi nhất mà người ta có thể có trong điện toán. Tôi đã gặp những người không cần phải lo lắng về sự khác biệt giữa các bài kiểm tra tổng hợp và thế giới thực, nhưng tôi không bao giờ nhớ đã gặp một người nghĩ rằng các bài kiểm tra trong thế giới thực là không liên quan. Thực tế là hầu hết mọi người đều đồng ý với điều này không có nghĩa là tất cả mọi người đều đồng ý nơi ranh giới giữa thế giới thực và các điểm chuẩn tổng hợp. Hãy xem xét kịch bản sau đây:

Các nhà phát triển thực hiện các điểm chuẩn tính toán để kiểm tra hiệu năng của GPU trên phần cứng AMD và Nvidia. Đo hiệu suất mà họ GPU phải cung cấp trong CUDA và OpenCL. Các so sánh cho thấy rằng kết quả được chỉ định đủ tốt cho các ứng dụng trong lĩnh vực này. Công ty kết xuất 3D tạo ra một phiên bản ứng dụng độc lập để so sánh hiệu năng giữa CPU và GPU. Thử nghiệm độc lập nắm bắt chính xác hiệu suất cơ bản của bộ kết xuất 3D (rất tốn kém) trong một thử nghiệm đơn giản và dễ sử dụng. Công ty kết xuất 3D đã tạo ra một số cảnh thử nghiệm để so sánh toàn bộ ứng dụng. Mỗi cảnh tập trung vào làm nổi bật một kỹ thuật hoặc công nghệ cụ thể. Mục tiêu chung của nó là thể hiện tác động lên hiệu suất của một số chức năng thay vì đưa ra một đại diện chung duy nhất. Một trò chơi bao gồm một bài kiểm tra tham chiếu mặc định. Thay vì bắt chước những cảnh chính xác từ trò chơi, các nhà phát triển đã tạo ra một cuộc biểu tình thử nghiệm tất cả các khía cạnh của hiệu suất động cơ trong khoảng thời gian vài phút. Thử nghiệm này có thể được sử dụng để đo hiệu suất của các chức năng API mới như DX11. Một trò chơi bao gồm các thử nghiệm tham chiếu mặc định. Thử nghiệm này dựa trên một bản đồ hoặc sự kiện duy nhất trong trò chơi. Nó đo chính xác hiệu suất trên các bản đồ hoặc kịch bản nhất định, nhưng không bao gồm bất kỳ dữ liệu nào trên các bản đồ hoặc kịch bản khác.

Bạn sẽ có ý kiến của riêng mình về những kịch bản nào trong số này (nếu có) là điểm chuẩn trong thế giới thực và trường hợp nào không. Hãy để tôi hỏi một câu hỏi khác, mà tôi thực sự nghĩ là quan trọng hơn so với việc thử nghiệm có phải là "thế giới thực" hay không. Những điểm chuẩn giả định nào cho bạn biết điều gì hữu ích về hiệu suất của sản phẩm đang được thử nghiệm?

Câu trả lời là: "Có khả năng mọi thứ." Các tiêu chí tôi chọn là một chức năng của các câu hỏi tôi hỏi. Các thử nghiệm tổng hợp hoặc độc lập hoạt động như các mô hình tốt cho các ứng dụng khác nhau vẫn mô hình chính xác hiệu suất trong ứng dụng đó. Đây có thể là một mô hình tốt hơn cho hiệu suất trong thế giới thực so với các thử nghiệm được thực hiện trên các ứng dụng đã được tối ưu hóa cao cho các kiến trúc nhất định. Mặc dù tất cả các thử nghiệm trong các ứng dụng được tối ưu hóa là từ "thế giới thực", chúng phản ánh khối lượng công việc và nhiệm vụ thực tế, bản thân ứng dụng có thể là một phạm vi không đại diện.

Tất cả các kịch bản tôi đã mô tả ở trên có khả năng là điểm chuẩn tốt, tùy thuộc vào mức độ chúng được khái quát hóa cho các ứng dụng khác. Khái quát là quan trọng Trong đánh giá Theo kinh nghiệm của tôi, các nhà đánh giá thường cố gắng cân bằng các ứng dụng được biết là hỗ trợ công ty với các ứng dụng hoạt động tốt trên phần cứng của mọi người. Thông thường, nếu các tính năng dành riêng cho nhà cung cấp được kích hoạt trong một tập dữ liệu, đánh giá sẽ bao gồm một tập dữ liệu thứ hai có cùng tính năng bị vô hiệu hóa, để đưa ra so sánh trung lập hơn. Việc thực hiện các chỉ số dành riêng cho nhà cung cấp đôi khi có thể làm hỏng khả năng kiểm tra để nói chuyện với đối tượng rộng hơn.

Intel đề xuất các phương pháp thay thế

Cho đến nay, chúng tôi đã nói chuyện nghiêm túc về việc một bài kiểm tra có phải là thế giới thực hay không, xem xét liệu các kết quả có được khái quát cho các ứng dụng khác hay không. Tuy nhiên, có nhiều cách khác để đóng khung chủ đề. Intel đã khảo sát người dùng để xem họ đang sử dụng ứng dụng nào và sau đó cung cấp cho chúng tôi dữ liệu đó. Cái này trông như thế này:

Hàm ý ở đây là bằng cách thử nghiệm các ứng dụng phổ biến nhất được cài đặt trên phần cứng của mọi người, chúng ta có thể nắm bắt các trường hợp sử dụng tốt hơn và tiêu biểu hơn. Cái này cảm thấy Trực giác chính xác, nhưng thực tế phức tạp hơn.

Thực tế là một ứng dụng được sử dụng thường xuyên không làm cho nó trở thành một điểm chuẩn khách quan tốt. Một số ứng dụng không đòi hỏi nhiều lắm. Mặc dù có một số tình huống trong đó việc đo hiệu suất của Chrome có thể quan trọng, chẳng hạn như không gian máy tính xách tay cấp thấp, đánh giá tốt về sản phẩm này đã bao gồm cả loại thử nghiệm này. Trong bối cảnh của một người đam mê cao cấp, Chrome có thể không phải là một ứng dụng thuế. Có một kịch bản thử nghiệm có thể làm cho nó mệt mỏi? Có Nhưng kịch bản đó không phản ánh cách thức mà hầu hết các ứng dụng được sử dụng.

Trải nghiệm thực tế khi sử dụng Chrome trên Ryzen 7 3800X giống hệt với việc sử dụng nó trong Core i9-9900K. Ngay cả khi đây không phải là trường hợp, Google gây khó khăn cho việc giữ phiên bản Chrome trước đây để thử nghiệm A / B đang diễn ra. Nhiều người chạy tiện ích mở rộng và chặn quảng cáo, có ảnh hưởng đến hiệu suất. Điều đó có nghĩa là người đánh giá không thể đánh giá Chrome? Chắc chắn là không. Đó là lý do tại sao nhiều đánh giá tuyệt đối về portátiles làm hãy thử Chrome, đặc biệt là trong bối cảnh thời lượng pin dựa trên trình duyệt, nơi Chrome, Firefox và Edge được biết là tạo ra các kết quả khác nhau. Điều chỉnh các điểm tham chiếu đến tình huống.

Đã có lúc tôi dành nhiều thời gian để thử nghiệm nhiều ứng dụng trong danh sách này hơn bây giờ. Khi tôi bắt đầu sự nghiệp, hầu hết các bộ tham chiếu tập trung vào các ứng dụng văn phòng và các bài kiểm tra đồ họa 2D cơ bản. Tôi nhớ rằng bằng cách trao đổi GPU, người ta có thể cải thiện đáng kể chất lượng hình ảnh giao diện người dùng đáp ứng 2D và WindowsUI, ngay cả khi không cập nhật màn hình của họ. Khi tôi viết cho Ars Technica, tôi đã viết một so sánh về việc sử dụng CPU trong quá trình giải mã nội dung HD, bởi vì tại thời điểm đó, có thể tìm thấy sự khác biệt đáng kể. Nếu bạn nghĩ về sự ra mắt của netbook Atom, nhiều đánh giá tập trung vào các vấn đề như giao diện người dùng phản ứng nhanh với các giải pháp GPU Nvidia Ion và so sánh chúng với đồ họa tích hợp Intel. Why Because Ion tạo ra sự khác biệt thực sự trong hiệu suất tổng thể của giao diện người dùng. Người phản biện không bỏ qua vấn đề này. Ấn phẩm có xu hướng trở lại với họ khi có sự khác biệt đáng kể.

Tôi không chọn điểm chuẩn đánh giá chỉ vì ứng dụng này phổ biến, mặc dù mức độ phổ biến của nó có lẽ Nhìn vào quyết định cuối cùng. Mục tiêu, trong tổng quan, là chọn các bài kiểm tra được khái quát hóa tốt cho các ứng dụng khác. Việc ai đó cài đặt Steam hoặc Battle.net không cho tôi biết điều gì. Có phải người đó đang chơi Overwatch hay WoW Classic? Bạn có chơi Minecraft hay No Man's Sky không? Bạn có chọn các trò chơi MMORPG hoặc các loại FPS hay đơn giản là bạn dừng lại ở Goat Simulator 2017? Bạn có thực sự chơi trò chơi nào không? Tôi không thể biết mà không có thêm dữ liệu.

Các ứng dụng trong danh sách này cho thấy sự khác biệt đáng kể về hiệu suất trong các tác vụ chung thường được kiểm tra. Các ấn phẩm như Puget Systems thường xuyên xuất bản các so sánh hiệu suất trong Adobe Suite. Trong một số trường hợp, lý do tại sao các ứng dụng không được kiểm tra thường xuyên hơn là do đã có những lo ngại từ lâu về độ tin cậy và độ chính xác của các gói tham chiếu thường bao gồm chúng.

Tôi luôn quan tâm đến các phương pháp tốt hơn để đo hiệu suất của PC. Intel thực sự có một vai trò trong quá trình này: công ty đã giúp đỡ nhiều lần trong việc tìm cách làm nổi bật các tính năng mới hoặc giải quyết các vấn đề. Nhưng cách duy nhất để tìm ra sự khác biệt đáng kể trong phần cứng là tìm sự khác biệt đáng kể trong bài kiểm tra Một lần nữa, nói chung, bạn sẽ thấy người đánh giá kiểm tra máy tính portátiles Tìm kiếm những khoảng trống trong tuổi thọ pin và tiêu thụ năng lượng và hiệu suất. Trong GPU, chúng tôi tìm kiếm sự khác biệt về khung và thời gian khung. Vì không ai trong chúng tôi có thể thực hiện tất cả các khối lượng công việc, chúng tôi tìm kiếm các ứng dụng có kết quả tổng quát. Trong ET, tôi chạy một số ứng dụng kết xuất cụ thể để đảm bảo chúng tôi không thích nhà cung cấp hoặc giải pháp. Đó là lý do tại sao tôi đã thử Cinebench, Blender, Maxwell Render, và Kết xuất vương miện. Khi nói đến mã hóa phương tiện, Handbrake thực sự là giải pháp cho tất cả mọi người, nhưng chúng tôi kiểm tra H.264 và H.265 để đảm bảo chúng tôi nắm bắt được một số tình huống thử nghiệm. Khi các thử nghiệm chứng minh là không chính xác hoặc không đủ để thu thập dữ liệu tôi cần, tôi sử dụng một thử nghiệm khác.

Sai phân đôi

Sự khác biệt được tranh luận rộng rãi giữa các tiêu chuẩn "tổng hợp" và "thế giới thực" là sự hình thành của một vấn đề nghiêm trọng. Điều quan trọng, cuối cùng, là liệu dữ liệu tham chiếu được trình bày bởi những người đánh giá có đưa ra một cái nhìn chính xác về hiệu suất dự kiến của thiết bị hay không. Như Rob Williams đã nêu chi tiết trong Techthing, Intel đã rất vui khi sử dụng Cinebench của Maxon làm chuẩn khi lõi CPU chiếm ưu thế về hiệu năng. Trong một ấn phẩm gần đây về Medium, Intel Ryan Shrout viết:

Hôm nay tại IFA, chúng tôi đang tổ chức một sự kiện để hỗ trợ các thành viên của cộng đồng truyền thông và các nhà phân tích với một chủ đề rất gần gũi và rất cảm động đối với chúng tôi: hiệu suất trong thế giới thực. Chúng tôi đã tổ chức sự kiện này trong vài tháng, bắt đầu từ Computex và sau đó tại E3, và chúng tôi đã học được rất nhiều trên đường đi. Quá trình này đã củng cố ý kiến của chúng tôi về điểm chuẩn tổng hợp: chúng cung cấp giá trị nếu bạn muốn có một viễn cảnh nhanh và hẹp về hiệu suất. Chúng tôi vẫn sử dụng nó trong nội bộ và chúng tôi biết rằng nhiều bạn cũng đang làm điều đó, nhưng thực tế là bạn đang trở nên kém chính xác hơn khi đánh giá hiệu suất trong thế giới thực cho người dùng, bất kể phân khúc sản phẩm nào được đề cập.

Nghe có vẻ rất nặng nề. Thực hiện theo nó với slide này:

Để thể hiện sự thấp kém của các thử nghiệm tổng hợp, Intel chỉ ra 14 kết quả riêng biệt, 10 trong số đó được lấy từ 3DMark và PCMark. Cả hai ứng dụng thường được coi là ứng dụng tổng hợp. Khi một công ty trình bày dữ liệu về hiệu suất của chính nó so với ARM, công ty lại thực hiện lại thủ thuật tương tự:

Tại sao Intel đề cập đến các ứng dụng tổng hợp trong cùng một bài đăng trên blog, nơi nó đặc biệt gọi nó là một lựa chọn tồi so với các thử nghiệm được coi là vượt trội so với "thế giới thực"? Có lẽ đó là do Intel đưa ra quyết định tham chiếu như các nhà đánh giá của chúng tôi đã làm, với quan điểm về kết quả đại diện và có thể tái tạo, sử dụng các thử nghiệm giá cả phải chăng, với một bộ tính năng tốt không bị lỗi hoặc không biết vì lý do không biết sau khi cài đặt. Intel cũng có thể gặp khó khăn trong việc theo kịp số lượng phần mềm được phát hành liên tục và thực hiện các bài kiểm tra để đại diện cho các sản phẩm đáng tin cậy của mình. Bạn có thể muốn tiếp tục phát triển các điểm chuẩn tổng hợp của riêng mình, chẳng hạn như WebXPRT, mà không đặt tất cả nỗ lực vào xe buýt, mặc dù đồng thời cố gắng ám chỉ rằng điểm chuẩn AMD không chính xác.

Và có lẽ đó là bởi vì tất cả các khung tổng hợp so với thế giới thực là xấu khi bắt đầu.

Cập nhật (9/ /5/ 2019): Một điều tôi không đề cập đến là thực tế là các ứng dụng thu thập dữ liệu được sử dụng nhiều nhất của Intel được lấy hoàn toàn từ máy tính portátiles và thiết bị 2-trong-1. Điều này tiết lộ điều này trên slide trước. Chúng tôi sẽ không chờ đã những người tạo nội dung làm việc trong các ứng dụng 3D như Blender, Cinebench hoặc các ứng dụng lớp máy trạm tương tự sẽ sử dụng 2-trong-1. Hàm ý rằng ứng dụng này ít quan trọng hơn là do cơ sở cài đặt thấp bị suy yếu do thực tế là các cấu hình phần cứng được đo bởi Intel không đại diện cho sistema trong đó chúng tôi hy vọng ứng dụng này sẽ được sử dụng.

Bây giờ đọc:

Mục lục

Chuan den điểm đo Dot giới Intel nhiên Quản quotThe Rat Tam thứcquot việc

Intel đột nhiên rất quan tâm đến việc đo điểm chuẩn "thế giới thực"

Ý nghĩa thực sự của "thế giới thực" là gì?

Intel đề xuất các phương pháp thay thế

Sai phân đôi

Khuyến Khích: