banner
Hogar / Blog / En el banquillo del centro de datos de hiperescala
Blog

En el banquillo del centro de datos de hiperescala

Jun 13, 2023Jun 13, 2023

Como uno de los hiperescaladores dominantes en el mundo, Microsoft está a la vanguardia, impulsando la eficiencia en todos los frentes que puede en el diseño de servidores, almacenamiento, conmutación, software y centros de datos. Tiene que hacerlo o su presupuesto de capital y sus presupuestos operativos para la nube pública de Azure se lo comerán vivo.

Microsoft adoptó la religión del hardware de código abierto cuando se unió al Open Compute Project hace cinco años, que fue cuando el gigante del software también decidió enfrentarse a Amazon Web Services en el ámbito de la nube pública, tratando de superar a la plataforma en la nube de Google. Ha tenido éxito y se ha convertido en la segunda infraestructura y nube SaaS del mundo, pero hay mucho riesgo en el juego de gran capital de esta rica empresa.

Mientras estábamos en la Cumbre Global de OCP la semana pasada, nos sentamos y conversamos con Kushagra Vaid, distinguido ingeniero y gerente general de infraestructura de Azure en Microsoft. Al igual que sus pares en los mayores hiperescaladores y constructores de nubes públicas, Vaid tiene uno de los trabajos más difíciles del mundo, pero no lo sabrías mirándolo. (La élite de la infraestructura en los Estados Unidos – Urs Hölzle de Google, James Hamilton de Amazon Web Services y Jason Taylor de Facebook – son algunos de los pepinos más tranquilos, frescos y serenos de la industria de TI. Hmmm. . . Correlación No es causalidad, pero es sospechoso de todos modos.) Ponemos a Vaid en el banquillo, solo para descubrir que vive allí, en el asiento más caliente del mundo: el moderno centro de datos a hiperescala. Y cada vez hace más calor.

Timothy Prickett Morgan: ¿Cuánto del hierro que Microsoft compra para Azure se basa en los diseños que usted aporta al Open Compute Project en este momento? Por lo que sé, también utilizas maquinaria basada en los diseños de Facebook, o en material de Open19 aportado por LinkedIn, o en equipos OEM más tradicionales.

Kushagra vacío: Una gran mayoría del hardware que compramos se basa en nuestras especificaciones Open Compute. Yo diría que hoy está por encima del 90 por ciento, y que ha ido aumentando con el tiempo, pero ha estado en ese nivel durante los últimos dos o tres años. Para el resto de la maquinaria, es importante tener en cuenta que no todos los tipos de hardware están cubiertos por estas especificaciones, como servidores de cuatro y ocho sockets o para nuestro almacenamiento jerárquico, donde necesitamos nodos principales que también tengan conectividad Fibre Channel. como subsistemas de cinta. Tiene una cola muy larga, y menos del 10 por ciento se reducirá con el tiempo a medida que las especificaciones de Open Compute se vuelvan más completas.

TPM: Microsoft se unió al Open Compute Project hace poco más de cinco años. Lo que realmente quiero saber es el efecto que ha tenido la incorporación a OCP en la construcción de Azure. ¿Cómo habría sido Azure sin OCP? ¿Habría sido más costoso o más lento seguir la ruta OEM normal, como sospecho, o realmente no hubiera sido posible escalar tan rápido? ¿En qué medida ayudó esto a Microsoft a enfrentarse a Amazon Web Services, que tenía una ventaja tan grande? Sólo hay dos empresas que tienen alguna esperanza de alcanzar a AWS, y Google tiene que sacudir los árboles para cada cliente empresarial, pero Microsoft, gracias a esa vasta base empresarial de Windows Server, sólo tiene que lograr que presionen un botón que dice , "Hacer copia de seguridad de SQL Server en Azure" y otro botón que dice "Mover Active Directory a Azure" y tendrá una hiperescala inmediata y potencialmente millones de clientes.

Kushagra vacío: [Risas] El mayor beneficio que he visto, y de hecho puedes verlo cuando caminas por la Cumbre Global de OCP, es que los ODM han tomado nuestras especificaciones para el Proyecto Olympus y han ideado todo tipo de posibilidades en las que se puede utilizar. . En el stand de LinkedIn, por ejemplo, verá servidores Olympus colocados en un rack de 19 pulgadas. Otros tomaron el Olympus y lo pusieron en el Open Rack. Otros crearon SKU de almacenamiento con los que yo nunca soñé. Otros han tomado placas base Olympus y las han colocado en gabinetes acelerados por GPU. El beneficio para mí es que no tengo que buscar previamente y pensar en todas estas posibilidades sobre dónde podría necesitar un determinado tipo de hardware, porque el ecosistema está construyendo todas estas variantes.

TPM:Y usted puede retroceder y adoptar lo que crea conveniente hacer.

Kushagra vacío: Exactamente. Si necesito un sistema GPU, alguien más iniciará un nuevo proyecto y lo tendremos. Eso me da tiempo para obtener una ventaja en el mercado.

TPM: ¿Es la cadena de suministro de OCP más segura y más amplia? Sé que ha habido momentos en los que los hiperescaladores y los creadores de la nube querían comprar 100.000 servidores al mismo tiempo, y este es probablemente un momento estimulante y aterrador al mismo tiempo para los ODM y OEM. Entonces, dentro de cinco años, ¿la cadena de suministro de OCP es más multiproceso y es más fácil satisfacer cualquier demanda de capacidad de almacenamiento y servidor que tenga? ¿O la demanda sigue superando la oferta sin importar lo que haga?

Kushagra vacío: Si utiliza los mismos componentes básicos, facilitará la gestión de la cadena de suministro. Entonces, por ejemplo, al colocar chips de seguridad Cerberus en cada placa base, lo cual estamos haciendo, y siempre que todos los demás usen esa misma placa base, obtengo esa capacidad básica en toda la cadena de suministro.

Aquí hay otro ejemplo. Hace dos años, cuando abrimos el rack Olympus, tenía una unidad de distribución de energía universal y una entrada trifásica, por lo que podía ir a cualquier centro de datos del mundo y siempre que ese centro de datos proporcionara el cable adecuado para conectarse. Con esta PDU universal, se podía construir un bastidor, enviarlo a cualquier parte del mundo y simplemente se enchufaba y funcionaba.

Estos retoques han contribuido en gran medida a acortar la latencia en la cadena de suministro porque no tenemos que tener variaciones en las PDU y podemos enviar bastidores de un lugar a otro sin tener que preocuparnos por desmontarlos y reinstalarlos. Por lo tanto, tenemos modularidad en los sistemas, en los bastidores y en todas las regiones.

TPM: Tiene una gran cantidad de equipos OEM que compró a Hewlett Packard Enterprise y Dell en la flota de Azure, además de todo el material original de Open CloudServer que implementó a partir de 2015, y ahora las máquinas Project Olympus, que se revelaron hace poco más de dos años. hace años que. ¿Cuál es la penetración actual de las máquinas Olympus en la flota de Azure? ¿Sólo los nuevos centros de datos obtienen el hardware más nuevo?

Kushagra vacío: Lleva un tiempo desmantelar las máquinas que se instalaron anteriormente. Pero toda nueva capacidad es el Olimpo. No puedo decirte las proporciones, pero probablemente puedas adivinar.

TPM:Después de dos años en el campo, supongo que más de la mitad de la capacidad instalada es hierro Olympus.

Kushagra vacío:[Sonríe]

TPM: Tener un mejor diseño de servidor (más eficiente, más denso, más flexible) no acorta el tiempo que una máquina está en el campo. Supongo que hay que amortizarlo por completo y agotar su vida económica según las normas establecidas por los contables. ¿Que Olympus fuera mejor que Open CloudServer no acelera esa depreciación y por tanto acorta el tiempo que necesita estar en el campo?

Kushagra vacío:Eso es correcto.

TPM: Vi los diseños de servidores “Zion” y “Kings Canyon” para capacitación e inferencia en aprendizaje automático, respectivamente. No he visto ningún diseño de sistema más allá del HGX-1, que Microsoft creó en colaboración con Nvidia y compartió con los hiperescaladores y que Nvidia ha mejorado con los diseños HGX-2 utilizando la interconexión de memoria NVSwitch en las GPU.

Kushagra vacío: Hemos estado colaborando con Facebook en el módulo acelerador OCP, que es parte de ese sistema Zion. Con ese OAM, se estandarizan la salida de pines, la tierra, la potencia y los lugares por donde salen los autobuses. Facebook construyó el módulo para la carcasa del acelerador y trabajamos con ellos para asegurarnos de que el módulo cumpla con los requisitos térmicos y mecánicos de Microsoft. Así que ahora ambos podemos beneficiarnos de eso. Entonces, si construimos un chasis con dieciséis GPU en lugar de ocho, por ejemplo, podemos usar los diseños de cada uno.

TPM:Es como un enchufe portátil y estandarizado con un asa.

Kushagra vacío: Sí. Y si usted es un proveedor de chips y desea realizar una incorporación rápida a uno de nuestros centros de datos, hágalo funcionar en el OAM y funcionará en el chasis en un abrir y cerrar de ojos. De lo contrario, todos están creando su propia solución térmica, módulo y pines favoritos, y eso hace que sea más difícil para todos integrarlo.

TPM: Eso me lleva al siguiente punto. Estamos en esta explosión cámbrica en computación, con tantos tipos diferentes de computación y existe una competencia creíble en computación por primera vez en mucho tiempo para las máquinas convencionales y los precios. Existen muchos aceleradores diferentes para una amplia variedad de cargas de trabajo. Pero, ¿qué va a hacer realmente Microsoft con toda esta computación? Existe el objetivo de que la mitad de la computación detrás de los servicios de Azure se ejecute en procesadores Arm, no en la infraestructura de la nube, que necesariamente tendrá que ser procesadores X86 en su mayor parte durante muchos años. Tienes FPGA y GPU para acelerar ciertas funciones. ¿Cómo se está manifestando esta diversidad en los centros de datos de Azure?

Kushagra vacío: Depende del tipo de carga de trabajo. Todas las CPU Arm que existen tienen muchos subprocesos y funcionan bien para un determinado tipo de carga de trabajo. Los procesadores X86 se utilizan más para un mayor rendimiento de un solo subproceso y son para una carga de trabajo diferente. El caso es que el centro de datos es cada vez más heterogéneo. Incluso si se limita al espacio de la IA, hay tantas cargas de trabajo de IA diferentes y ningún chip de IA, ya sea una GPU o algo de una de estas nuevas empresas, funcionará bien en todas estas cargas de trabajo de IA al mismo tiempo. . Creo que también terminaremos con heterogeneidad.

TPM: ¿Qué tan complicado se vuelve todo esto? ¿Cuál es la fuerza que rechaza esa diversidad y complejidad de la computación? La economía y la facilidad de adquisición y gestión generalmente significan elegir menos tipos posibles de computación en lugar de más. Existe una tendencia entre los hiperescaladores a intentar no tener demasiadas cosas diferentes, pero siempre existe el deseo de tener una arquitectura adaptada específicamente a una carga de trabajo. Mi opinión es que, en este punto del ciclo de TI, tener algo que esté adaptado a la aplicación supera a la menor complejidad porque realmente se necesita el ajuste para obtener eficiencias.

Kushagra vacío: Estás en lo cierto. Esto es lo que está sucediendo debido a la desaceleración de la Ley de Moore. En los viejos tiempos, la CPU era buena para una infraestructura única porque podía hacer prácticamente todo lo que se necesitaba y hacerlo bastante bien. Las cargas de trabajo seguían siendo cosas clásicas, como servicio de archivos, procesamiento de transacciones, bases de datos, etc. Pero a medida que la Ley de Moore empezaba a ralentizarse, casualmente surgieron nuevas cargas de trabajo en las que este no era el caso.

La forma de pensar en esto es la siguiente: si hay valor económico porque hay una carga de trabajo lo suficientemente grande como para que sea importante para sus finanzas, entonces querrá hacer algo especializado porque influye en la economía (los costos y los beneficios). de albergar esa carga de trabajo. Entonces la pregunta es, ¿en qué umbral se encuentra la carga de trabajo en hardware optimizado? Por debajo de ese umbral sabes que no es óptimo, pero puedes ejecutarlo en hardware más genérico y todo estará bien.

TPM:Entonces, ¿cómo se calculan esos umbrales?

Kushagra vacío: No creo que exista una regla general fácil. Hay tantos factores.

TPM: Parece un árbol de decisiones bastante largo por el que hay que recorrer. ¿Quizás podrías usar IA para resolverlo? Y para complicar aún más las cosas, en este negocio, sabes que si esperas de 12 a 18 meses, siempre habrá algo mejor en camino. Tienes un trabajo molesto.

Kushagra vacío: De nuevo, estás en lo cierto. [Risa]

Se está volviendo más difícil debido a la desaceleración y a la innovación que están impulsando todas estas nuevas empresas y las nuevas cargas de trabajo especializadas. Y la única manera de abordar esto es mantener abiertas las opciones e impulsar la eficiencia a través de esta heterogeneidad.

TPM: Las opciones para el entrenamiento en aprendizaje automático están aumentando, aunque hasta ahora la GPU las ha dominado por completo. Hay muchos otros que están atacando la inferencia del aprendizaje automático. Intel ha adquirido Nervana para el aprendizaje automático y veremos qué pasa allí. Los FPGA tienen su lugar en la inferencia por ahora. ¿Cuál es su opinión, en general, no específicamente de ningún proveedor, sobre las perspectivas de que estas nuevas empresas obtengan impulso?

Kushagra vacío: Todavía es demasiado pronto. Ninguno de ellos está en producción todavía. Pero si nos fijamos en el espectro, es muy prometedor. El tiempo dirá.

TPM:¿Qué queda por hacer con el diseño de infraestructura?

Kushagra vacío: ¿Sabes cuál es mi mayor preocupación? Dondequiera que mire, el poder sigue subiendo y subiendo. La potencia de las CPU supera ahora los 200 vatios.

TPM: Solíamos reírnos de Power7 y Power8 por tener más de 200 vatios y 300 vatios. No escucho a nadie reír ahora porque todos se han puesto al día.

Kushagra vacío: Así que todo lo que se refiere al poder está girando hacia arriba. Los chips de IA tienen entre 250 y 400 vatios. Es una locura. Y el rack todavía tiene un tamaño de 40U a 48U y estamos llegando al punto en el que ya no podemos enfriarlo con aire. Simplemente no es eficiente, y con una densidad de potencia tan alta, nadie puede mover suficiente aire para enfriarlo, y aunque yo pueda hacerlo. Voy a alterar radicalmente el entorno del centro de datos porque el flujo de aire será muy alto y mis delta T estarán fuera de control. No es un gran problema todavía, pero lo será dentro de dos o tres años, y de ahí en adelante, especialmente a medida que la escala empeore cada vez más.

Entonces tendremos que recurrir a una forma alternativa de enfriamiento. No sé cuál es la respuesta correcta: podría ser refrigeración líquida por inmersión o tubos de calor y placas frías. Pero tenemos que descubrir cómo lidiar con la heterogeneidad de aceleradores en cada área que van a ser de alta potencia. Y es un problema de sistemas. Debe diseñarlo directamente a nivel de chip, a nivel de chasis, a nivel de bastidor y a nivel de centro de datos. Todo eso sube y baja porque afectará la economía de alojar estas nuevas cargas de trabajo.

TPM: ¿Cuál es la densidad de potencia de un rack de equipos Olympus nuevos en la actualidad? ¿Está por encima de los 30 kilovatios o se acerca a los 40 kilovatios?

Kushagra vacío: Depende de lo que le pongas. Si nos fijamos en la PDU de Olympus, puede generar energía trifásica de 480 voltios, 30 amperios. Por lo tanto, puede generar fácilmente 15 kilovatios por bastidor. Podrías aumentar eso a unos 30 kilovatios. Pero luego terminas con problemas térmicos.

TPM: ¿Es seguro decir que habrá algún tipo de refrigeración líquida en este momento? Quiero decir, el enfriamiento inmersivo es interesante, exótico y una completa molestia a menos que desee hacer un techo de centro de datos de solo tres pies de altura después de colocar los bastidores y llenarlos con aceite mineral, aceite vegetal o cualquier fluorocarbono que desee. .

Kushagra vacío:Quizás los tubos de calor y las placas frías parezcan más realistas porque no es necesario cambiar por completo las operaciones del centro de datos para utilizarlos.

TPM:¿Hasta qué punto ha jugado Microsoft con otras formas de refrigeración en los centros de datos de Azure?

Kushagra vacío:Hay mucha experimentación, pero hasta ahora, incluso con las GPU de gama alta, aún puedes enfriarlas con aire.

TPM:¿Y llenar las rejillas?

Kushagra vacío: [Risas] No se pueden llenar los estantes. Hay que dejar mucho espacio.

TPM:Lo que plantea la pregunta: ¿Por qué presionar para lograr toda esa densidad si solo puedes llenar los estantes hasta la mitad?

Kushagra vacío: Ésa es la esencia del problema. Si esto continúa de esta manera, tendrás una cosa en un estante y estará casi vacía.

El chasis Olympus actual tiene tubos de calor. Las dos CPU tienen un disipador de calor como es habitual, pero los tubos de calor van hacia la parte trasera; son de circuito cerrado y ya están implementados en producción. Pero la exótica refrigeración líquida rompe el modelo operativo del centro de datos. ¿Cómo le prestas servicio?

TPM:Todo este aumento de la densidad en la computación es interesante: puedes poner el doble de núcleos en un socket, pero quemas el doble de energía y obtienes un rendimiento ligeramente menor cuando lo haces.

Kushagra vacío: Sí, es malo. Tienes un estante y estás desperdiciando espacio. Tiene un conmutador en la parte superior del bastidor y está dejando puertos varados. Todo empieza a acumularse todo el tiempo.

TPM: ¿No estás enojado por todo esto? Todo esto se debe a las leyes de la física, que son realmente decepcionantes.

Kushagra vacío:Son las leyes de la física, y el fin del CMOS va a ser complicado.

TPM: Estás muy tranquilo, así que me enojaré por ti. Este es sólo un juego de densidad y no estamos ganando. Duplican los núcleos, pero las velocidades de reloj se reducen un poco y el costo por núcleo es el mismo o incluso mayor. Si puedes conseguir que las empresas de software cobren por socket en lugar de por núcleo por las cosas, al menos obtendrás algo de ello. Las instrucciones por núcleo aumentan un 2 por ciento, un 5 por ciento, tal vez un 10 por ciento por generación. Los vectores siguen duplicando su ancho y estamos usando precisión mixta para empujar más cosas a través de ellos, pero hay que ralentizarlos a medida que se ensanchan o el chip se derretirá. Esto es doloroso de ver. Y con cada generación, si tienes que sacar un tercio de los servidores del rack porque de lo contrario no puedes mantenerlo frío, lo cual es realmente una molestia. No se pueden tener 80 kilovatios o 100 kilovatios de cosas en un rack porque incluso si pudiera enfriarlo, no se puede llevar tanta energía a un centro de datos.

¿Hasta dónde se puede llevar esto, incluso con refrigeración alternativa y sin refrigeración por aire?

Kushagra vacío: Piensa en ello de esta manera. Tienes que fijarte en cuánta potencia puedes entregar y cuánto puedes enfriar. Resuelves un problema y te topas con el otro. Suponiendo que pueda enfriar una rejilla, ¿cómo se lleva energía a la rejilla? Y si puede hacer eso, entonces ¿cuál es la potencia de la barra colectora al bastidor y cuál es su capacidad actual?

Hoy en día, el punto óptimo está entre 10 kilovatios y 15 kilovatios, basado en piezas básicas con refrigeración por aire. Probablemente pueda aumentar hasta 25 kilovatios aproximadamente y estar bien, pero ahora necesita más cobre y ese costo comienza a aumentar. Más allá de eso, no creo que la industria tenga soluciones disponibles a un nivel más amplio, excepto supercomputadoras y otros equipos exóticos.

TPM: Nuevo tema. Si observa los datos de tendencias de la última década, el costo promedio de un servidor se ha más que duplicado, y sabe tan bien como yo que estamos pagando una prima por la computación. El costo por unidad de computación no está disminuyendo tan rápido como solía hacerlo, incluso cuando el rendimiento multiproceso de los procesadores y aceleradores está aumentando, aunque tampoco tan rápido como antes, dentro de sus arquitecturas. ¿Te preocupa eso? Tienes tantas cosas sobre las que no puedes hacer nada.

Kushagra vacío: Hay muchas cosas. Cuando se trata de interconexiones, el cobre se está quedando sin fuerza. Hemos realizado señalización de 25 Gb/s, tenemos 50 Gb/s y es posible que podamos llegar a 100 Gb/s. ¿Y entonces que? Luego tenemos que hacer óptica. Así que esa es otra perturbación en el horizonte. No creo que la industria haya descubierto cómo gestionar esa transición.

La gente habla de fibra óptica en la red troncal y en la WAN, pero si tenemos que seguir impulsando las transmisiones y las velocidades a nivel de servidor, debido a que el número de núcleos está aumentando, la red tiene que poder seguir el ritmo. Y si se está quedando sin fuerza con el cobre a 100 Gb/s aproximadamente, debe recurrir a la fotónica de silicio. No hay otra opción y todavía no se vislumbra ninguna solución en el horizonte. Y cuando llegue, ¿será a un precio neutral? La fotónica es difícil de hacer.

TPM:Entonces, ¿cuándo piensas jubilarte?

Kushagra vacío: [Risas] Después de resolver todos estos problemas. Entonces puedo retirarme.

TPM: Buena respuesta. Solía ​​pensar que quería un trabajo como el tuyo. Ahora no estoy tan seguro. No, en realidad, estoy seguro. No lo quiero. Pero te haré este trato: no me retiraré hasta que resuelvas todos estos problemas, y estaré observando cómo lo haces.

Presentamos aspectos destacados, análisis e historias de la semana directamente desde nosotros a su bandeja de entrada sin nada intermedio. Suscríbase ahora

Timothy Prickett Morgan:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM:Kushagra vacío:TPM: