Más
Lo siento, necesito relatarlo para desahogarme. Lo contaré siguiendo mi filosofÃa de nada más la puntita
Todo comenzó una mañana en la que mi mamá se iba de vacaciones con uno de mis tÃos y una de mis tÃas (sus hermanos). Me dijo que fuera con ellos, pero en ese momento tenÃa algo parecido a un trabajo de verdad. Asà que decidà quedarme. Como mi actividad era por las mañanas, mi mayor preocupación era qué rayos hacer o dónde pasar las tardes, ya que prácticamente tenÃa la casa para mà solo.
¡Entonces sucedió!
Todo comenzó con que el server estaba algo lento para entrar al cpanel/whm. Al revisar me di cuenta de que habÃa demasiados procesos de mysql. Reiniciando mysql todo volvÃa a la normalidad. Como eso seguÃa ocurriendo decidà suspender las cuentas más pesadas. Pero en lugar de mejorar el servidor se atoró
Por suerte tenemos RapidReboot. Después de reiniciar, parecÃa funcionar normalmente. Unas horas después se atoró, lo cual no dejaba más alternativas más que RapidReboot mientras pensaba en algo. Revisando los logs, encontré algunos intentos de ataques, nada grave en realidad. De todas maneras decidà suspender todas las cuentas.
Suspender todas las cuentas me tomó más de un dÃa. A eso echarle que por las mañanas estaba ocupado (en mi otra actividad) y que las quejas y mentadas se acumulaban.
Algo que me encanta de mis clientes es que los que más se quejan y amenazan son los que menos pagan. Hubo un caso de uno que una vez tenÃa un mes atrasado y cuando se lo intentaba cobrar, me bloqueó del messenger y obviamente no me pagó. No lo vi unos seis meses y ahora apareció para gritonearme lo grave que es que su site no estaba online.
Cuando ya iban 2 dÃas decidà contratar un VPS y atender a las quejas más urgentes y poner online a quienes aceptaran el respaldo del 18 de diciembre. De serverbeach me recomendaban hacer ya un OS reload y volver a subir todo, sin embargo, más de una persona me matarÃa sin un respaldo más actualizado. Asà que decidà tratar de sacar todo antes del reload.
Fue difÃcil hacer los respaldos y en realidad logré sacar muy pocos (unos 40) ya que el servidor se seguÃa trabando. Pensé que el problema podrÃa ser algún bug en algún servidor y entonces bloqueé casi todos los puertos con IPtables. Dejé el servidor una noche y sobrevió sin problemas. Al dÃa siguiente intenté seguir con los respaldos, pero se seguÃan trabando.
Después de revisar core files me di cuenta de que muchas veces se habÃa trabado al momento de hacer llamadas a la glibc. También me di cuenta al revisar más logs, que habÃa ataques que no eran tan triviales en el server.
Haciendo mis propias pruebas con un determinÃstico programa para calcular PI en C, perl y python me percaté que tal vez el problema era diferente. Algunas veces el programa terminaba bien, otras con segmentation fault y otras trabándose todo el server. Que un programa deje de ser determinÃstico sólo puede indicar un problema de hardware.
El fin de semana tenÃa una operación secreta que no resultó y hubo que abortar la misión. El sábado tronó el messenger y la verdad no tenÃa ganas de volverme a meter. Después tronó windows y al reiniciar tampoco me volvà a meter a gtalk. El lunes literalmente explotó mi monitor. HabÃa vidrios por todos lados y eso me obligó a limpiar mi escritorio. Encontré el scanner y ya se puede usar, pues ya no tiene media tonelada de cosas encima.
Me pagaron lo de la semana anterior y realmente me puse contento al ver tanto dinero junto. Muchas cosas pasaron por mi mente, sin embargo ese dinero no duró mucho, pues el mismo dÃa lo deposité para reducir mis deudas. Mi teorÃa del problema de hardware cobró fuerza cuando del datacenter me informaron que en algunos reboots habÃan encontrado kernel panics.
Lo siguiente era conseguir otro monitor. Razón para estar offline otro rato. Una vez estrenando monitor, basándome en la teorÃa del problema de hardware pedà un upgrade (que cambiaran el hardware) pero que dejaran el mismo disco duro.
Ahà iba bien, pero muchas cosas no arrancaban. Me metà al IRC para contratar algún experto en seguridad o computación forense o kernel gurú y que me echara la mano y sacar todo más rápido. Encontré un par que se veÃan con bastante experiencia. El error más grave que pude cometer fue darles la contraseña de root al mismo tiempo, pues ambos comenzaron a hacer cambios al mismo tiempo. Cuando el primero reinició, el servidor no volvió a arrancar (¿qué les enseñan en las universidades en estos dÃas?) y no hubo más remedio que el aclamado OS reload que pude haber hecho una semana antes.
Ahora están en deuda conmigo y prometieron ayudarme en la parte de seguridad. Es bueno tener dos esclavos más, los ocuparé para hacer consultorÃa.
Ésa fue la gran aventura. Aún tengo chorrocientosmil mails por contestar.

Nada más la Puntita by Dan Alonso is licensed under a Creative Commons Reconocimiento-Compartir bajo la misma licencia 2.5 México License.
Permissions beyond the scope of this license may be available at http://dan-alonso.org/trabajos-derivados.
Todos los personajes, hechos y lugares son ficticios.
Cualquier parecido con la realidad es mera coincidencia. Las opiniones, entrevistas y comentarios aquí expresadas son responsabilidad de su respectivo autor y no representan la opinión de dan-alonso.org ni de sus socios o afiliados.
Comments
Wow, muchas cosas, wtf is kernel panic? que tan gurús eran los que contrataste??
Posted by: Yanina | 3 de Febrero 2006 a las 05:13 PM
http://en.wikipedia.org/wiki/Kernel_panic
Son lo mejor que pude encontrar en el IRC un martes a las 3:50 am.
Posted by: Dan | 3 de Febrero 2006 a las 05:20 PM