« Días difíciles | Main | Super Domingo »

Más

Lo siento, necesito relatarlo para desahogarme. Lo contaré siguiendo mi filosofía de nada más la puntita

Todo comenzó una mañana en la que mi mamá se iba de vacaciones con uno de mis tíos y una de mis tías (sus hermanos). Me dijo que fuera con ellos, pero en ese momento tenía algo parecido a un trabajo de verdad. Así que decidí quedarme. Como mi actividad era por las mañanas, mi mayor preocupación era qué rayos hacer o dónde pasar las tardes, ya que prácticamente tenía la casa para mí solo.

¡Entonces sucedió!

Todo comenzó con que el server estaba algo lento para entrar al cpanel/whm. Al revisar me di cuenta de que había demasiados procesos de mysql. Reiniciando mysql todo volvía a la normalidad. Como eso seguía ocurriendo decidí suspender las cuentas más pesadas. Pero en lugar de mejorar el servidor se atoró

Por suerte tenemos RapidReboot. Después de reiniciar, parecía funcionar normalmente. Unas horas después se atoró, lo cual no dejaba más alternativas más que RapidReboot mientras pensaba en algo. Revisando los logs, encontré algunos intentos de ataques, nada grave en realidad. De todas maneras decidí suspender todas las cuentas.

Suspender todas las cuentas me tomó más de un día. A eso echarle que por las mañanas estaba ocupado (en mi otra actividad) y que las quejas y mentadas se acumulaban.

Algo que me encanta de mis clientes es que los que más se quejan y amenazan son los que menos pagan. Hubo un caso de uno que una vez tenía un mes atrasado y cuando se lo intentaba cobrar, me bloqueó del messenger y obviamente no me pagó. No lo vi unos seis meses y ahora apareció para gritonearme lo grave que es que su site no estaba online.

Cuando ya iban 2 días decidí contratar un VPS y atender a las quejas más urgentes y poner online a quienes aceptaran el respaldo del 18 de diciembre. De serverbeach me recomendaban hacer ya un OS reload y volver a subir todo, sin embargo, más de una persona me mataría sin un respaldo más actualizado. Así que decidí tratar de sacar todo antes del reload.

Fue difícil hacer los respaldos y en realidad logré sacar muy pocos (unos 40) ya que el servidor se seguía trabando. Pensé que el problema podría ser algún bug en algún servidor y entonces bloqueé casi todos los puertos con IPtables. Dejé el servidor una noche y sobrevió sin problemas. Al día siguiente intenté seguir con los respaldos, pero se seguían trabando.

Después de revisar core files me di cuenta de que muchas veces se había trabado al momento de hacer llamadas a la glibc. También me di cuenta al revisar más logs, que había ataques que no eran tan triviales en el server.

Haciendo mis propias pruebas con un determinístico programa para calcular PI en C, perl y python me percaté que tal vez el problema era diferente. Algunas veces el programa terminaba bien, otras con segmentation fault y otras trabándose todo el server. Que un programa deje de ser determinístico sólo puede indicar un problema de hardware.

El fin de semana tenía una operación secreta que no resultó y hubo que abortar la misión. El sábado tronó el messenger y la verdad no tenía ganas de volverme a meter. Después tronó windows y al reiniciar tampoco me volví a meter a gtalk. El lunes literalmente explotó mi monitor. Había vidrios por todos lados y eso me obligó a limpiar mi escritorio. Encontré el scanner y ya se puede usar, pues ya no tiene media tonelada de cosas encima.

Me pagaron lo de la semana anterior y realmente me puse contento al ver tanto dinero junto. Muchas cosas pasaron por mi mente, sin embargo ese dinero no duró mucho, pues el mismo día lo deposité para reducir mis deudas. Mi teoría del problema de hardware cobró fuerza cuando del datacenter me informaron que en algunos reboots habían encontrado kernel panics.

Lo siguiente era conseguir otro monitor. Razón para estar offline otro rato. Una vez estrenando monitor, basándome en la teoría del problema de hardware pedí un upgrade (que cambiaran el hardware) pero que dejaran el mismo disco duro.

Ahí iba bien, pero muchas cosas no arrancaban. Me metí al IRC para contratar algún experto en seguridad o computación forense o kernel gurú y que me echara la mano y sacar todo más rápido. Encontré un par que se veían con bastante experiencia. El error más grave que pude cometer fue darles la contraseña de root al mismo tiempo, pues ambos comenzaron a hacer cambios al mismo tiempo. Cuando el primero reinició, el servidor no volvió a arrancar (¿qué les enseñan en las universidades en estos días?) y no hubo más remedio que el aclamado OS reload que pude haber hecho una semana antes.

Ahora están en deuda conmigo y prometieron ayudarme en la parte de seguridad. Es bueno tener dos esclavos más, los ocuparé para hacer consultoría.

Ésa fue la gran aventura. Aún tengo chorrocientosmil mails por contestar.

Creative Commons License
Nada más la Puntita by Dan Alonso is licensed under a Creative Commons Reconocimiento-Compartir bajo la misma licencia 2.5 México License.
Permissions beyond the scope of this license may be available at http://dan-alonso.org/trabajos-derivados.

Comments

Wow, muchas cosas, wtf is kernel panic? que tan gurús eran los que contrataste??

http://en.wikipedia.org/wiki/Kernel_panic

Son lo mejor que pude encontrar en el IRC un martes a las 3:50 am.

Post a comment