Введение в HandlerSocket: описание протокола и расширения php-handlersocket
Сейчас на волне популярности различных NoSQL решений создана интересная разработка – плагин для MySQL, реализущий NoSQL доступ к нему, представленный 20 октября 2010г Yoshinori Matsunobu. В этой заметке я рассмотрю сам протокол, а также его реализацию в php-расширении php-handlersocket.
Что такое HandlerSocket

HandlerSocket работает как демон внутри процесса mysql, принимая TCP соединения и выполняя запросы клиентов. Он не поддерживает SQL запросы, вместо этого он предоставляет простой язык запросов для CRUD операций с таблицами. Именно поэтому, он гораздо быстрее mysqld/libmysql в некоторых случаях:
- HandlerSocket оперирует данными без парсинга SQL запроса, что приводит к уменьшению загрузки процессора.
- Он поддерживает пакетное выполнение запросов. Можно отправить несколько запросов сразу и получить результат за один раз, что опять же снижает нагрузку на процессор и на сеть.
- Протокол HandlerSocket более компактный чем у mysql/libmysql, что приводит к сокращению нагрузки на сеть.
Текущая версия работает только под GNU/Linux, версия под Windows пока не планируется.
Чтобы не повторяться, я попытаюсь сравнить HandlerSocket с другими решениями.
HandlerSocket VS Memcached
+ Более высокая скорость, как показывают тесты.
+ Постоянное хранение данных.
HandlerSocket работает быстрее, так зачем теперь нужен Memcached? Ах да, мы же может создать кластер сервером memcached. Но никто нам не мешает наладить репликацию и получить тоже самое 😉
HandlerSocket VS MongoDB, CouchDB, Redis …
+ Мы используем одну базу для SQL-доступа, и для NoSQL-доступа. Не нужно никакое другое ПО для обслуживание данных.
+ Всё что доступно для MySQL (репликация, партиционирование, и огромное количество наработок) по факту доступно и для HandlerSocket, т.к. БД одна и та же.
Недостатки HandlerSocket
– Свой язык запросов, не совместимый с другими NoSQL решениями. Но, т.к. они и между собой не совместимы, то я не считаю это серьезным недостатком. Зато есть клиенты под большинство языков. (PHP, Perl, Ruby).
– Индексы хранятся в памяти. Подключаем SSD, и это перестает быть недостатком.
– Для использования с MySQL необходимо скачать исходники и бинарники, сам плагин, скомпилить его и подключить. Но можно просто скачать Percona Server и установить его по моему мануалу. HandlerSocket уже есть в нём (для всех кроме lucid).
-/+ Даже не знаю, к чему это отнести. У HandlerSocket один порт – для запросов на чтение, а второй для запросов на запись.
Протокол HandlerSocket
Основные сведения
– Протокол HandlerSocket строковый. Каждая строка заканчивается символом LF(0x0a).
– Каждая строка состоит из конкатенации токенов, разделённых символом HT(0x09).
– Токеном может быть либо символ NULL либо закодированная строка. Важно отличать NULL от пустой строки, т.к. БД тоже отличают их.
– NULL записывается одним символом NUL(0x00).
– Закодированная строка это строка, которая кодируется по следующим правилам:
– Символы находящиеся в диапазоне [0x10 – 0xff] не кодируются.
– Символы в диапазоне [0x00 – 0x0f] обозначаются префиксом 0x01 и сдвигаются на 0x40. Например, 0x03 кодируется как 0x01 0x43.
– Не забывайте, что строки могут быть пустыми. Последовательность 0x09 0x09 значит, что между двумя символами содержится пустая строка. Последовательность 0x09 0x0a значит, что в конце последовательности есть пустая строка (в тексте обозначена как пробел).
Запрос и ответ
– Протокол HandlerSocket – это простой протокол типа “запрос-ответ”. После установления соединения, клиент посылает запрос, а сервер возвращает ему ответ.
– И запрос и ответ представляют собой одну строку.
– Запросы могут быть конвейерными; Это значит, что вы можете посылать много запросов сразу (много строк) за один раз, и получать ответ сразу на все запросы. По сути это аналог Multi-GET в Memcache протоколе.
Запрос на открытия индекса OPEN_INDEX
Запрос ‘open_index’ имеет следующий синтаксис.
P <indexid> <dbname> <tablename> <indexname> <columns>
– <indexid> это уникальный номер индекса.
– <dbname>, <tablename>, и <indexname> это строки. Для открытия индекса на первичный ключ, используйте PRIMARY в качестве <indexname>.
– <columns> список колонок, резделённых запятыми.
Когда вызывается команда открытия индекса, плагин HandlerSocket открывает указанный индекс и хранит его до закрытия соединения с клиентом. Каждый открытый индекс имеет свой уникальный <indexid>. Если индекс уже открыт, старый индекс закрывается. Вы можете открывать разные индексы с одинаковыми значениями <dbname> <tablename> <indexname> много раз, возможно с отличающимся набором колонок <clumns>. Для увеличения производительности старайтесь использовать маленькие значения <indexid>.
Запрос на получение данных FIND
Запрос “find” имеет следующий синтаксис.
<indexid> <op> <vlen> <v1> … <vn> <limit> <offset>
– <indexid> это номер индекса, по которому необходимо производить поиск. Он должен быть таким же, как и <indexid> в команде open_index.
– <op> определяет операцию сравнения, которая будет производиться при поиске. Текущая версия поддерживает следующие операции: specifies ‘=’, ‘>’, ‘>=’, ‘<‘, и ‘<=’.
– <vlen> определяет длину строки параметров <v1> … <vn>. Их количество должно быть меньше или равно количеству колонок в индексе, определённых в предшествующей команде open_index.
– <v1> … <vn>определяет значения колонок, которые нужно искать.
– <limit> и <offset> это числа. Аналогичны LIMIT и OFFSET параметрам в SQL-запросе. Это необязательные параметры. Когда они опущены, используются значения 1 и 0 для них.
Обновление/удаление данных FIND_MODIFY
Запрос ‘find_modify’ имеет следующий синтаксис.
<indexid> <op> <vlen> <v1> … <vn> <limit> <offset> <mop> <m1> … <mk>
– <mop> это КОП (код операции) ‘U’ (при обновлении) или ‘D’ (при удалении). Кто изучал Ассемблер, сразу его вспомнит 🙂
– <m1> … <mk> определяют значения для колонок, которые надо установить. Количество <m1> …
<mk> должно быть меньше или равно количеству колонок <columns> в открытом индексе ‘open_index’. Если <mop> равен ‘D’, эти параметры игнорируются.
Вставка данных INSERT
Запрос ‘insert’ имеет следующий синтаксис.
<indexid> ‘+’ <vlen> <v1> … <vn>
– <vlen> определяет длину строки параметров <v1> … <vn>. Их количество должно быть меньше или равно количеству колонок в индексе, определённых в предшествующей команде open_index.
– <v1> … <vn>определяет значения колонок, которые нужно записать. Для тех колонок, которых нет в <columns> будут выставлены значения по-умолчанию.
Формат ответа от HandlerSocket сервера
Сервер HandlerSocket возвращает ответ следующего синтаксиса для каждого запроса.
<errorcode> <numcolumns> <r1> … <rn>
– <errorcode> это статус ответа. 0 – значит запрос выполнен успешно
другое значение – код ошибки.
– <numcolumns> это количество колонок в результирующем наборе.
– <r1> … <rn> это результирующий набор. Длина <r1> … <rn> всегда кратна <numcolumns>. Она либо равна <r1> … <rn> либо пуста (empty).
Если <errorcode> не равен нулю, <numcolumns> всегда равно 1 а в <r1> содержится текст сообщения об ошибке, но иногда <r1> может не возвращаться.
Ответ на запрос OPEN_INDEX
Если индекс открыт успешно, HandlerSocket возвращает следующую строку.
0 1
Ответ на запрос FIND
Если запрос ‘find’ выполнен успешно, HandlerSocket возвратит строку следующего формата.
0 <numcolumns> <r1> … <rn>
– <numcolumns> всегда равно количеству колонок <columns> соответствующего запроса ‘open_index’.
– <r1> … <rn> это результирующий набор. Если N строк найдено, длина <r1>… <rn> будет равна ( <numcolumns> * N ).
Ответ на запрос FIND_MODIFY
Если запрос ‘find_modify’ выполнен успешно, HandlerSocket возвратит строку такого вида:
0 1 <numfound>
<numfound>- это количество строк, подошедших под условие запроса.
Ответ на запрос INSERT
Если запрос ‘insert’ выполнен успешно, HanderSocket возвратит строку такого вида:
0 1
Расширение PHP-HandlerSocket
Само расширение можно найти в GitHub’е: http://code.google.com/p/php-handlersocket/
Как вы уже знаете, HandlerSocket демон использует два порта. Один (9998) для чтения и другой (9999) для записи. Поэтому при инстанцировании объекта класса, необходимо использовать тот или иной порт, в зависимости от типа запроса.
Структура класса:
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
HandlerSocket { /* Constants */ const HandlerSocket::PRIMARY; /* Methods */ __construct ( string $host, int $port, [ array $options ]) public bool openIndex ( int $id, string $db, string $table, string $index, string $fields ) public mixed executeSingle ( int $id, string $op, array $fields [, int $limit, int $skip, strint $modop, array $values ] ) public mixed executeMulti ( array $requests ) public int executeUpdate ( int $id, string $op, array $fields, array $values [, int $limit, int $skip ] ) public int executeDelete ( int $id, string $op, array $fields [, int $limit, int $skip ] ) public bool executeInsert ( int $id, array $values ) public string getError ( void ) } |
Дальше предлагаю посмотреть на пример из документации, чтобы понять, как именно работает расширение.
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 |
openIndex(1, $dbname, $table, HandlerSocket::PRIMARY, 'k,v'))) { echo $hs->getError(), PHP_EOL; die(); } $retval = $hs->executeSingle(1, '=', array('k1'), 1, 0); var_dump($retval); // Чтение данных Multi-Get (find по тому же индексу) $retval = $hs->executeMulti( array(array(1, '=', array('k1'), 1, 0), array(1, '=', array('k2'), 1, 0))); var_dump($retval); unset($hs); // Обновление данных (open_index & find_modify mod = U) $hs = new HandlerSocket($host, $port_wr); if (!($hs->openIndex(2, $dbname, $table, '', 'v'))) { echo $hs->getError(), PHP_EOL; die(); } if (!($hs->executeUpdate(2, '=', array('k1'), array('V1'), 1, 0))) { echo $hs->getError(), PHP_EOL; die(); } unset($hs); // Вставка данных (open_index & insert) $hs = new HandlerSocket($host, $port_wr); if (!($hs->openIndex(3, $dbname, $table, '', 'k,v'))) { echo $hs->getError(), PHP_EOL; die(); } if (!($hs->executeInsert(3, array('k2', 'v2')))) { echo $hs->getError(), PHP_EOL; } if (!($hs->executeInsert(3, array('k3', 'v3')))) { echo 'A', $hs->getError(), PHP_EOL; } if (!($hs->executeInsert(3, array('k4', 'v4')))) { echo 'B', $hs->getError(), PHP_EOL; } unset($hs); // Удаление данных (open_index & find_modify mod = D) $hs = new HandlerSocket($host, $port_wr); if (!($hs->openIndex(4, $dbname, $table, '', ''))) { echo $hs->getError(), PHP_EOL; die(); } if (!($hs->executeDelete(4, '=', array('k2')))) { echo $hs->getError(), PHP_EOL; die(); } |
Драйвера для языков программирования
- PHP
|
1 2 3 |
<a href="http://openpear.org/package/Net_HandlerSocket">http://openpear.org/package/Net_HandlerSocket</a> <a href="http://github.com/tz-lom/HSPHP">http://github.com/tz-lom/HSPHP</a> <a href="http://code.google.com/p/php-handlersocket/">http://code.google.com/p/php-handlersocket/</a> |
- Java
|
1 2 |
<a href="http://code.google.com/p/hs4j/">http://code.google.com/p/hs4j/</a> <a href="http://code.google.com/p/handlersocketforjava/">http://code.google.com/p/handlersocketforjava/</a> |
- Python
|
1 |
<a href="https://code.launchpad.net/%7Esongofacandy/+junk/pyhandlersocket">https://code.launchpad.net/~songofacandy/+junk/pyhandlersocket</a> |
- Ruby
|
1 2 |
<a href="https://github.com/winebarrel/ruby-handlersocket">https://github.com/winebarrel/ruby-handlersocket</a> <a href="https://github.com/miyucy/handlersocket">https://github.com/miyucy/handlersocket</a> |
- JavaScript(Node.js)
|
1 |
<a href="https://github.com/koichik/node-handlersocket">https://github.com/koichik/node-handlersocket</a> |
Вообще мне очень нравится эта разработка. Если у кого-то есть что добавить, буду рад услышать ваше мнение.