Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма

Янцен, Д. Д.; Цымблер, М. Л.; Yantsen, D. D.; Zymbler, M. L.

Главная
→
Научные журналы ЮУрГУ
→
Вестник ЮУрГУ. Серия Вычислительная математика и информатика
→
Просмотр элемента

dc.contributor.author	Янцен, Д. Д.
dc.contributor.author	Цымблер, М. Л.
dc.contributor.author	Yantsen, D. D.
dc.contributor.author	Zymbler, M. L.
dc.date.accessioned	2015-09-07T04:31:36Z
dc.date.available	2015-09-07T04:31:36Z
dc.date.issued	2014
dc.identifier.citation	Янцен, Д. Д. Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма / Д. Д. Янцен, М. Л. Цымблер // Вестник ЮУрГУ. Серия Вычислительная математика и информатика.- 2014.- Т. 3. № 4.- С. 36-50.- Библиогр.: с. 46-48 (26 назв.)	ru_RU
dc.identifier.issn	2305-9052
dc.identifier.uri	http://dspace.susu.ac.ru/xmlui/handle/0001.74/5192
dc.description	Янцен Дмитрий Дмитриевич, магистрант кафедры системного программирования Южно-Уральского государственного университета (Челябинск, Российская Федерация), d.yantsen@gmail.com. Цымблер Михаил Леонидович, к.ф.-м.н., доцент кафедры системного программирования Южно-Уральского государственного университета (Челябинск, Российская Федерация), mzym@susu.ru. D.D. Yantsen, South Ural State University (Chelyabinsk, Russian Federation), M.L. Zymbler, South Ural State University (Chelyabinsk, Russian Federation	ru_RU
dc.description.abstract	Сэмплинг является популярным подходом к обработке сверхбольших баз данных в широком спектре приложений, связанных с интеллектуальным анализом данных, построением гистограмм, приблизительное исполнение запросов и др. Использование сэмпла вместо оригинальной базы данных может уменьшить точность результатов, но компенсируется сокращением времени выполнения обработки. Репрезентативный сэмплинг позволяет сохранить в сэмпле определенные характеристики базы данных. Однако существующие алгоритмы репрезентативного сэмплинга не могут быть применены для параллельных систем баз данных, поскольку не учитывают характеристики данных, распределяемых по вычислительным узлам кластерной системы. В данной статье предлагается алгоритм репрезентативного сэмплинга для параллельных реляционных систем баз данных на основе фрагментного параллелизма. Приведены результаты вычислительных экспериментов над предложенным алгоритмом, показавшие адекватное сохранение репрезентативности свойств базы данных, распределенной по узлам кластерной системы. Sampling is a popular approach to very large databases processing in a wide range of applications, e.g. data mining, histograms construction, query execution cost estimation, etc. Use of either the sample instead of the original database can reduce the accuracy of the results, but offset by a reduction of time executing processing. Representative sampling allows you to save the sample of certain characteristics of the database. However, existing algorithms for representative sampling can not be used for pas-parallel database systems because it does not take into account the characteristics of the data distribution fissionable by the compute nodes of the cluster system. In this paper we propose al-representative sampling algorithm for parallel relational database systems based on the slice of parallelism. The results of computational experiments on the proposed algorithm, showing adequate maintenance of representativity database properties distributed across the nodes of a cluster system.	ru_RU
dc.language.iso	other	ru_RU
dc.publisher	Издательский центр ЮУрГУ	ru_RU
dc.relation.ispartof	Вестник ЮУрГу. Серия Вычислительная математика и информатика	ru
dc.relation.ispartof	Bulletin of South Ural State University. Series 'Computational mathematics and software engineering"	en
dc.relation.ispartofseries	Вычислительная математика и информатика;Том 3
dc.subject	реляционные базы данных	ru_RU
dc.subject	параллельные системы баз данных	ru_RU
dc.subject	репререляционные базы данных	ru_RU
dc.subject	параллельные системы баз данных	ru_RU
dc.subject	репрезентптивный сэмплинг	ru_RU
dc.subject	relational databases	ru_RU
dc.subject	parallel database systems	ru_RU
dc.subject	representative samplin	ru_RU
dc.subject	УДК 004.65	ru_RU
dc.subject	УДК 004.622	ru_RU
dc.subject	ГРНТИ 50.41	ru_RU
dc.title	Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма	ru_RU
dc.title.alternative	Representative sampling algorithm for database systems based on the partitioned parallelism	ru_RU
dc.type	Article	ru_RU