- 博客(21)
- 收藏
- 关注
原创 PowerDesigner建模
PowerDesigner最基础的使用方法入门学习 1:入门级使用PowerDesigner软件创建数据库 我的PowerDesigner版本是16.5的,如若版本不一样,请自行参考学习即可。(打开软件即是此页) 2:首先创建概念数据模型,如图所示(后面介绍一些比如物理数据模型等等,由于此软件全部是英文的,所以作为一个chinese不是很懂的,耐心的多使用几次就好了。) 请自行脑补 概念模型(CDM Conceptual Data Model) 物理模型(PDM,Physical Da.
2022-05-08 22:28:19
396
原创 winutil处理 hadoop-2.6.1
原始数据 hello tom hello jerry hello kitty hello world hello tom Map阶段 1.每次读一行数据, 2.拆分每行数据, 3.每个单词碰到一次写个1 <0, "hello tom"> <10, "hello jerry"> <22, "hello kitty"> <34, "hello world"> <46, "hello tom"> import org.
2022-05-08 22:18:31
218
原创 网络爬虫、Pandas
DataFrame 构造方法如下: pandas.DataFrame( data, index, columns, dtype, copy) 参数说明: data:一组数据(ndarray、series, map, lists, dict 等类型)。 index:索引值,或者可以称为行标签。 columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。 dtype:数据类型。 copy:拷贝数据,默认为 False。 Pandas DataFrame 是一个二维的数
2022-05-02 08:50:13
181
原创 MySQL、索引优化&参数优化
1.对查询进行优化 应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断, 否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否
2022-05-02 08:48:52
123
原创 hadoop2.2.0、HDFS的java访问接口
4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开 发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。 要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点: 确保宿主机与客户机的网络是互通的 确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置
2022-05-02 08:47:57
223
原创 numpy函数
准备工作: pip install numpy 把numpy模块安装好 代码如下: import numpy as np # 数组元素字符串连接 print('连接两个字符串:') print(np.char.add(['hello'], ['zmt'])) print(np.char.add(['hello', 'hi'], ['zmt', 'cyt'])) print('\n') # multiply()函数执行多重连接 print(np.char.multiply('cyt', 3))
2022-05-02 08:46:05
104
原创 Java操作HDFS
准备工作: Hadoop环境变量配置 jdk环境变量配置 不详细演讲 下面直接演示代码:(如下): import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import java.io.File; import java.io.FileOutputStream; import
2022-05-02 08:44:23
267
原创 MySQL查询优化
USE test; CREATE TABLE IF NOT EXISTS emp ( id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20), age INT, salary FLOAT ); 创建存储过程 DELIMITER $ CREATE PROCEDURE emp() BEGIN 定义一个循环变量 DECLARE i INT DEFAULT 0; WHILE(i<1000) DO BEGIN SELECT i; SET i..
2022-05-02 08:42:49
94
原创 数据库范式
第一范式(1NF)数据表的每一列都要保持它的原子特性,也就是列不能再被分割。 第二范式(2NF)、属性必须完全依赖于主键,消除部分依赖。下表问题在哪? 缺点 •表中的第一行数据都存储了系名、系主任,数据的冗余太大 •如果有一个新的系还没有开始找到学生,那么不能讲该系的信息添加到数据表中去,从数据表中看不到该系的存在 •如果将某个系的学生信息全部删除,那么这个系在数据表里也就不存在了,但这个系还存在。 •如果某个人要转系,那么为了保证数据库中数据的一致性,需要修改三条记录中系与系主任的数据
2022-04-12 16:25:02
204
原创 爬虫xpath用法
Xpath的作用: XPath 是一门在 XML 文档中查找信息的语言。 XML文档包括: HTML / XHTML XML / XML Namespaces XPath的节点: 请看下面这个 XML 文档: <?xml version="1.0" encoding="UTF-8"?> <bookstore> <book> <title lang="en">Harry Potter</title> ...
2022-04-12 16:19:28
188
原创 hadoop-2.2.0搭建
1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...
2022-04-12 16:16:24
179
原创 Hadoop伪分布式搭建
网络基础 网络分类(记忆) 局域网(Local Area Network,LAN)是指范围在几百米到十几公里内办公楼群或校园内的计算机相互连接所构成的计算机网络。 城域网(Metropolitan Area Network,MAN)所采用的技术基本上与局域网相类似,只是规模上要大一些。城域网既可以覆盖相距不远的几栋办公楼,也可以覆盖一个城。 广域网(Wide Area Network,WAN)通常跨接很大的物理范围,如一个国家。 IP是英文Internet Protocol的缩写,意思是“网络之间互
2022-04-03 20:59:29
2430
原创 MySQL事务和触发器
事务:具有原子性、一致性、隔离性和持久性 原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。 一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。 隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离
2022-04-03 20:50:25
536
原创 用scapy获取网页信息
代码如下: win+R 输入cmd 打开终端输入 cd desktop scrapy startprojectTX movies cd TXmovies scrapy genspider txms v.qq.com 修改setting文件 ROBOTSTXT_OBEY=False DOWNLOAD_DELAY=1 DEFAULT_REQUEST_HEADERS{ 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9..
2022-04-03 20:43:31
849
原创 Python爬虫获取网页信息
import re from urllib import request # 定义url page=50 url='http://club.sanguosha.com/thread-1111069-1-1.html' try: # 定义请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 .
2022-03-20 14:54:14
779
原创 shell脚本
1、什么是shell Shell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 2、什么是脚本? 脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(数据库操作语言),Perl,Shell,pyt
2022-03-20 14:51:39
1001
原创 MySQL索引
1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能...
2022-03-20 14:23:53
102
原创 Python爬虫基础
1.爬虫入门程序 一、什么是爬虫? 一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 二、Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 扒取网页和基本代码: import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 2.爬虫程序添加data...
2022-03-13 17:19:08
2339
原创 linux指令
1.基础指令语法 ls指令 含义:列出当前工作目录下的所有文件/文件夹的名称 常见的语法: #ls -l路径 #ls -la 路径 选项解释:-l:表示list,表示以详细列表的形式进行展示 ...
2022-03-13 14:05:13
1370
原创 SQL基础语法
1.建库建表语法 #建库 create database if not exists dataname defaule charset utf8; #建表 create table if not exists runoob_tbl( runoob_id int primary key auto_increment, runoob_title varchar(20) not null, runoob_author varchar(20) not null, submission_date date not
2022-03-12 22:32:45
866
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人